본문 바로가기

데이터 분석23

DeepLearning(Tensorflow, Keras) ◆ 인공 신경망 ● Tensorflow, Keras 초기 설정 import tensorflow as tf tf.keras.utils.set_random_seed() tf.config.experimental.enable_op_determinism() ● 데이터 로드 from tensorflow import keras (X_train, y_train), (X_test, y_test) = keras.datasets.fashion_mnist.load_data() ● 데이터 형태 확인 X_train.shape -> (60000, 28, 28) # (데이터 개수, 행 픽셀, 열 픽셀) ● 이미지 데이터 픽셀로 변환(10개 예시) import matplotlib.pyplot as plt fig, axs = plt.s.. 2024. 2. 20.
공공데이터 프로젝트 : 고용불안의 원인 분석과 고찰 및 미치는 영향분석 2024. 1. 21.
PCA(주성분분석) ◆ 데이터 로드 ◆ 주성분분석 - 분산이 가장 큰 방향을 나타내는 선을 찾고, 그 특성에 원래 데이터 샘플을 투영하는 방식의 주성분분석 - 실제 데이터 차원보다 더 적게 주요 성분을 찾아가는 알고리즘 - 특성을 줄여주는 것이 아님 - 주요성분을 찾고 원래 데이터에 투영하는 것 from sklearn.decomposition import PCA pca = PCA(n_components= ) pca.fit(데이터) ◆ 주성분 그리기 - 데이터를 가장 잘 설명할 수 있는 것부터 내림차순으로 정렬됨 ◆ 차원 축소 적용 - 10000개 였던 요소들을 새로 뽑아낸 50개의 주성분으로 대체하여 50개의 주성분으로 데이터들을 분류 pca.transform(데이터) ◆ 원본데이터로 재구성 pca.inverse_trans.. 2023. 12. 18.
k-평균 알고리즘 ◆ k-means 클래스 - 보통의 비지도 학습에서 사과, 바나나, 파인애플과 같이 클래스를 알 수 없음 - 이 방법을 해결하기 위해 가까운 샘플과 평균값을 비교한 알고리즘인 k-means를 사용함 - 거리기반 분류법 ◆ 데이터 로드 ◆ k-means 훈련 from sklearn.cluster import KMeans km = KMeans(n_clusters= , random_state= ) km.fit(data) ● 라벨링 값 km.labels_ ● numpy 고유값 확인 np.unique(데이터, return_counts=True) # return_counts=True : 고유값 개수 출력 ◆ 분류 후 이미지 그리기 ● 그리는 함수 정의 ● 분류한대로 그리기 ● 클러스터의 중심 km.cluster_c.. 2023. 12. 18.