본문 바로가기

데이터 분석26

공공데이터 프로젝트 : 고용불안의 원인 분석과 고찰 및 미치는 영향분석 2024. 1. 21.
PCA(주성분분석) ◆ 데이터 로드 ◆ 주성분분석 - 분산이 가장 큰 방향을 나타내는 선을 찾고, 그 특성에 원래 데이터 샘플을 투영하는 방식의 주성분분석 - 실제 데이터 차원보다 더 적게 주요 성분을 찾아가는 알고리즘 - 특성을 줄여주는 것이 아님 - 주요성분을 찾고 원래 데이터에 투영하는 것 from sklearn.decomposition import PCA pca = PCA(n_components= ) pca.fit(데이터) ◆ 주성분 그리기 - 데이터를 가장 잘 설명할 수 있는 것부터 내림차순으로 정렬됨 ◆ 차원 축소 적용 - 10000개 였던 요소들을 새로 뽑아낸 50개의 주성분으로 대체하여 50개의 주성분으로 데이터들을 분류 pca.transform(데이터) ◆ 원본데이터로 재구성 pca.inverse_trans.. 2023. 12. 18.
k-평균 알고리즘 ◆ k-means 클래스 - 보통의 비지도 학습에서 사과, 바나나, 파인애플과 같이 클래스를 알 수 없음 - 이 방법을 해결하기 위해 가까운 샘플과 평균값을 비교한 알고리즘인 k-means를 사용함 - 거리기반 분류법 ◆ 데이터 로드 ◆ k-means 훈련 from sklearn.cluster import KMeans km = KMeans(n_clusters= , random_state= ) km.fit(data) ● 라벨링 값 km.labels_ ● numpy 고유값 확인 np.unique(데이터, return_counts=True) # return_counts=True : 고유값 개수 출력 ◆ 분류 후 이미지 그리기 ● 그리는 함수 정의 ● 분류한대로 그리기 ● 클러스터의 중심 km.cluster_c.. 2023. 12. 18.
Clustering(군집 분석) ◆ 이미지 데이터 로드 ● numpy파일 로드 np.load(데이터) ● 데이터 형태 데이터.shape (데이터 개수, 행 수, 열 수) ● 데이터 인덱스 데이터[데이터 번호, 행 번호, 열 번호] ● 데이터 이미지 그리기 plt.imshow(fruits[0], cmap='gray') # 컴퓨터가 인식하는 이미지 # 검정일수록 0 / 흰색일수록 258 plt.imshow(fruits[0], cmap='gray_r') # 사람이 보기 편하게 ◆ 픽셀 값 분석 ● 이미지 형태 변환 fruits.reshape(-1, 100*100) # 100 X 100 를 1 X 10000로 변환 ● 데이터 평균 apple.mean(axis=1) # 각 데이터 평균 ● 각 평균 값을 히스토그램으로 나타내기 plt.hist(n.. 2023. 12. 18.