본문 바로가기
데이터 분석

PCA(주성분분석)

by JoinInNoetic 2023. 12. 18.

◆ 데이터 로드

 

◆ 주성분분석

- 분산이 가장 큰 방향을 나타내는 선을 찾고, 그 특성에 원래 데이터 샘플을 투영하는 방식의 주성분분석 

- 실제 데이터 차원보다 더 적게 주요 성분을 찾아가는 알고리즘

- 특성을 줄여주는 것이 아님

- 주요성분을 찾고 원래 데이터에 투영하는 것

 

from sklearn.decomposition import PCA

pca = PCA(n_components= )

pca.fit(데이터)

 

◆ 주성분 그리기

- 데이터를 가장 잘 설명할 수 있는 것부터 내림차순으로 정렬됨

 

 

◆ 차원 축소 적용

- 10000개 였던 요소들을 새로 뽑아낸 50개의 주성분으로 대체하여 50개의 주성분으로 데이터들을 분류

pca.transform(데이터)

 

◆ 원본데이터로 재구성

pca.inverse_transform(차원촉소 적용된 데이터)

 

◆ 설명된 분산

- 주성분이 원본데이터의 분산을 얼마나 잘 나타내는지 정량적으로 기록한 값

pca.explained_variance_ratio_ : 주성분의 분산 비율

# x축 : 주성분 인덱스

# y축 : 설명할 수 있는 정량값

# -> 첫번째 성분이 0.5정도 설명함

 

◆ 지도학습에서 주성분분석 사용

● 로지스틱 회귀 모델

 

● 훈련 및 검증

 

● PCA 후 훈련 및 검증

 

● 성분 조정