◆ 데이터 로드
◆ 주성분분석
- 분산이 가장 큰 방향을 나타내는 선을 찾고, 그 특성에 원래 데이터 샘플을 투영하는 방식의 주성분분석
- 실제 데이터 차원보다 더 적게 주요 성분을 찾아가는 알고리즘
- 특성을 줄여주는 것이 아님
- 주요성분을 찾고 원래 데이터에 투영하는 것
from sklearn.decomposition import PCA
pca = PCA(n_components= )
pca.fit(데이터)
◆ 주성분 그리기
- 데이터를 가장 잘 설명할 수 있는 것부터 내림차순으로 정렬됨
◆ 차원 축소 적용
- 10000개 였던 요소들을 새로 뽑아낸 50개의 주성분으로 대체하여 50개의 주성분으로 데이터들을 분류
pca.transform(데이터)
◆ 원본데이터로 재구성
pca.inverse_transform(차원촉소 적용된 데이터)
◆ 설명된 분산
- 주성분이 원본데이터의 분산을 얼마나 잘 나타내는지 정량적으로 기록한 값
pca.explained_variance_ratio_ : 주성분의 분산 비율
# x축 : 주성분 인덱스
# y축 : 설명할 수 있는 정량값
# -> 첫번째 성분이 0.5정도 설명함
◆ 지도학습에서 주성분분석 사용
● 로지스틱 회귀 모델
● 훈련 및 검증
● PCA 후 훈련 및 검증
● 성분 조정
'데이터 분석' 카테고리의 다른 글
DeepLearning(Tensorflow, Keras) (0) | 2024.02.20 |
---|---|
공공데이터 프로젝트 : 고용불안의 원인 분석과 고찰 및 미치는 영향분석 (0) | 2024.01.21 |
k-평균 알고리즘 (0) | 2023.12.18 |
Clustering(군집 분석) (0) | 2023.12.18 |
Ensemble(앙상블)(RandomForest, GB, HGB, XGB, LGBM) (0) | 2023.12.13 |