본문 바로가기

글 전체보기70

Clustering(군집 분석) ◆ 이미지 데이터 로드 ● numpy파일 로드 np.load(데이터) ● 데이터 형태 데이터.shape (데이터 개수, 행 수, 열 수) ● 데이터 인덱스 데이터[데이터 번호, 행 번호, 열 번호] ● 데이터 이미지 그리기 plt.imshow(fruits[0], cmap='gray') # 컴퓨터가 인식하는 이미지 # 검정일수록 0 / 흰색일수록 258 plt.imshow(fruits[0], cmap='gray_r') # 사람이 보기 편하게 ◆ 픽셀 값 분석 ● 이미지 형태 변환 fruits.reshape(-1, 100*100) # 100 X 100 를 1 X 10000로 변환 ● 데이터 평균 apple.mean(axis=1) # 각 데이터 평균 ● 각 평균 값을 히스토그램으로 나타내기 plt.hist(n.. 2023. 12. 18.
시험결과 다행이도 좋은점수로 합격했네요 ㅎㅎ 2023. 12. 16.
Ensemble(앙상블)(RandomForest, GB, HGB, XGB, LGBM) ◆ 랜덤포레스트 - 전체 샘플에서 랜덤샘플을 선택하는 방식 - 그레이언트 디센트의 샘플링과 동일 - 선택된 샘플이 다시 셋트로 돌아오며 이 방법을 부트스트랩 샘플링이라고 함 - 깊이가 얕고 트리를 많이 생성하는게 목적이다보니, 루트를 씌운 갯수만큼의 특성만 사용하여 최선의 분할을 선택해서 가지치기를 함 - 그 다음, 각 트리의 클래스별 확률을 평균내어 가장 높은 확률을 가진 클래스를 예측값으로 사용 ● 데이터 준비 ● 랜덤포레스트 모델 from sklearn.ensemble import RandomForestClassifier ● 훈련값 확인 rf.feature_importances_ # 컬럼별 중요도 ● OutOfBag 샘플 테스트 rf.oob_score_ # OutOfBag : 붓트스트랩(일정 개수 .. 2023. 12. 13.
Cross_Validation(교차검증) & GridSearchCV ◆ 교자검증과 그리드 서치 - 훈련셋으로훈련하고, 테스트셋으로 테스트하면서 과대, 과소적합 해결과 편향을 줄일 수 있음 - 하지만, 지속적인 테스트셋의 결과로 인한 수정은, 결국 테스트셋에 잘 맞는 모델이 만들어짐 ◆ Train Test split(홀드아웃) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size= ) ◆ 교차검증 - 기본값 : 5 - 데이터를 나누어 검증셋을 돌아가면서 선택하며 학습 및 검증을 진행 from sklearn.model_selection import cross_validate cross_validate(model,.. 2023. 12. 13.