본문 바로가기

데이터 분석26

KNeiborsClassifier ◆ 데이터 준비 1. 도미 데이터 2. 빙어데이터 ◆ 독립변수, 종속변수 만들기 ◆ K-NeighborsClassifier ● 임포트 & 객체 생성 from sklearn.neighbors import KNeighorsClassifier kn = KNeighborsClassifier() ● 모델 훈련 kn.fit(독립변수, 종속변수) ● 정확도 테스트 kn.score(독립변수, 종속변수) ※ 그래프로 표시 ● 예측 kn.predict([[독립변수, 종속변수]])) # 2차원 데이터 ● 훈련된 데이터 확인 kn._fit_X kn._y ● 하이퍼파라미터 튜닝 ▶ 파라미터 n_neighbors= ◆ 검증데이터 할당하기 from sklearn.model_selection import train_test_spli.. 2023. 11. 16.
판다스 데이터 전처리 ※ 라이브러리 임포트 ◆ 결측값 처리 ▶ 결측값 확인 ● 결측값 개수 계산 df.value_counts(dropna=False) # dropna=False : NaN데이터를 제거하지 않고 count ● 결측값 찾기 df.isnull() # null -> True로 df.notnull() # null -> False로 df.isnull().value_counts() # True, False 개수 count df.isnull().sum() # True를 1로 계산하여 총합 -> null값 개수 계산 ▶ 결측값 처리 ● 결측값 삭제 df.dropna(axis=1, # 결측값 있는 컬럼 삭제 thresh = 500) # 결측값이 500개 이상인 것 삭제 ※ axis = 0 , 1 # 0: 행 , 1 : 열 / .. 2023. 11. 7.
Seaborn # pandas, matplot, seaborn 3가지 방법으로 plot을 그릴 수 있음 ◆ Titanic 데이터셋 가져오기 ◆ Titanic 데이터 변수 설명 - survived : 생존여부 - pclass : 탑승 등급 - sex : 성별 - age : 나이 - sibsp : 타이타닉호에 탑승한 형제 / 배우자의 수(int형) - parch : 타이타닉호에 탑승한 부모 / 자녀의 수 - fare : 티켓가격 - embarked : 탑승 항구의 위치 - who : 남자, 여자 , 아이 - adult_male : 성인 남자인지 boolean(성인 남자면 True, 나머지는 False) - deck : 선실 번호 첫 알파벳 - embar_twon : 탑승지의 이름 - alibe : 생존여부(str) - a.. 2023. 11. 7.
Matplotlib 분석(히스토그램, scatter plot, cmap, 파이그래프, boxplot) ◆ 자동차 정보 데이터 분석 ▶ 데이터 선택 ▶ 히스토그램 sr.plot(kind='hist', bins=10) # 시리즈형태 혹은 데이터프레임에서 한 컬럼 선택 # bins : 밀도 / 낮을수록 함축시킴 ▶ Scatter plot df.plot(kind='scatter', x='차중', y='연비', c= 'coral', s=30) # c : color / s : size(점 크기) ▶ 3개 변수로 산점도 그리기 ● s = cylinders_size # 점 크기를 실린더 컬럼으로 ● c = cylinders_size, cmap = 'viridis', alpha = 0.3 # 점 색깔을 실린더 컬럼으로 / cmap : 색깔 가이드 / alpha : 투명도 ▶ 파이그래프 ● 제조국별 카운트 df['카운트'.. 2023. 11. 6.