본문 바로가기

글 전체보기70

판다스 데이터 전처리 ※ 라이브러리 임포트 ◆ 결측값 처리 ▶ 결측값 확인 ● 결측값 개수 계산 df.value_counts(dropna=False) # dropna=False : NaN데이터를 제거하지 않고 count ● 결측값 찾기 df.isnull() # null -> True로 df.notnull() # null -> False로 df.isnull().value_counts() # True, False 개수 count df.isnull().sum() # True를 1로 계산하여 총합 -> null값 개수 계산 ▶ 결측값 처리 ● 결측값 삭제 df.dropna(axis=1, # 결측값 있는 컬럼 삭제 thresh = 500) # 결측값이 500개 이상인 것 삭제 ※ axis = 0 , 1 # 0: 행 , 1 : 열 / .. 2023. 11. 7.
Seaborn # pandas, matplot, seaborn 3가지 방법으로 plot을 그릴 수 있음 ◆ Titanic 데이터셋 가져오기 ◆ Titanic 데이터 변수 설명 - survived : 생존여부 - pclass : 탑승 등급 - sex : 성별 - age : 나이 - sibsp : 타이타닉호에 탑승한 형제 / 배우자의 수(int형) - parch : 타이타닉호에 탑승한 부모 / 자녀의 수 - fare : 티켓가격 - embarked : 탑승 항구의 위치 - who : 남자, 여자 , 아이 - adult_male : 성인 남자인지 boolean(성인 남자면 True, 나머지는 False) - deck : 선실 번호 첫 알파벳 - embar_twon : 탑승지의 이름 - alibe : 생존여부(str) - a.. 2023. 11. 7.
Matplotlib 분석(히스토그램, scatter plot, cmap, 파이그래프, boxplot) ◆ 자동차 정보 데이터 분석 ▶ 데이터 선택 ▶ 히스토그램 sr.plot(kind='hist', bins=10) # 시리즈형태 혹은 데이터프레임에서 한 컬럼 선택 # bins : 밀도 / 낮을수록 함축시킴 ▶ Scatter plot df.plot(kind='scatter', x='차중', y='연비', c= 'coral', s=30) # c : color / s : size(점 크기) ▶ 3개 변수로 산점도 그리기 ● s = cylinders_size # 점 크기를 실린더 컬럼으로 ● c = cylinders_size, cmap = 'viridis', alpha = 0.3 # 점 색깔을 실린더 컬럼으로 / cmap : 색깔 가이드 / alpha : 투명도 ▶ 파이그래프 ● 제조국별 카운트 df['카운트'.. 2023. 11. 6.
Matplotlib 그래프 & 그래프 세부설정 (라인그래프, 점그래프, 점&라인그래프, 면적그래프, 막대그래프), (스택 여부, 수평, 보조축) ◆ 인구이동 데이터 그래프 그리기 ▶ 데이터 준비 ▶ 누락값(NaN) 앞의 데이터로 채우기 df.fillna(method='ffill') # ffill : 포워드 필, 앞의 데이터로 채우기 / bfill : 백 필, 뒤의 데이터로 채우기 ▶ 서울에서 다른 지역으로 이동한 데이터만 추출(불린인덱싱) - '전출지별' 컬럼의 값이 '서울특별시'인 것 - '전입지별' 컬럼의 값이 '서울특별시'가 아닌것 ▶ 컬럼 삭제 및 인덱스 설정 df.drop(['전출지별'], axis=1) : '전출지별' 이라는 컬럼(axis=1)삭제 df.rename({'전입지별' : '전입지'}, axis=1) : '전입지별'이라는 컬럼(axis=1)을 '전입지'로 변경 df.set_index('전입지') : '전입지' 컬럼을 인덱스로.. 2023. 11. 6.