본문 바로가기

데이터 분석26

Matplotlib 그래프 & 그래프 세부설정 (라인그래프, 점그래프, 점&라인그래프, 면적그래프, 막대그래프), (스택 여부, 수평, 보조축) ◆ 인구이동 데이터 그래프 그리기 ▶ 데이터 준비 ▶ 누락값(NaN) 앞의 데이터로 채우기 df.fillna(method='ffill') # ffill : 포워드 필, 앞의 데이터로 채우기 / bfill : 백 필, 뒤의 데이터로 채우기 ▶ 서울에서 다른 지역으로 이동한 데이터만 추출(불린인덱싱) - '전출지별' 컬럼의 값이 '서울특별시'인 것 - '전입지별' 컬럼의 값이 '서울특별시'가 아닌것 ▶ 컬럼 삭제 및 인덱스 설정 df.drop(['전출지별'], axis=1) : '전출지별' 이라는 컬럼(axis=1)삭제 df.rename({'전입지별' : '전입지'}, axis=1) : '전입지별'이라는 컬럼(axis=1)을 '전입지'로 변경 df.set_index('전입지') : '전입지' 컬럼을 인덱스로.. 2023. 11. 6.
Pandas Plot(판다스 그래프 그리기) ▶ 데이터 불러오기 pd.read_excel('파일명.xlsx', engine = 'openpyxl') ▶ 데이터 선택(행 선택) df.iloc[] * df_ns.columns.map(int) => df_ns의 컬럼명을 int로 적용시킨다. map(적용할 함수, 적용대상) : 적용대상에 적용할 함수를 각각 적용시킨다. ▶ line plot(라인 그래프) df.plot() # 자동으로 컬럼이 y축, index가 x축으로 들어감 # 따로 그래프 종류를 설정하지 않으면 기본값 라인그래프로 그려짐 ▶ 행과 열 전치 df.T ▶ 막대 그래프 그리기(bar) df.plot(kind='bar') ▶ 히스토그램 그리기 df.plot(kind='hist') * tdf_ns.astype(float) => tdf_ns의 데.. 2023. 10. 31.
데이터 분석 기초 ▶ 데이터 불러오기 pd.read_csv(파일) ▶ 열 이름 지정 df.columns = [열1, 열2...] ▶ 데이터 확인 df.head() df.tail() ▶ 데이터 크기 확인 df.shape # 괄호 없음 ▶ 데이터 프레임 요약 df.info() ▶ 데이터 프레임의 자료형 확인 df.dtypes ▶ 기술통계 요약 df.describe() # 숫자형 데이터만 df.describe(include='object') # 문자형 데이터만 / object, 'O' 모두 가능 df.describe(include='all') # 모든 데이터 ● count = 각 열의 null값을 제외한 값의 개수를 나타냄 ● mean = 숫자형 데이터에 대한 평균값 ● std = 숫자형 데이터에 대한 표준편차 ● min = .. 2023. 10. 31.
판다스 데이터불러오기 ◆ CSV 파일 불러오기 ● 데이터가 같은 폴더일때 vs 다른 폴더일때 - 데이터가 같은 폴더일때 pd.read_csv('파일이름.csv') - 다른 폴더일때 pd.read_csv('C:\\파일경로\\...\\파일이름.csv') # \를 두 개씩 사용 pd.read_csv(r'C:\파일경로\...\파일이름.csv') # r문자(Raw String)를 사용함으로써 \을 하나씩 사용 ● 옵션 1) header = None 첫번째 행을 컬럼으로 인식하지 않게 하기 2) index_col = None / 컬럼명 컬럼을 인덱스로 지정 ◆ Excel 불러오기 pd.read_excel('파일이름.xlsx', engine='openpyxl') ◆ Json 불러오기 pd.read_json('파일이름.json') 2023. 10. 31.