데이터 분석 기초

▶ 데이터 불러오기

pd.read_csv(파일)

▶ 열 이름 지정

df.columns = [열1, 열2...]

▶ 데이터 확인

df.head()

df.tail()

▶ 데이터 크기 확인

df.shape # 괄호 없음

▶ 데이터 프레임 요약

df.info()

▶ 데이터 프레임의 자료형 확인

df.dtypes

▶ 기술통계 요약

df.describe() # 숫자형 데이터만

df.describe(include='object') # 문자형 데이터만 / object, 'O' 모두 가능

df.describe(include='all') # 모든 데이터

● count = 각 열의 null값을 제외한 값의 개수를 나타냄

● mean = 숫자형 데이터에 대한 평균값

● std = 숫자형 데이터에 대한 표준편차

● min = 숫자형 데이터의 최소값(문자열 데이터의 경우 가장 먼저 나타나는 값)

● 25% = 1사분위수

● 50% = 2사분위수(중위값, 중앙값)

● 75% = 3사분위수

● max = 숫자형 데이터의 최대값(문자열 데이터의 경우 가장 마지막에 나타나는 값)

● unique = 문자열 데이터의 고유값

● top = 문자열 데이터에서 가장 빈번하게 나타나는 값

● freq = top에서 나타난 값의 빈도수

▶ 데이터의 개수 확인

df.count()

▶ 특정 컬럼이 가지고 있는 고유값, 고유값의 개수 확인

df[컬럼명].value_counts()

▶ 평균값 구하기

df.mean()

▶ 중앙값 구하기

df.median() # numeric_only : 숫자만

▶ 최대값 구하기

df.max()

▶ 최소값 구하기

df.min()

▶ 표준편차 구하기

df.std()

▶ 상관계수 구하기

df.corr()

저작자표시 (새창열림)

'데이터 분석' 카테고리의 다른 글

Matplotlib 그래프 & 그래프 세부설정 (라인그래프, 점그래프, 점&라인그래프, 면적그래프, 막대그래프), (스택 여부, 수평, 보조축) (0)	2023.11.06
Pandas Plot(판다스 그래프 그리기) (0)	2023.10.31
판다스 데이터불러오기 (0)	2023.10.31
판다스 기초 2 (0)	2023.10.31
판다스 기초 1 (0)	2023.10.23

Recording me

데이터 분석 기초

'데이터 분석' 카테고리의 다른 글

티스토리툴바

데이터 분석 기초

'데이터 분석' 카테고리의 다른 글

관련글

티스토리툴바