본문 바로가기
데이터 분석

데이터 분석 기초

by JoinInNoetic 2023. 10. 31.

▶ 데이터 불러오기

    pd.read_csv(파일)

 

▶ 열 이름 지정

    df.columns = [열1, 열2...]

 

▶ 데이터 확인

    df.head()

    df.tail()

 

▶ 데이터 크기 확인

    df.shape     # 괄호 없음

 

▶ 데이터 프레임 요약

    df.info()

 

▶ 데이터 프레임의 자료형 확인

    df.dtypes

 

▶ 기술통계 요약

    df.describe()                               # 숫자형 데이터만 

    df.describe(include='object')      # 문자형 데이터만 / object, 'O' 모두 가능

    df.describe(include='all')            # 모든 데이터

    ● count = 각 열의 null값을 제외한 값의 개수를 나타냄

    ● mean = 숫자형 데이터에 대한 평균값

    ● std = 숫자형 데이터에 대한 표준편차

    ● min = 숫자형 데이터의 최소값(문자열 데이터의 경우 가장 먼저 나타나는 값)

    ● 25% = 1사분위수

    ● 50% = 2사분위수(중위값, 중앙값)

    ● 75% = 3사분위수

    ● max = 숫자형 데이터의 최대값(문자열 데이터의 경우 가장 마지막에 나타나는 값)

    ● unique = 문자열 데이터의 고유값

    ● top = 문자열 데이터에서 가장 빈번하게 나타나는 값

    ● freq =  top에서 나타난 값의 빈도수

 

▶ 데이터의 개수 확인

    df.count()

 

▶ 특정 컬럼이 가지고 있는 고유값, 고유값의 개수 확인

    df[컬럼명].value_counts()

 

▶ 평균값 구하기

    df.mean()

 

▶ 중앙값 구하기

    df.median()        # numeric_only : 숫자만 

 

▶ 최대값 구하기

    df.max()

 

▶ 최소값 구하기

    df.min()

 

▶ 표준편차 구하기

    df.std()

 

▶ 상관계수 구하기

    df.corr()