본문 바로가기
IT 자격증/AICE Associate

AICE Associate - 탐색적 데이터 분석

by ootd_info 2024. 6. 19.
반응형
  • 라이브러리 
import sklearn as sk

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

 

!pip install seaborn

Import seaborn as sns

 

  • 데이터로딩
df = pd.read_csv(‘파일경로.파일명’)

df = pd.read_json(‘파일경로/파일명’)

df = pd.read_excel(‘파일경로/파일명’)

 

  • 데이터 구성 확인
#앞행 5개 확인
df.head(5)  

#뒷행 5개 확인
df.tail(5)   

#데이터 인덱스 확인
df.index

#데이터 프레임 칼럼이름 확인
df.columns 

#데이터 값Values확인
df.values

#데이터 프레임 행, 열 개수 확인
df.shape     

#데이터 칼럼정보, Null갯수, 칼럼타입, 사이즈 등 데이터 프레임정보확인
df.info()

#데이터 컬럼의 데이터 타입 확인하기
df.dtypes

#특정 컬럼이 데이터 타입 확인하기
df[‘sex’].dtypes

#수치형데이터 통계정보 확인 (분위수 확인 - 25%, 50%, 75%, min, max)
df.describe()

#Null데이터 개수 확인
df.isnull().sum()

#범주형변수의 빈도수 확인
df[‘칼럼명’].value counts()

#데이터 타입int, str, float 에 해당하는 열만 확인
df.select_dtypes(str)

#데이터 중복값 있는지 확인
df.groupby(level=0).count()

#최빈값
df[‘칼럼명’].mode()[0]

 

 

  • 상관분석
#데이터의 상관계수 확인
df.corr()


#컬럼이 특정 값을 갖는 경우의 다른 칼럼과의 상관계수 확인
#df[‘class’]값이 classA인 row만 df_classA에 저장
df_classA = [ (df[‘class’] == ‘class A’)]

 
#df_classA의 상관계수 확인
df_classA.corr()



 

 

728x90

댓글