본문 바로가기

AIVLE SCHOOL - DX 트랙

8월의 에이블

데이터를 읽어오고 다루면서, 데이터 다듬기로 1차 미니프로젝트

데이터분석을 통해 2차 미니프로젝트를 수행했다.

 

- 데이터 다듬기 = 데이터 전처리 (가장 많이 사용 한 것 위주)

데이터의 속성과 메소드, 가변수화 방법, 결측치 확인 및 제거 방법 등을 실습

 

df.index()_ 인덱스 정보확인

df.columns()_열 정보 확인

df.info()_ 인덱스, 열, 값 개수, 데이터 형식 정보 등 확인

df.describe()_기초 통계 정보 확인

 

data.isna().sum()_ NaN 존재 유무 확인

data.dropna (inplace=True)_ 결측치 제거

data.fillna(method = 'ffill', inplace =True)_ 결측치 앞 데이터로 채우기

data.fillna(method = 'bfill', inplace =True)_ 결측치 뒤 데이터로 채우기

 

data1 = pd.get_dummies (data1, columns=함수선언부분, drop_first=True) _가변수화 방법

: 가변수화 할 함수를 정해서 선언해놓고 columns에 선언한 함수를 씀

 

 

 

- 데이터 분석

 

CRISP-DM 을 통해

비즈니스 목표가 데이터 분석으로 이루어지는 과정을 실습

 

1) 데이터 전처리 

2) 데이터를 범주형, 수치형으로 나눔

범주 - 2 : T-test

        - 3이상 : ANOVA

        - 수치화 : 카이제곱검정

수치(연속형) - 상관분석

 

3) EDA & CDA를 통해 가설을 설정

대립가설, 귀무가설 - 통계적 검정(차이에 대한 판단)

4) 모델링 - 데이터로부터 패턴을 찾는 과정 (알고리즘, 학습데이터) 

5) 평가

6) 검증

 

 

위 내용을 토대로 이루어진 1차, 2차 미니프로젝트를 수행했다.

느낀점 : 내가 한참 모자라다.. ! 팀에 도움이 되려면 추가적인 공부가 필요하다 ㅜㅜ