20240711_대학원을 붙을 확률 예측하기_02_사용할 CSV 데이터 전처리(pandas)

대학원을 붙을 확률 예측하기_02_사용할 CSV 데이터 전처리(pandas)

  • 앞에서 model.fit 메서드를 통해 모델을 학습시키기 위해서 필요한 x데이터, y데이터가 필요하다. 이를 pandas 라이브러리를 통해 csv파일에서 데이터를 전처리 해보자

판다스 문법 몇개


1. pd.read_csv('경로\파일명') : 해당 파일을 dataframe형으로 리턴해준다.
  - dataframe은 엑셀 시트같은거 생각하면 

2. isnull().sum() : 데이터의  칸을 알려주는데, 열별로 알려준다
# gre 컬럼에 빈칸이 1개 있다는 뜻
#admit    0
#gre      1
#gpa      0
#rank     0

2-1. dropna() : 빈칸을 제거해주는 메서드
2-2. fillna('값') : 빈칸을 '값'으로 채워주는 메서드

3. dataframe['열이름'].values : '열이름' 해당하는 데이터를 리스트로 리턴

4. data.iterrows() 반복문에서 사용
- dataframe(판다스를 통해 가져온데이터)  행씩 출력하는 메서드

판다스 설치

pip install pandas

csv파일을 pandas로 읽어오기

data = pd.read_csv('Tensorflow2\자료\gpascore.csv')
data = data.dropna() # 빈칸을 제거해주는 메서드
y데이터 = data['admit'].values ## y데이터를 리스트로 담기
x데이터 = []

for i, rows in data.iterrows(): #  data.iterrow() : dataframe(판다스를 통해 가져온데이터)을 한 행씩 출력하는 메서드
    x데이터.append([rows['gre'],rows['gpa'],rows['rank']])
print(x데이터)
  • csv파일이 있다면 생각보다 간단하게 데이터 전처리를 할 수 있다.