20240711_대학원을 붙을 확률 예측하기_02_사용할 CSV 데이터 전처리(pandas)
in 파이썬
대학원을 붙을 확률 예측하기_02_사용할 CSV 데이터 전처리(pandas)
- 앞에서 model.fit 메서드를 통해 모델을 학습시키기 위해서 필요한 x데이터, y데이터가 필요하다. 이를 pandas 라이브러리를 통해 csv파일에서 데이터를 전처리 해보자
판다스 문법 몇개
1. pd.read_csv('경로\파일명') : 해당 파일을 dataframe형으로 리턴해준다.
- dataframe은 엑셀 시트같은거 생각하면 됨
2. isnull().sum() : 데이터의 빈 칸을 알려주는데, 열별로 알려준다
# gre 컬럼에 빈칸이 1개 있다는 뜻
#admit 0
#gre 1
#gpa 0
#rank 0
2-1. dropna() : 빈칸을 제거해주는 메서드
2-2. fillna('값') : 빈칸을 '값'으로 채워주는 메서드
3. dataframe['열이름'].values : '열이름'에 해당하는 데이터를 리스트로 리턴
4. data.iterrows() 반복문에서 사용
- dataframe(판다스를 통해 가져온데이터)을 한 행씩 출력하는 메서드
판다스 설치
pip install pandas
csv파일을 pandas로 읽어오기
data = pd.read_csv('Tensorflow2\자료\gpascore.csv')
data = data.dropna() # 빈칸을 제거해주는 메서드
y데이터 = data['admit'].values ## y데이터를 리스트로 담기
x데이터 = []
for i, rows in data.iterrows(): # data.iterrow() : dataframe(판다스를 통해 가져온데이터)을 한 행씩 출력하는 메서드
x데이터.append([rows['gre'],rows['gpa'],rows['rank']])
print(x데이터)
- csv파일이 있다면 생각보다 간단하게 데이터 전처리를 할 수 있다.