주제
2차 프로젝트 진행
프로젝트 회의
- 게더타운에서 모여서 각자 가지고 온 데이터셋을 공유하고, 데이터 선택
- 선택된 데이터는 한국의 아파트 실거래 데이터 :
https://www.kaggle.com/datasets/brainer3220/korean-real-estate-transaction-data?rvi=1
Korean Apartment Deal Data
Real apartment transaction data in Korea
www.kaggle.com
- 역할 분담은 확실하게 나누지는 않고, 모두가 모든 과정을 함께 하기로 결정
- 사용할 툴과 모듈은 파이썬 판다스, 맷플롯립, 주피터 노트북
첫 날
- 우선 각자 데이터를 다운받아서 전처리를 해보기로 했다
- 데이터는 약 5백만 개가 있었고, 회의 결과 서울시로만 한정짓기로 결정
- 칼럼은 총 9개
- null값 확인

- null값 제거
df.dropna(subset=['지번', '건축년도'], inplace=True)
- 정보를 이용하여 타입을 확인했는데, 거래일, 층, 거래금액의 타입이 mixed여서 변환이 필요했다

- 거래금액 : object -> int64
- 층 : object -> int64
df['거래금액'] = df['거래금액'].astype('str')
df['거래금액'] = df['거래금액'].str.replace(',', '')
df['거래금액'] = df['거래금액'].astype('int64')
df['층'] = df['층'].astype('int16')
- 문제는 거래일이었는데 해당 컬럼은 데이터 포맷이 두가지가 섞여있었다.
- 초반에는 '월/일/년도 시:분', 후반에는 '년도-월-일 시:분:초' 형태여서 한번에 변환하려고 하면 에러가 났다.
- 그래서 몇시간동안 구글링하며 해결을 해보려고 했지만 실패.. 그때 팀원 한분이 에러가 나지 않았다고 하셔서 데이터를 공유받았다.
- 나중에 회의시간에 얘기를 해보니 에러가 났던 사람들은 주피터나 판다스 버전이 모두 상위버전이었고, 에러가 나지 않은 분은 버전이 낮았다.


- 거래일을 변환해주신걸 받아서 to_datetime()을 이용하여 형변환을 했다
- 데이터 통계 :


오늘은 전처리하느라 하루를 다 보냈고, 일단 전처리를 전반적으로 담당하시는 분이 내일까지 지역코드를 시 + 구로 변환하여 주시면 그때부터 EDA를 할 예정이다. 그때까지 계속 전처리를 해보고, 미리 분석할 지표를 생각해놔야겠다.
'Data Science > TIL (Today I Learned)' 카테고리의 다른 글
| 프로그래머스 데이터분석 데브코스 1기 - 38일차 (0) | 2024.01.17 |
|---|---|
| 프로그래머스 데이터분석 데브코스 1기 - 37일차 (1) | 2024.01.17 |
| 프로그래머스 데이터분석 데브코스 1기 - 35일차 (0) | 2024.01.12 |
| 프로그래머스 데이터분석 데브코스 1기 - 34일차 (1) | 2024.01.11 |
| 프로그래머스 데이터분석 데브코스 1기 - 33일차 (0) | 2024.01.10 |