주제

2차 프로젝트 진행

 

프로젝트 회의

  • 게더타운에서 모여서 각자 가지고 온 데이터셋을 공유하고, 데이터 선택
  • 선택된 데이터는 한국의 아파트 실거래 데이터 :

https://www.kaggle.com/datasets/brainer3220/korean-real-estate-transaction-data?rvi=1

 

Korean Apartment Deal Data

Real apartment transaction data in Korea

www.kaggle.com

  • 역할 분담은 확실하게 나누지는 않고, 모두가 모든 과정을 함께 하기로 결정
  • 사용할 툴과 모듈은 파이썬 판다스, 맷플롯립, 주피터 노트북

 

첫 날

  • 우선 각자 데이터를 다운받아서 전처리를 해보기로 했다
  • 데이터는 약 5백만 개가 있었고, 회의 결과 서울시로만 한정짓기로 결정
  • 칼럼은 총 9개
  • null값 확인

  • null값 제거
df.dropna(subset=['지번', '건축년도'], inplace=True)
  • 정보를 이용하여 타입을 확인했는데, 거래일, 층, 거래금액의 타입이 mixed여서 변환이 필요했다

원래 데이터 타입

  • 거래금액 : object -> int64
  • 층 : object -> int64
df['거래금액'] = df['거래금액'].astype('str')
df['거래금액'] = df['거래금액'].str.replace(',', '')
df['거래금액'] = df['거래금액'].astype('int64')


df['층'] = df['층'].astype('int16')
  • 문제는 거래일이었는데 해당 컬럼은 데이터 포맷이 두가지가 섞여있었다.
  • 초반에는 '월/일/년도 시:분', 후반에는 '년도-월-일 시:분:초' 형태여서 한번에 변환하려고 하면 에러가 났다.
  • 그래서 몇시간동안 구글링하며 해결을 해보려고 했지만 실패.. 그때 팀원 한분이 에러가 나지 않았다고 하셔서 데이터를 공유받았다.
  • 나중에 회의시간에 얘기를 해보니 에러가 났던 사람들은 주피터나 판다스 버전이 모두 상위버전이었고, 에러가 나지 않은 분은 버전이 낮았다.

초반 데이터
후반 데이터

  • 거래일을 변환해주신걸 받아서 to_datetime()을 이용하여 형변환을 했다
  • 데이터 통계 :

타입 변환 후
통계

 

 

 


오늘은 전처리하느라 하루를 다 보냈고, 일단 전처리를 전반적으로 담당하시는 분이 내일까지 지역코드를 시 + 구로 변환하여 주시면 그때부터 EDA를 할 예정이다. 그때까지 계속 전처리를 해보고, 미리 분석할 지표를 생각해놔야겠다.

+ Recent posts