주제

2차 프로젝트


4일차

  • 수요일 저녁 멘토님께 피드백을 받고 대대적으로 프로젝트의 주제부터 다시 수정해야했다
  • 워낙 어려운 데이터(행이 많고 열이 적은 시계열 데이터)이기 때문에 이 데이터만으로 결론을 도출할 수 있는 주제를 찾아야 했다
  • 오전 회의에서 많은 이야기를 나눈 결과 바뀐 주제는 이렇다 :
    • 서울특별시 아파트 시장 트렌드 및 변화 분석
  • 우리가 여태까지 했던 것을 모두 버리기보다는 어느정도 유지하면서 더 추가할 수 있는 주제를 모색했다
  • 처음 세웠던 예측이라는 주제는 우리가 할 수 있는 영역 밖이라는 것에 조원 모두가 동의했고, 거래 트렌드 분석으로 바꾸기로 결정했다
  • 종속변수는 평균 거래금액이 아닌, 평당 가격으로 두고 그에 맞는 독립변수를 찾는 방향으로 계획을 세웠다

 

 

독립변수가 될 수 있는 후보

  1. 선호된 층
  2. 선호된 건축년도
  3. 선호된 면적
  4. 선호된 지역 (지역 별 수요)
  5. 선호된 거래금액 (거래금액을 범주화해도 좋을 것)
  6. 거래량이 많았던 월
  • 이렇게 6가지로 나누어서 분석과 시각화를 해보고, 각 변수가 평 당 가격에 얼마나 유의미한 영향을 주는지를 알아봤다.
  • 그 중에 나는 2번, 선호하는 건축년도를 맡았다.

 

 

데이터 정제

  • 우선 분석을 위해 필요한 열만 가져와 새로운 데이터프레임을 만들었다
df1 = df[['지역명', '거래일', '거래금액', '건축년도', '평당 가격']]
df1.head()

 

필요한 열만 가져온 데이터 프레임

  • 그리고 거래일과 지역명을 기준으로 그룹화를 했다
df1 = df1.copy()
df1.sort_values(by=['거래일', '지역명'])
  • 아파트 시장에서 선호되는 건축년도를 연도별, 지역별로 나누어 보기로 했다

 

1. 연도 별 건축년도의 분포

  • 매년 평균 98 - 00년 안에 대부분 분포되어있었다.
  • 22년에는 평균이 04년도로 가장 높은 평균을 보였다.
  • 매년 큰 차이는 없지만, 비슷한 시기(98 - 01년)에 건설된 아파트를 선호하는 것으로 보였다.

연도별 건축년도 분포

plt.figure(figsize=(8, 6))

sns.boxplot(x='거래일', y='건축년도', data=df1, palette='pastel')
plt.title('서울시의 연도 별 건축년도 분포')
plt.xlabel('거래연도')
plt.ylabel('건축년도')

plt.show()
  • 평균 건축년도를 수치로 확인해보면 다음과 같다 :

연도별 평균 건축년도

 

 

 

 

2. 지역 별 건축년도

  • 이번에는 [지역명, 거래일, 평당 가격, 건축년도]만을 가져온 데이터 프레임을 사용했다
df3 = df[['지역명', '거래일', '평당 가격', '건축년도']]
df3.head()

df3

  • 그 이후 지역명을 기준으로 그룹화하고, 건축년도와 평당 가격의 평균을 구했다
  • 우선 지난 7년간 구역별 거래된 아파트의 평균 건축년도는 다음과 같다 :
    • 평균 건축년도가 가장 높은 지역은 은평구(05년), 그 다음이 중구(04년)이었다.
    • 평균 건축년도가 가장 낮은 지역은 노원구(93년), 그 다음이 도봉구(94년)이었다.

구역별 거래된 아파트의 평균 건축년도

 

 

분석

  • 다음은 평균 건축년도와 평균 평당 가격 사이의 관계를 scatterplot에 대입해보았다
# 지역별 아파트의 평균 건축년도와 평균 평당 가격
plt.figure(figsize=(12, 6))
sns.scatterplot(x=df3['건축년도'], y=df3['평당 가격'], hue=df3['지역명'])


for i, txt in enumerate(df3['지역명']):
    plt.annotate(txt, (df3['건축년도'][i], df3['평당 가격'][i]), fontsize=8)


plt.xlabel('건축년도')
plt.ylabel('평당 가격 [단위: 만원]')
plt.title('거래된 아파트의 지역별 평균 건축년도와 평균 평당 가격')

plt.legend().set_visible(False)

plt.show()

평균 건축년도와 평균 평당 가격

  • 분석 결과 :
    • 아파트의 연식이 오래되었다고 해서 꼭 낮은 값으로 거래가 되는 것은 아닌 것으로 보인다
    • 노원구와 도봉구의 아파트들은 건축년도와 평당 가격이 비례하는 모습이지만, 강남구와 송파구, 용산구, 서초구는 오히려 반비례하는 모습을 보였다.
    • 은평구도 마찬가지로 평균 건축년도는 가장 최신이지만, 평당 가격은 낮은 쪽에 속해있었다.
    • 이 두 변수의 상관계수는 0.07로 유의미하지 않았다.
    • 오히려 지역의 땅값에 영향을 더 받는 것으로 보인다(흔히 말하는 강남3구가 더 높은 추세)
  • 상관계수 계산 :
# 상관관계 계산
correlation = df['건축년도'].corr(df['평당 가격']).round(3)
print(f"건축년도와 평당 가격의 상관계수: {correlation}")

유의미한 계수가 아니었다

 

+ Recent posts