주제
2차 프로젝트
4일차
- 수요일 저녁 멘토님께 피드백을 받고 대대적으로 프로젝트의 주제부터 다시 수정해야했다
- 워낙 어려운 데이터(행이 많고 열이 적은 시계열 데이터)이기 때문에 이 데이터만으로 결론을 도출할 수 있는 주제를 찾아야 했다
- 오전 회의에서 많은 이야기를 나눈 결과 바뀐 주제는 이렇다 :
- 서울특별시 아파트 시장 트렌드 및 변화 분석
- 우리가 여태까지 했던 것을 모두 버리기보다는 어느정도 유지하면서 더 추가할 수 있는 주제를 모색했다
- 처음 세웠던 예측이라는 주제는 우리가 할 수 있는 영역 밖이라는 것에 조원 모두가 동의했고, 거래 트렌드 분석으로 바꾸기로 결정했다
- 종속변수는 평균 거래금액이 아닌, 평당 가격으로 두고 그에 맞는 독립변수를 찾는 방향으로 계획을 세웠다
독립변수가 될 수 있는 후보
- 선호된 층
- 선호된 건축년도
- 선호된 면적
- 선호된 지역 (지역 별 수요)
- 선호된 거래금액 (거래금액을 범주화해도 좋을 것)
- 거래량이 많았던 월
- 이렇게 6가지로 나누어서 분석과 시각화를 해보고, 각 변수가 평 당 가격에 얼마나 유의미한 영향을 주는지를 알아봤다.
- 그 중에 나는 2번, 선호하는 건축년도를 맡았다.
데이터 정제
- 우선 분석을 위해 필요한 열만 가져와 새로운 데이터프레임을 만들었다
df1 = df[['지역명', '거래일', '거래금액', '건축년도', '평당 가격']]
df1.head()

- 그리고 거래일과 지역명을 기준으로 그룹화를 했다
df1 = df1.copy()
df1.sort_values(by=['거래일', '지역명'])
- 아파트 시장에서 선호되는 건축년도를 연도별, 지역별로 나누어 보기로 했다
1. 연도 별 건축년도의 분포
- 매년 평균 98 - 00년 안에 대부분 분포되어있었다.
- 22년에는 평균이 04년도로 가장 높은 평균을 보였다.
- 매년 큰 차이는 없지만, 비슷한 시기(98 - 01년)에 건설된 아파트를 선호하는 것으로 보였다.

plt.figure(figsize=(8, 6))
sns.boxplot(x='거래일', y='건축년도', data=df1, palette='pastel')
plt.title('서울시의 연도 별 건축년도 분포')
plt.xlabel('거래연도')
plt.ylabel('건축년도')
plt.show()
- 평균 건축년도를 수치로 확인해보면 다음과 같다 :

2. 지역 별 건축년도
- 이번에는 [지역명, 거래일, 평당 가격, 건축년도]만을 가져온 데이터 프레임을 사용했다
df3 = df[['지역명', '거래일', '평당 가격', '건축년도']]
df3.head()

- 그 이후 지역명을 기준으로 그룹화하고, 건축년도와 평당 가격의 평균을 구했다
- 우선 지난 7년간 구역별 거래된 아파트의 평균 건축년도는 다음과 같다 :
- 평균 건축년도가 가장 높은 지역은 은평구(05년), 그 다음이 중구(04년)이었다.
- 평균 건축년도가 가장 낮은 지역은 노원구(93년), 그 다음이 도봉구(94년)이었다.

분석
- 다음은 평균 건축년도와 평균 평당 가격 사이의 관계를 scatterplot에 대입해보았다
# 지역별 아파트의 평균 건축년도와 평균 평당 가격
plt.figure(figsize=(12, 6))
sns.scatterplot(x=df3['건축년도'], y=df3['평당 가격'], hue=df3['지역명'])
for i, txt in enumerate(df3['지역명']):
plt.annotate(txt, (df3['건축년도'][i], df3['평당 가격'][i]), fontsize=8)
plt.xlabel('건축년도')
plt.ylabel('평당 가격 [단위: 만원]')
plt.title('거래된 아파트의 지역별 평균 건축년도와 평균 평당 가격')
plt.legend().set_visible(False)
plt.show()

- 분석 결과 :
- 아파트의 연식이 오래되었다고 해서 꼭 낮은 값으로 거래가 되는 것은 아닌 것으로 보인다
- 노원구와 도봉구의 아파트들은 건축년도와 평당 가격이 비례하는 모습이지만, 강남구와 송파구, 용산구, 서초구는 오히려 반비례하는 모습을 보였다.
- 은평구도 마찬가지로 평균 건축년도는 가장 최신이지만, 평당 가격은 낮은 쪽에 속해있었다.
- 이 두 변수의 상관계수는 0.07로 유의미하지 않았다.
- 오히려 지역의 땅값에 영향을 더 받는 것으로 보인다(흔히 말하는 강남3구가 더 높은 추세)
- 상관계수 계산 :
# 상관관계 계산
correlation = df['건축년도'].corr(df['평당 가격']).round(3)
print(f"건축년도와 평당 가격의 상관계수: {correlation}")

'Data Science > TIL (Today I Learned)' 카테고리의 다른 글
| 프로그래머스 데이터분석 데브코스 1기 - 41일차 (0) | 2024.01.22 |
|---|---|
| 프로그래머스 데이터분석 데브코스 1기 - 40일차 (0) | 2024.01.19 |
| 프로그래머스 데이터분석 데브코스 1기 - 38일차 (0) | 2024.01.17 |
| 프로그래머스 데이터분석 데브코스 1기 - 37일차 (1) | 2024.01.17 |
| 프로그래머스 데이터분석 데브코스 1기 - 36일차 (0) | 2024.01.15 |