주제
1. 실전 데이터 분석 사례 - Indian Restaurant Data
2. 실전 데이터 분석 사례 - Global AI, ML, Data Science Salary
3. 실전 데이터 분석 사례 - NBA Players
실전 데이터 분석 사례 - Indian Restaurant Data
🍜 27,000 + Indian Restaurant Dataset 🏰 🍰
Indian Restaurants dataset
www.kaggle.com
- 데이터 전처리
- 중복 확인 (COUNT함수로 칼럼별 개수가 같은 지 확인)
- 칼럼 확인
- 구하고자 하는 것을 위해 작은 테이블로 만들어 둔 후 import하여 시각화 진행
- 분석
- 프랜차이즈 식당이 개인 식당보다 평점이 좋을지?
- 식당의 평점이 평균 가격, 평균 배달시간과의 어떤 상관관계가 있는지
- 식당 특성이 평점에 큰 영향을 주는지 등
- 시각화
- 단일 점포 식당의 평점 분포는 양극단의 차이가 컸고, 3개 이상 점포 식당은 평점 분포가 몰려있었다
- 피어슨 상관관계
- 엑셀 혹은 구글 스프레드시트에서 CORREL() 함수를 사용
- 보통 절댓값이 0.7정도가 나와야 상관도가 크다라고 분석
- 식당의 특성을 뺀 상관계수 분석
- 점포의 개수와 평점 간의 상관관계 -> 양수
- 평균 가격과의 상관관계 -> 음수(거의 0에 가까움)
- 평균 배달 시간과의 상관관계 -> 음수(배달 시간이 길어질수록 평점은 낮아짐)
- 식당 특성을 이용한 상관계수
- 식당의 지역을 이용한 상관계수 등을 계산해볼 수 있다
- 결과
- 식당의 점포 개수가 많을수록 평균 평점이 높았다
- 식당의 배달 시간이 짧을수록, 평균 가격이 낮을수록 평점이 좋아지는 추세
- 보장된 맛을 원하면 프랜차이즈, 도전을 원한다면 단일 점포 식당 방문을 추천
실전 데이터 분석 사례 2 - Global AI, ML, Data Science Salary
Global AI, ML, Data Science Salary 2023
Open salary data of Data Science related profile in the public domain
www.kaggle.com
- 분석
- 일의 숙련도가 높을수록 연봉이 높아지는가?
- 출근을 하는 사람과 재택 근무를 하는 사람의 평균 연봉에는 어떤 차이가 있을까?
- 회사 규모가 클수록 평균 연봉이 높아지는가?
- 22년에 비해 23년의 재택 근무자 비율이 감소하였는데 이유는 무엇일까?
- 22년에 비해 23년의 평균 연봉이 증가하였는데 이유는 무엇일까?
- 결과
- 일의 경험이 많을수록 평균 연봉이 높다
- 출근을 하는 사람과 재택 근무를 하는 사람의 평균 연봉의 차이는 크지 않았다(출근 > 재택)
- 회사의 규모가 클수록 평균 연봉이 높지 않았다. -> 평균 연봉이 가장 큰 곳은 중간 사이즈 회사였다
- 소 < 대 < 중
- 숙련도에 따른 직원 수를 시각화한 결과 :
- 22년보다 23년에 시니어 레벨 직원의 수가 증가함
- 중간 크기의 회사 비중이 높아짐
- 따라서 22년보다 23년의 평균 연봉이 높아졌다
- 22년에 비해 23년에 재택 근무 비율이 감소한 이유 :
- 시니어 직원의 비중이 높아지고, 해외 근무자 비중이 줄어들었기 때문
실전 데이터 분석 사례 3 - NBA Players
NBA Players
Biometric, biographic and basic box score stats from 1996 to 2022 season
www.kaggle.com
- 분석
- 선수들의 나이, 키, 몸무게의 변화
- 각 선수의 커리어가 어떻게 변화했는지
- 결과
- 데이터가 중복되는 이유 : 동명이인이 존재
- 평균 신장과 몸무게는 감소 추세
- 시즌 내에 소화하는 게임 수는 증가 추세(옛날 선수들보다 체력이 좋아졌거나, 벤치 depth가 얕아졌다고 예상해볼 수 있음)
- 평균 득점과 어시스트는 증가 추세, 리바운드는 유지
- 예전에는 포스트 업 위주의 플레이를 많이 했다면, 요즘엔 외곽슛을 많이 쏘는 플레이가 추세
- 연도별 상위 드래프트 선수들의 키와 나이의 변화
- 드래프트 1라운드, 10순위 이내에 뽑힌 선수들의 키와 나이 추세는 감소
느낀점
이렇게 데이터를 가지고 전처리부터 분석을 하는 과정까지 직접 보니까 어느정도 가이드라인이 잡힌 것 같아서 유익했다. 다음주부터 본격적으로 EDA 프로젝트에 들어가는데 어떻게 시작해야하는지 감이 조금 생겼다...! 이번에 시각화는 그렇게 많지 않았지만 엑셀로 하면 그다지 어려울 것 같진 않아보인다. 저번에 멘토님이 말해주셨던 것처럼 데이터를 시각화하는 것보다는 먼저 이해하는 게 중요하니까, 주제와 데이터를 고르면 일단 도메인 지식부터 쌓고 시작해야겠다..
'Data Science > TIL (Today I Learned)' 카테고리의 다른 글
| 프로그래머스 데이터분석 데브코스 1기 - 17일차 (0) | 2023.12.12 |
|---|---|
| 프로그래머스 데이터분석 데브코스 1기 - 16일차 (0) | 2023.12.11 |
| 프로그래머스 데이터분석 데브코스 1기 - 14일차 (2) | 2023.12.07 |
| 프로그래머스 데이터분석 데브코스 1기 - 13일차 (0) | 2023.12.06 |
| 프로그래머스 데이터분석 데브코스 1기 - 12일차 (1) | 2023.12.05 |