주제
프로젝트 과정
분석과 시각화
- 전처리가 끝나고 열렸던 팀 미팅에서 멘토님이 자기 파트가 끝났다면 다른 사람의 파트도 해보는 게 좋겠다고 하셨다.
- 그래서 분석과 시각화를 도전해보기로 했다.
- 분석에 있어서는 전처리를 하면서 어느정도 자연스럽게 진행이 됐기 때문에 딱히 따로 할 일은 없었다.
- 노션에 전처리 과정을 적으면서 유의미한 차이가 있었다면 요약해서 몇 줄을 같이 적었기 때문에 그걸 보면서 했다.
시각화
- 시각화는 구글 스프레드시트로 진행했다.

- 중간중간 어려웠던 점은, 데이터에 따라서 어떤 그래프로 나타내는 게 좋을지 선택하는 것이었다.
- 예를 들어 남여 학생의 비율을 나타낼 때는 파이 차트나 도넛 차트가 낫고, 평균 성적을 어떤 독립변수로 나누었을 때는 각 단계 별로 차이를 볼 수 있는 바 그래프가 낫다고 생각했다.
- 그 중에 주소의 특징 별 평균 성적을 또 한번 성별이라는 변수로 나누어 본 데이터였는데, 내가 하고 싶었던 것은 도시와 시골 두 파트로 나누어서 그 안에 성별별로 성적을 스태킹하는 모양을 그려보고 싶었다.

- 바로 이 데이터인데, 일단 크게 도시 / 시골로 나누고 그 안에서 성별 별로 또 나누려면 아무래도 컬럼을 새로 만들어서 하는게 좋겠다는 생각이 들어서 주소 컬럼을 추가했다.

- 하지만 막상 데이터를 그래프로 옮기니 각기 다른 바로 표현이 됐다

- 그래서 차트의 범위를 이리저리 바꿔보기도 하고, 스택킹으로 바꾸어 보고 했지만 혼자서는 해결법을 찾지 못했다.

- 일단 특징별로 바를 합치는 것까지는 완성을 했는데, 문제는 성별 별로 평균 성적이 나오지를 않는다는 거였다..ㅠㅠ
- 챗지피티와 씨름을 하며 저기까지는 했는데 실력 부족(...)으로 인해 한계에 도달했다.
- 그래서 일단은 해당 데이터는 두고 다른 것들을 시도해보기로 했다.
흥미로운 점
- 분석 또는 시각화를 하면서 느꼈던 점은, 성별을 나누지 않고 오직 하나의 변수만으로 평균 성적을 나누면 차이가 정말 근소했다.
- 이 데이터에서 근소란 보통 1점이나 1.3점 이하로 생각을 하고 있다
- 하지만 성별이라는 변수가 들어가면 차이가 도드라졌다.
- 예를 들어, 부모님이 별거 중인 남학생들은 보호자가 누구냐에 따라서 평균 성적이 최대 3점까지 차이가 났다.
- 여학생도 마찬가지로 2점 이상 차이가 났다.
- 이런 것을 볼 때, 확실히 변수 하나만을 가지고 분석하는 것은 너무 얕은 분석이고, 연관이 있을 것 같은 컬럼들을 다양하게 조합해서 분석을 해보면 유의미한 차이를 발견할 수 있다는 것을 느꼈다.
느낀점
분석과 시각화 모두 데이터 분석가에게는 너무나 중요한 부분이다. 두 스킬 모두 열심히 갈고 닦아야 겠다는 생각을 뼈저리게 했다. 특히 시각화 부분은 나중에 부캠을 계속 진행하면서 태블로 같은 툴들을 배울텐데, 정말 열심히 공부해야겠다는 생각을 했다... 확실히 수치만을 보고 있으면 명확한 차이점도 눈에 띄지 않기 때문에, 시각화는 데이터를 처음 접하는 사람에게도 쉽게 이해를 시킬 수 있는 아주 좋은 스킬이지 않나 생각이 든다. 생각보다 시각화가 시간이 많이 걸린다는 것을 몸소 체험한 날...내일은 멘토님 조언대로 혼자 최종 결론도 내보고, 보고서도 작성해봐야겠다.
'Data Science > TIL (Today I Learned)' 카테고리의 다른 글
| 프로그래머스 데이터분석 데브코스 1기 - 21일차 (0) | 2023.12.18 |
|---|---|
| 프로그래머스 데이터분석 데브코스 1기 - 20일차 (0) | 2023.12.15 |
| 프로그래머스 데이터분석 데브코스 1기 - 18일차 (0) | 2023.12.13 |
| 프로그래머스 데이터분석 데브코스 1기 - 17일차 (0) | 2023.12.12 |
| 프로그래머스 데이터분석 데브코스 1기 - 16일차 (0) | 2023.12.11 |