주제
프로젝트 진행
프로젝트 진행 과정
- 주말에 팀원들과 주제를 정하고 역할 분담을 했다.
- 주제는 케글에서 가져온 고등학생들의 학업성취에 관한 데이터 셋이다 :
https://www.kaggle.com/datasets/devansodariya/student-performance-data/data
Student Performance Dataset
Student Performance Dataset with Detailed and Veriety of (33)Features
www.kaggle.com
- 해당 데이터셋에는 학생들의 가정, 건강상태, 경제적 상황 등과 관련된 컬럼이 존재해서 이러한 요소들이 학생들의 성적에 어떤 영향을 주는지 분석할 수 있을 것 같아서 선택하였다.
- 나의 역할은 데이터 전처리
- 전처리가 가장 먼저 이루어져야 할 부분이기 때문에 오늘 최대한 빨리, 많이 진행하려고 노력했다.
- 그리고 전처리를 진행하기 전에 칼럼명들이 모호한 것이 많았기 때문에, 데이터 오너의 설명을 찾아 따로 한글로 번역하였다.

전처리 과정(1)
- 우선 툴은 MySQL이고, 데이터를 가져와서 기본 칼럼들 확인하고 결측치 확인을 했다.
- count()함수를 이용해서 확인하니 결측치는 없는 클린 데이터였다.
- 그 다음은 컬럼의 수가 많아서 하나씩 보기 보다는 칼럼들을 카테고리화해서 나누어 보자라는 생각으로 총 6개로 나눴다.

- 이렇게 하면 같이 전처리 담당을 하시는 분과 겹치지 않고 효율적으로 진행할 수 있을 것 같았다.
- 나는 이 중 첫 3가지를 담당. 노션에 각 주제에 맞는 쿼리를 작성해놓고, CSV 파일들도 업로드. 팀원들과 공유
- 우선 큰 주제를 들어가기 전에 기본적인 부분부터 확인했다. 예를 들어, 성별에 따른 학생의 수, 성별에 따른 평균 성적, 평균 나이 등등.
- 여기서 얻어갈 것은 크지 않지만 데이터를 이해하는 데 도움이 됐다.
- [도메인 지식] 우선 칼럼 G1, G2, G3는 각 1학기, 2학기, 최종 성적인데 데이터가 포르투갈 고등학교를 기반으로 하다보니 한국과 성적 시스템이 달랐다.
- 이 곳은 성적이 0점부터 20점으로 나뉘고, 20점에 가까울수록 A라고 생각하면 된다.
전처리 과정 (2)
- 기본적인 분석은 이런식으로 진행

부모와의 관계에서 눈여겨볼 포인트 :
1. 놀랍게도 부모님의 교육수준과 학생들의 평균 성적은 예상과 달랐다.
- 교육수준은 0부터 4까지 숫자가 높을수록 많은 교육을 받은 것을 나타내는데, 교육 수준이 높을수록 평균 성적이 높아질것이라는 예상과 달리 가장 평균 성적이 높았던 그룹은 부모님의 교육 수준이 0인 학생들이었다.
- 물론, 그 점을 제외하고는 부모의 교육수준이 높을수록 학생의 평균 성적도 높았다.


2. 부모님의 동거 여부와 성적의 관계는 성별 별로 달랐다.
- 남여 학생들을 모두 통틀어서 봤을 때, 별거한 부모(A)와 그렇지 않은 부모(T) 밑에서 자란 학생들의 평균 성적은 1점 정도였다.

- 하지만, 성별을 나누면 남여가 다른 양상을 보였다.
- 우선 여학생의 경우 부모의 동거 여부는 평균 성적에 큰 영향을 미치지 않았다.

- 남학생의 경우, 특이하게도 부모가 별거 중인 학생들의 평균 성적이 무려 약 3점이나 높았다!
- 이를 보고 부모가 별거 중인 남학생들 중 보호자에 따른 성적 차이가 있을지 궁금했다.
- 이를 알아본 결과, 남학생은 보호자가 엄마 / 아빠가 아닌 다른 사람일 때 평균 성적이 가장 높았고, 그 다음이 엄마가 보호자일 경우에 높았다.
- 아빠가 보호자일 경우의 평균 성적이 눈에 띄게 낮았다.
select Pstatus as parental_stat, sex, guardian, avg(g3) as avg_score
from student_data
where sex = 'M'
group by 1, 3
order by avg_score desc;
-- 부모가 별거 중인 남학생의 보호자 별 평균 성적
select Pstatus as parental_stat, sex, guardian, avg(g3) as avg_score
from student_data
where sex = 'M' and Pstatus = 'A'
group by 1, 3
order by avg_score desc;

- 여학생들의 경우, 부모가 별거 중일때 엄마를 보호자로 둔 학생의 성적이 가장 높았고, 부모 이외의 사람이 보호자일 때 가장 낮았다. -> 남학생과 거의 반대 양상을 보임.
- 그리고 눈여겨볼만한 점은, 평균 성적만을 비교했을 때, 여학생이 남학생보다 부모님의 별거에 더 큰 타격을 받는 것으로 보인다.

느낀점
오늘이 첫날이라 일단 큰 주제는 다 커버를 했지만, 확실히 팀원들과 같이 하면 다양한 인사이트를 도출할 수 있어서 좋은 것 같다. 하루종일 데이터만 보다보니 시야가 좁아져서 이것저것 놓치는 게 생기는데 이럴 때일수록 팀원들과 같이 해야겠다는 생각을 했다. 근데 전에도 sql하면서 느낀거지만 쿼리 가지고 노는게 정말 재밌는 것 같다. 내가 원하는 데이터를 원하는 방법으로 쭉쭉 뽑아낼 수 있다는 게 정말 좋다! 전처리를 빨리 해야지 나머지 분들도 빠르게 진행하실 수 있으니까 오늘은 이것에만 집중하는 걸로..!
'Data Science > TIL (Today I Learned)' 카테고리의 다른 글
| 프로그래머스 데이터분석 데브코스 1기 - 18일차 (0) | 2023.12.13 |
|---|---|
| 프로그래머스 데이터분석 데브코스 1기 - 17일차 (0) | 2023.12.12 |
| 프로그래머스 데이터분석 데브코스 1기 - 15일차 (0) | 2023.12.08 |
| 프로그래머스 데이터분석 데브코스 1기 - 14일차 (2) | 2023.12.07 |
| 프로그래머스 데이터분석 데브코스 1기 - 13일차 (0) | 2023.12.06 |