주제

프로젝트 진행

 

프로젝트 진행 과정

 

Student Performance Dataset

Student Performance Dataset with Detailed and Veriety of (33)Features

www.kaggle.com

  • 해당 데이터셋에는 학생들의 가정, 건강상태, 경제적 상황 등과 관련된 컬럼이 존재해서 이러한 요소들이 학생들의 성적에 어떤 영향을 주는지 분석할 수 있을 것 같아서 선택하였다.
  • 나의 역할은 데이터 전처리
  • 전처리가 가장 먼저 이루어져야 할 부분이기 때문에 오늘 최대한 빨리, 많이 진행하려고 노력했다.
  • 그리고 전처리를 진행하기 전에 칼럼명들이 모호한 것이 많았기 때문에, 데이터 오너의 설명을 찾아 따로 한글로 번역하였다.

이런식으로 칼럼 설명을 번역

 

 

전처리 과정(1)

  • 우선 툴은 MySQL이고, 데이터를 가져와서 기본 칼럼들 확인하고 결측치 확인을 했다.
  • count()함수를 이용해서 확인하니 결측치는 없는 클린 데이터였다.
  • 그 다음은 컬럼의 수가 많아서 하나씩 보기 보다는 칼럼들을 카테고리화해서 나누어 보자라는 생각으로 총 6개로 나눴다.

칼럼을 작은 주제로 카테고리화

  • 이렇게 하면 같이 전처리 담당을 하시는 분과 겹치지 않고 효율적으로 진행할 수 있을 것 같았다.
  • 나는 이 중 첫 3가지를 담당. 노션에 각 주제에 맞는 쿼리를 작성해놓고, CSV 파일들도 업로드. 팀원들과 공유
  • 우선 큰 주제를 들어가기 전에 기본적인 부분부터 확인했다. 예를 들어, 성별에 따른 학생의 수, 성별에 따른 평균 성적, 평균 나이 등등.
  • 여기서 얻어갈 것은 크지 않지만 데이터를 이해하는 데 도움이 됐다.
  • [도메인 지식] 우선 칼럼 G1, G2, G3는 각 1학기, 2학기, 최종 성적인데 데이터가 포르투갈 고등학교를 기반으로 하다보니 한국과 성적 시스템이 달랐다.
  • 이 곳은 성적이 0점부터 20점으로 나뉘고, 20점에 가까울수록 A라고 생각하면 된다.

 

전처리 과정 (2)

  • 기본적인 분석은 이런식으로 진행

 

부모와의 관계에서 눈여겨볼 포인트 :

1. 놀랍게도 부모님의 교육수준과 학생들의 평균 성적은 예상과 달랐다.

  • 교육수준은 0부터  4까지 숫자가 높을수록 많은 교육을 받은 것을 나타내는데, 교육 수준이 높을수록 평균 성적이 높아질것이라는 예상과 달리 가장 평균 성적이 높았던 그룹은 부모님의 교육 수준이 0인 학생들이었다.
  • 물론, 그 점을 제외하고는 부모의 교육수준이 높을수록 학생의 평균 성적도 높았다.

아버지의 교육수준과 평균 성적
어머니의 교육수준과 평균 성적

 

2. 부모님의 동거 여부와 성적의 관계는 성별 별로 달랐다.

  • 남여 학생들을 모두 통틀어서 봤을 때, 별거한 부모(A)와 그렇지 않은 부모(T) 밑에서 자란 학생들의 평균 성적은 1점 정도였다.

  • 하지만, 성별을 나누면 남여가 다른 양상을 보였다.
  • 우선 여학생의 경우 부모의 동거 여부는 평균 성적에 큰 영향을 미치지 않았다.

여학생은 성적이 비슷하다

  • 남학생의 경우, 특이하게도 부모가 별거 중인 학생들의 평균 성적이 무려 약 3점이나 높았다!
  • 이를 보고 부모가 별거 중인 남학생들 중 보호자에 따른 성적 차이가 있을지 궁금했다.
  • 이를 알아본 결과, 남학생은 보호자가 엄마 / 아빠가 아닌 다른 사람일 때 평균 성적이 가장 높았고, 그 다음이 엄마가 보호자일 경우에 높았다.
  • 아빠가 보호자일 경우의 평균 성적이 눈에 띄게 낮았다.
select Pstatus as parental_stat, sex, guardian, avg(g3) as avg_score
from student_data
where sex = 'M'
group by 1, 3
order by avg_score desc;

-- 부모가 별거 중인 남학생의 보호자 별 평균 성적
select Pstatus as parental_stat, sex, guardian, avg(g3) as avg_score
from student_data
where sex = 'M' and Pstatus = 'A'
group by 1, 3
order by avg_score desc;

 

  • 여학생들의 경우, 부모가 별거 중일때 엄마를 보호자로 둔 학생의 성적이 가장 높았고, 부모 이외의 사람이 보호자일 때 가장 낮았다. -> 남학생과 거의 반대 양상을 보임.
  • 그리고 눈여겨볼만한 점은, 평균 성적만을 비교했을 때, 여학생이 남학생보다 부모님의 별거에 더 큰 타격을 받는 것으로 보인다.

여학생의 데이터

 

 

 


느낀점

오늘이 첫날이라 일단 큰 주제는 다 커버를 했지만, 확실히 팀원들과 같이 하면 다양한 인사이트를 도출할 수 있어서 좋은 것 같다. 하루종일 데이터만 보다보니 시야가 좁아져서 이것저것 놓치는 게 생기는데 이럴 때일수록 팀원들과 같이 해야겠다는 생각을 했다. 근데 전에도 sql하면서 느낀거지만 쿼리 가지고 노는게 정말 재밌는 것 같다. 내가 원하는 데이터를 원하는 방법으로 쭉쭉 뽑아낼 수 있다는 게 정말 좋다! 전처리를 빨리 해야지 나머지 분들도 빠르게 진행하실 수 있으니까 오늘은 이것에만 집중하는 걸로..!

+ Recent posts