주제

1. 캐글 실습

 

캐글 실습

  • 엑셀(or 스프레드 시트)를 이용한 타이타닉 승객들의 생존 예측
  • 와인 종류 예측

 

타이타닉 실습

  • 캐글에서 데이터를 다운 후 구글 스프레드시트에서 분석 진행(https://www.kaggle.com/competitions/titanic)
  • 도메인 지식을 이용하여 두가지 조건을 사용하기로 함
    • 생존확률에 있어 여자 > 남자
    • 1등급 승객 > 2 혹은 3등급 승객
  • 1은 생존, 0은 사망으로 분류
  • AND 사용 시 :

Guess가 나의 예측 칼럼

  • 이걸 submission.csv파일에 복붙해서 제출하면 약 73%의 정답률이 나온다.

  • OR를 사용한 결과는 약 70%의 정답률로 정답률이 약간 하락했다.

 

 

와인 실습

  • 와인 실습은 와인의 pH, residual sugar 등의 데이터가 들어있고, 이를 분석하여 레드 와인(0)인지 화이트 와인(1)인지를 예측하는 것이다.
  • pivot table에서 여러 개의 칼럼을 비교해보았다 :
    • residual sugar는 화이트 와인의 median이 레드 와인의 median보다 유의미하게 높다
    • total sulfur dioxide는 화이트 와인이 레드 와인보다 매우 높다
    • chlorides는 화이트 와인이 레드 와인보다 유의미하게 높다
    • free sulfur dioxide는 화이트 와인이 레드 와인보다 유의미하게 높다

train 파일 데이터의 pivot table

  • 이 4가지 분석 결과를 이용하여 예측을 위한 함수를 넣어준다
  • 문제점 : 엑셀을 거의 다룰 줄 모르다 보니 다중 중첩 함수에서 AND와 OR를 여러개 섞는 법을 몰라서 가장 차이가 큰 두가지 조건만 넣기로 했다
  • residual sugar와 total sulfur dioxide에 대한 조건만 AND를 통해서 묶어주고 함수를 실행
  • 결과는 약 53%

 


느낀점

너무 너무 부끄럽지만 엑셀을 쓸 줄 모르는데 강사님이 강의에서는 함수 몇 개만 소개하시고 갑자기 분석하고 예측해보세요 ~ 하니까 당황스러웠다... pivot table도 언니에게 물어서 한 것... 걸음마하다가 갑자기 날아보라고 하니까 힘들었다..얼른 엑셀 강의 들어야겠다는 생각이 크게 들었고, 결과가 리더보드에 뜨는데 다른 분들은 너무 잘하셔서 자괴감도 들었다...아무래도 직장인도 있고, 전공자나 유사 전공자분들은 엑셀을 어느정도 다룰줄 알기 때문이지 않을까 싶은데. 아무튼 혼자 화도 내고, 구글링도 해보고 좌절하고 여러모로 많은 걸 느끼게 해준 실습이었다.. 곧 프로젝트가 있는데 sql은 걱정 없는데 엑셀이 너무 걱정된다. 팀원들한테 해가 되면 어쩌나 싶고,, 엑셀 강의나 빨리 들어야겠다

 

+ Recent posts