주제

1. 데이터의 종류(엑셀 기준)
2. 도메인 지식
3. 실습

 

 

데이터의 종류

1. 숫자 데이터

  • 숫자로 이루어진 데이터
  • 숫자 (0-9), +, -, 화폐기호, 소수점, %, 지수 등

 

2. 문자 데이터

  • 문자로 이루어진 데이터
  • 문자 + 숫자도 가능
  • 특정 함수 사용이 불가능
  • 문자열 함수를 사용
  • ex. 핸드폰 번호, 주민등록번호, 숫자, 기호, 명칭 등

 

3. 날짜 데이터

  • 년, 월, 일의 날짜를 표시하기 위한 데이터
  • 하이픈이나 슬래시로 표현 가능
  • 숫자처럼 계산 가능
  • 숫자 1은 하루를 의미(0.5는 12시간)
  • 특정 함수 사용 가능

 

4. 기타 데이터

  • 논리 데이터, 시간 데이터, 수식 데이터 등

 

 

도메인 지식(Domain knowledge)

  • 특정 분야의 전문화된 지식
  • 데이터 분석가
    • 프로그래밍
    • 수학 / 통계 지식
    • 도메인 지식

 

실습 - 타이타닉 탑승객의 생존 확률 예측

  • 간이 데이터 살펴보기 (순번, 승객명, 성별, 나이, 탑승석 등급)
  • 1은 생존, 0은 사망으로 간주
  • 도메인 지식 : 시대적 배경을 알고 시작하기
    • 당시에는 "Ladys first" 개념이 강하게 자리잡음 -> 여성이 남성보다 생존 확률이 클 수 있음
    • 타이타닉에는 다양한 사회 계급의 사람들이 존재함. 1등급은 부자, 3등급은 가난한 이민자 -> 1등급 탑승객이 3등급 탑승객보다 생존 확률 높음
    • 당시 3등급 객실은 내부가 매우 복잡했음 -> 탈출하기 쉽지 않았을 것
  • 프로그래머스 실습으로 진행(캡쳐 없음)
  • 도메인 지식을 알고 난 후 예측 확률이 증가함

 

 

 

+ Recent posts