리피야
2023. 11. 28. 16:59
2023. 11. 28. 16:59
주제
1. 데이터의 종류(엑셀 기준)
2. 도메인 지식
3. 실습
데이터의 종류
1. 숫자 데이터
- 숫자로 이루어진 데이터
- 숫자 (0-9), +, -, 화폐기호, 소수점, %, 지수 등
2. 문자 데이터
- 문자로 이루어진 데이터
- 문자 + 숫자도 가능
- 특정 함수 사용이 불가능
- 문자열 함수를 사용
- ex. 핸드폰 번호, 주민등록번호, 숫자, 기호, 명칭 등
3. 날짜 데이터
- 년, 월, 일의 날짜를 표시하기 위한 데이터
- 하이픈이나 슬래시로 표현 가능
- 숫자처럼 계산 가능
- 숫자 1은 하루를 의미(0.5는 12시간)
- 특정 함수 사용 가능
4. 기타 데이터
도메인 지식(Domain knowledge)
실습 - 타이타닉 탑승객의 생존 확률 예측
- 간이 데이터 살펴보기 (순번, 승객명, 성별, 나이, 탑승석 등급)
- 1은 생존, 0은 사망으로 간주
- 도메인 지식 : 시대적 배경을 알고 시작하기
- 당시에는 "Ladys first" 개념이 강하게 자리잡음 -> 여성이 남성보다 생존 확률이 클 수 있음
- 타이타닉에는 다양한 사회 계급의 사람들이 존재함. 1등급은 부자, 3등급은 가난한 이민자 -> 1등급 탑승객이 3등급 탑승객보다 생존 확률 높음
- 당시 3등급 객실은 내부가 매우 복잡했음 -> 탈출하기 쉽지 않았을 것
- 프로그래머스 실습으로 진행(캡쳐 없음)
- 도메인 지식을 알고 난 후 예측 확률이 증가함