주제
1. 데이터 관련 이슈
2. 개인정보 보호
3. 개인정보 보호 법안
데이터 관련 변화
- 데이터 소스와 양이 폭발적으로 증가
- 모든 조직에서 데이터 생성과 사용이 증가(Data Decentralization)
- 데이터 사용자의 폭발적인 증가 (Data Democratization, SQL/ Dashboard skill)
- 클라우드 기본 사용
- 개인정보 보호법의 강화
데이터 관련 이슈
- 무분별한 개인 정보 전파
- 같은 데이터, 다른 해석 (팀별 상이한 해석이 나올 수 있음)
- 너무 많은 대시보드와 비슷한 테이블이 생성
- 불분명한 데이터 오너십
- 메타 데이터의 부족
- 조직이 커지면서 Data Silo 발생
※ Data Silo란?
한 팀이 소유하고 있는 데이터를 같은 조직 내의 다른 팀이 쉽게 접근/공유하지 못하는 현상
무분별한 개인 정보 전파
- 보호법 준수에는 엄청난 비용과 시간이 들어감
- 한번 테이블에 노출되면 불필요한 악순환이 발생
- 테이블을 사용하고 그 테이블을 기반으로 생성된 다른 테이블을 또 생성
- 해법 :
- 개인정보 정의(PII)와 개인 정보를 생성 시점부터 태깅하기
- 개인 정보 접근 권한 제어와 로깅 -> 감사 가능
- 특정 개인 정보 추출과 삭제 자동화
같은 데이터, 다른 해석
- 지표 등의 정확한 정의가 필요 -> 데이터 사전 혹은 데이터 용어집
- "매출"을 어떻게 정의할 것인가? "활성 사용자"는 어떻게 정의되는가?
- 데이터 소스, 필터링 등의 조건이 명확해야함 -> 데이터 기반 계산 공식
- 같은 데이터를 기반으로 사용해야함
- 각 지표 계산에서 바탕이 되는 데이터는 무엇인가? (source of truth)
너무 많은 대시보드와 비슷한 테이블
- Data Democratization은 정보 과잉으로 이어지기 쉬움
- Data Discovery 이슈
- 데이터 관련 요청의 과반수 이상을 차지함
- 데이터 인프라 비용 증가
- 빅데이터 스케일에서 비슷한 정보의 반복처리는 엄청난 비용이 증가됨
- 해법 :
- Data Catalog의 도입(카탈로그 검색 시스템을 개발)
- 자동화 솔루션을 통해 메타 데이터 관리
- 데이터셋 오너 지정 (누가 만들었는가?)
- 주기적인 데이터 / 대시보드 청소작업
- Data Catalog의 도입(카탈로그 검색 시스템을 개발)
메타 데이터의 부족
- Source of Truth가 무엇인가?
- 특정 데이터셋의 경우 :
- 누가 주인인가? 어떻게 생성된 데이터인가?
- Upstream 데이터를 변경하는 경우 확신이 없음
- Downstream 어디가 고장날지 알 수 없음
- 해법 :
- 중요 데이터별로 오너 지정
- 데이터별로 다양한 태그 혹은 분류체계 적용
- 데이터 리니지 자동 파악
- 특정 데이터셋의 경우 :
※ 메타 데이터란?
테이블 정보, 컬럼 정보, 코멘트, 테이블 오너, 테이블 사이의 관계(데이터 리니지) 등을 뜻한다.
불분명한 데이터 오너십
- 데이터 양의 증가는 보통 데이터 품질 이슈로 이어짐
- 데이터 품질 이슈는 데이터 셋의 불분명한 오너십과 밀접한 관련이 있음
- 누가 오너인가?
- 내부 데이터 (ETL)
- 외부 데이터 (ETL)
- 내부 / 외부 데이터를 바탕으로 만들어진 데이터 (ELT)
- 어떤 데이터를 가지고 있는가?
- 메타 데이터부터 관리를 시작하라!
Data Silo 발생(큰 기업)
- 위의 이슈들이 증폭됨
- 비슷한 일을 여러 팀에서 반복 (동일 데이터를 중복 수집하고 처리)
- 데이터 독점이 권력이 되기도 함
- 해법 :
- 조직 전반에 걸친 메타 데이터 관리 / 유지
- Data Mesh가 해법이 될 수 있음 (아직은 개념 수준)
개인정보란?
- 개인을 식별할 수 있는 정보(PII)를 말함
- 개인식별 정보의 예 :
- 성명(동명이인이 있을 수 있음), 이메일 주소, 전화번호, 주소, 신용카드 정보 등
- 개인식별 정보의 다른 예 :
- 몇가지 조합으로 개인을 식별할 수 있는 경우 (준식별자)
- 나이, 사는 도시, 직장 등
개인정보 보호
- 개인의 정보를 적절한 동의없이 저장하고 사용하지 않는 것
- 개인의 정보를 적절한 동의없이 노출하거나 배포하지 않는 것
- 보호를 위한 법률이 전세계적으로 만들어지고 있음
- 해당 법률 준수가 데이터 카탈로그 / 거버넌스 도입의 가장 큰 이유
- 개인의 정보주체권이 중요시되는 추세
개인정보 보호법
| 대한민국 | 미국 | 유럽연합 |
| 개인정보 보호법, 통신사업자 대상의 정보통신망법 | CCPA / CPRA | GDPR |
| 클라우드 컴퓨팅법 | HIPAA, Cloud Act, Honest Ads Act, FOSTA, FCC Regulation |
내부자 vs. 외부자 위협
- 내부 사람들의 단순한 실수에서 비롯된 Data Leak
- 기관에 따라 14 - 37%로 예측
- ex. 구글 문서 공유 세팅 실수
- 외부 위협의 예
- 해커, 랜섬웨어
- 사이버 범죄조직, 국가 후원조직
개인정보 보호법(GDPR 중심)
- GDPR : 2018년에 시행된 유럽연합의 개인정보보호 법령
- 유럽연합 내 모든 회원국에 일괄 적용 (권고가 아님)
- 적용 대상 기업 :
- 유럽연합 내의 회사가 아니어도 적용 가능
- EU 사용자가 있는 웹서비스의 경우 모두 적용 대상이 됨
GDPR 세부사항
- 동의 요건 강화(서비스 약관), 아동 정보에 대해 더 강한 보호(대리인 지정 유무)
- 민감정보의 처리는 원칙금지(회원국에 따라 달라짐)
- 정보주체의 권리 강화 (회사들은 30일 내에 응답해야함)
- 큰 회사들은 셀프 서비스를 만들어 대응
| 권리 | 주요내용 |
| 삭제권 | 정보주체는 본인에 관한 개인정보 삭제를 요구할 권리를 가짐 |
| 프로파일링 거부권 | 정보주체는 본인에게 중대한 영향을 미치는 사안을 프로파일링 등 자동화된 처리에 의해서만 결정하는 것에 반대할 권리를 가짐 |
| 처리제한권(신설) | 정보주체는 본인에 관한 개인정보의 처리를 차단하거나 제한을 요구할 권리를 가짐 |
| 정보이동권(신설) | 정보주체는 본인의 개인정보를 본인 또는 다른 사업자에게 전송토록 요구할 권리를 가짐 |
느낀점
민감한 정보가 담긴 데이터를 가지고 일을 할 때는 정말 많은 것을 고려하고 항상 조심해야겠다는 생각을 했다. 이미 회사에서 이런 체계가 갖춰지면 좋겠지만 작은 규모의 회사들은 그렇지 않을 확률이 높으니 오늘 배운 것을 명심하면 미래에 도움이 되지 않을까..?
그리고 오늘을 마지막으로 첫 주가 끝났다! 아직까지 큰 어려움은 없는데 다음주부터 엑셀을 들어가니 주말에 미리 공부 좀 해놔야겠다.
'Data Science > TIL (Today I Learned)' 카테고리의 다른 글
| 프로그래머스 데이터분석 데브코스 1기 - 7일차 (0) | 2023.11.28 |
|---|---|
| 프로그래머스 데이터분석 데브코스 1기 - 6일차 (0) | 2023.11.27 |
| 프로그래머스 데이터분석 데브코스 1기 - 4일차 (0) | 2023.11.23 |
| 프로그래머스 데이터분석 데브코스 1기 - 3일차 (1) | 2023.11.22 |
| 프로그래머스 데이터분석 데브코스 1기 - 2일차 (1) | 2023.11.21 |