주제

1.  데이터 관련 이슈
2. 개인정보 보호
3. 개인정보 보호 법안

 

 

데이터 관련 변화

  • 데이터 소스와 양이 폭발적으로 증가
  • 모든 조직에서 데이터 생성과 사용이 증가(Data Decentralization)
  • 데이터 사용자의 폭발적인 증가 (Data Democratization, SQL/ Dashboard skill)
  • 클라우드 기본 사용
  • 개인정보 보호법의 강화

 

데이터 관련 이슈

  • 무분별한 개인 정보 전파
  • 같은 데이터, 다른 해석 (팀별 상이한 해석이 나올 수 있음)
  • 너무 많은 대시보드와 비슷한 테이블이 생성
  • 불분명한 데이터 오너십
  • 메타 데이터의 부족
  • 조직이 커지면서 Data Silo 발생

Data Silo란?

한 팀이 소유하고 있는 데이터를 같은 조직 내의 다른 팀이 쉽게 접근/공유하지 못하는 현상

 

무분별한 개인 정보 전파

  • 보호법 준수에는 엄청난 비용과 시간이 들어감
  • 한번 테이블에 노출되면 불필요한 악순환이 발생
    • 테이블을 사용하고 그 테이블을 기반으로 생성된 다른 테이블을 또 생성
  • 해법 :
    • 개인정보 정의(PII)와 개인 정보를 생성 시점부터 태깅하기
    • 개인 정보 접근 권한 제어와 로깅 -> 감사 가능
    • 특정 개인 정보 추출과 삭제 자동화

 

같은 데이터, 다른 해석

  • 지표 등의 정확한 정의가 필요 -> 데이터 사전 혹은 데이터 용어집
    • "매출"을 어떻게 정의할 것인가? "활성 사용자"는 어떻게 정의되는가?
    • 데이터 소스, 필터링 등의 조건이 명확해야함 -> 데이터 기반 계산 공식
  • 같은 데이터를 기반으로 사용해야함
    • 각 지표 계산에서 바탕이 되는 데이터는 무엇인가? (source of truth)

 

너무 많은 대시보드와 비슷한 테이블

  • Data Democratization은 정보 과잉으로 이어지기 쉬움
  • Data Discovery 이슈
    • 데이터 관련 요청의 과반수 이상을 차지함
  • 데이터 인프라 비용 증가
    • 빅데이터 스케일에서 비슷한 정보의 반복처리는 엄청난 비용이 증가됨
  • 해법 : 
    • Data Catalog의 도입(카탈로그 검색 시스템을 개발)
      • 자동화 솔루션을 통해 메타 데이터 관리
      • 데이터셋 오너 지정 (누가 만들었는가?)
      • 주기적인 데이터 / 대시보드 청소작업

 

메타 데이터의 부족

  • Source of Truth가 무엇인가?
    • 특정 데이터셋의 경우 :
      • 누가 주인인가? 어떻게 생성된 데이터인가?
    • Upstream 데이터를 변경하는 경우 확신이 없음
      • Downstream 어디가 고장날지 알 수 없음
    • 해법 : 
      • 중요 데이터별로 오너 지정
      • 데이터별로 다양한 태그 혹은 분류체계 적용
      • 데이터 리니지 자동 파악

 

메타 데이터란?

테이블 정보, 컬럼 정보, 코멘트, 테이블 오너, 테이블 사이의 관계(데이터 리니지) 등을 뜻한다.

 

불분명한 데이터 오너십

  • 데이터 양의 증가는 보통 데이터 품질 이슈로 이어짐
    • 데이터 품질 이슈는 데이터 셋의 불분명한 오너십과 밀접한 관련이 있음
    • 누가 오너인가?
      • 내부 데이터 (ETL)
      • 외부 데이터 (ETL)
      • 내부 / 외부 데이터를 바탕으로 만들어진 데이터 (ELT)
  • 어떤 데이터를 가지고 있는가?
    • 메타 데이터부터 관리를 시작하라!

 

Data Silo 발생(큰 기업)

  • 위의 이슈들이 증폭됨
  • 비슷한 일을 여러 팀에서 반복 (동일 데이터를 중복 수집하고 처리)
  • 데이터 독점이 권력이 되기도 함
  • 해법 : 
    • 조직 전반에 걸친 메타 데이터 관리 / 유지
    • Data Mesh가 해법이 될 수 있음 (아직은 개념 수준)

 

개인정보란?

  • 개인을 식별할 수 있는 정보(PII)를 말함
  • 개인식별 정보의 예 :
    • 성명(동명이인이 있을 수 있음), 이메일 주소, 전화번호, 주소, 신용카드 정보 등
  • 개인식별 정보의 다른 예 :
    • 몇가지 조합으로 개인을 식별할 수 있는 경우 (준식별자)
    • 나이, 사는 도시, 직장 등

 

개인정보 보호

  • 개인의 정보를 적절한 동의없이 저장하고 사용하지 않는 것
  • 개인의 정보를 적절한 동의없이 노출하거나 배포하지 않는 것
  • 보호를 위한 법률이 전세계적으로 만들어지고 있음
  • 해당 법률 준수가 데이터 카탈로그 / 거버넌스 도입의 가장 큰 이유
  • 개인의 정보주체권이 중요시되는 추세

 

개인정보 보호법

대한민국 미국 유럽연합
개인정보 보호법, 통신사업자 대상의 정보통신망법 CCPA / CPRA GDPR
클라우드 컴퓨팅법 HIPAA, Cloud Act, Honest Ads Act,
FOSTA, FCC Regulation
 

 

 

내부자 vs. 외부자 위협

  • 내부 사람들의 단순한 실수에서 비롯된 Data Leak
    • 기관에 따라 14 - 37%로 예측
    • ex. 구글 문서 공유 세팅 실수
  • 외부 위협의 예
    • 해커, 랜섬웨어
    • 사이버 범죄조직, 국가 후원조직

 

개인정보 보호법(GDPR 중심)

  • GDPR : 2018년에 시행된 유럽연합의 개인정보보호 법령
  • 유럽연합 내 모든 회원국에 일괄 적용 (권고가 아님)
  • 적용 대상 기업 :
    • 유럽연합 내의 회사가 아니어도 적용 가능
    • EU 사용자가 있는 웹서비스의 경우 모두 적용 대상이 됨

 

GDPR 세부사항

  • 동의 요건 강화(서비스 약관), 아동 정보에 대해 더 강한 보호(대리인 지정 유무)
  • 민감정보의 처리는 원칙금지(회원국에 따라 달라짐)
  • 정보주체의 권리 강화 (회사들은 30일 내에 응답해야함)
  • 큰 회사들은 셀프 서비스를 만들어 대응
권리 주요내용
삭제권 정보주체는 본인에 관한 개인정보 삭제를 요구할 권리를 가짐
프로파일링 거부권 정보주체는 본인에게 중대한 영향을 미치는 사안을 프로파일링 등 자동화된 처리에 의해서만 결정하는 것에 반대할 권리를 가짐
처리제한권(신설) 정보주체는 본인에 관한 개인정보의 처리를 차단하거나 제한을 요구할 권리를 가짐
정보이동권(신설) 정보주체는 본인의 개인정보를 본인 또는 다른 사업자에게 전송토록 요구할 권리를 가짐

 

 


느낀점

민감한 정보가 담긴 데이터를 가지고 일을 할 때는 정말 많은 것을 고려하고 항상 조심해야겠다는 생각을 했다. 이미 회사에서 이런 체계가 갖춰지면 좋겠지만 작은 규모의 회사들은 그렇지 않을 확률이 높으니 오늘 배운 것을 명심하면 미래에 도움이 되지 않을까..?

그리고 오늘을 마지막으로 첫 주가 끝났다! 아직까지 큰 어려움은 없는데 다음주부터 엑셀을 들어가니 주말에 미리 공부 좀 해놔야겠다.

+ Recent posts