프로그래머스 데이터분석 데브코스 1기 - 61일차

리피야 2024. 2. 19. 16:50

2024. 2. 19. 16:50

주제

1. 텍스트 마이닝이란?
2. 텍스트 마이닝 절차
3. 텍스트 마이닝 적용 사례

1. 텍스트 마이닝이란?

1.1 텍스트 데이터

텍스트 데이터 : 문자, 단어, 문장으로 구성된 데이터
출처 : 다양한 곳에서 발생, 웹사이트, SNS, 책, 학술 정보, 이메일 등
대규모 데이터로 존재함
특징 :
- 텍스트 데이터를 구성하는 요소를 단어라고 가정한다면, 단어는 주변의 단어들과 연관성이 존재함
- 연관성을 이해하는 방향으로 처리
- 비구조적(비정형) 데이터
- 다양성 : 같은 의미라도 여러 표현이 있을 수 있음
- 다의성 : 같은 표현이 다른 의미로 사용될 수 있음
- 문맥 정보를 포함함
- 언어별로 고유한 특징을 가짐

1.2 텍스트 마이닝

텍스트로 구성된 데이터를 바탕으로 대용량의 텍스트 안에 존재하는 관계, 패턴, 규칙을 탐색
탐색된 지식과 인사이트를 추출해 의사결정에 활용하는 과정을 의미한다
사용되는 패키지 :
- 파이썬, R
- 텍스트 데이터 수집, 처리, 분석, 시각화 등의 작업을 지원함
- Pandas, Gensim, nltk 등

1.3 자연어 처리(Natural Language Processing, NLP)

컴퓨터가 인간의 언어를 이해하고 해석하는 데 사용되는 분야
글을 활용한 문제를 해결하고 향상된 사용자 경험을 제공하고자 함(ChatGPT)
텍스트 마이닝 vs. 자연어 처리
- 텍스트 마이닝 : 언어 속 내포된 정보를 파악
- 자연어 처리 : 언어의 이해

2. 텍스트 마이닝 절차

텍스트 수집 및 추출 → 텍스트 전처리 → 텍스트 마이닝 기법 적용 → 텍스트 마이닝 결과 분석

2.1 텍스트 수집 및 추출

수집 방법 :
- 웹 크롤링 : 웹에 존재하는 텍스트 데이터를 수집(Selenium, Beautiful Soup, Scrapy 등). 단, 크롤링이 가능한 사이트를 위주로 사용해야 함
- API 사용 : 대형 SNS 플랫폼, 뉴스 사이트, 온라인 포럼 등은 데이터 제공을 위한 API를 제공함. 단, 비용을 지불해야할 수 있음
- 공개 데이터 : 연구 기관, 정부 기관, 기업 등에서 제공하는 공개 데이터를 활용
수집한 데이터는 원시적이기 때문에 사용할 수 없는 형태의 데이터도 존재함
- 데이터의 질을 관리하기 위해 목표 관련성이 높은 글, 다양성이 확보되는 글을 주기적으로 모니터링해야함

2.2 텍스트 전처리

수집된 데이터는 비구조화 데이터이기 때문에 전처리를 통해 데이터를 정제하고 분석이 가능한 형태로 변환해야 함
전처리 방법 :
- 노이즈 값 제거 :
  - 이모티콘이나 오타, 비속어 등의 노이즈를 제거 혹은 수정
- 분석에 최소 단위로 글을 분류 :
  - 단어 기반 문제 풀이, 문장 기반 문제 풀이 등에 따라 사용하는 정도의 단위가 다름
  - 이러한 정보의 단위로 글을 분리해야 함(Tokenization)
  - 컴퓨터가 이해할 수 있는 형태로 변환(Embedding)
- 글 길이 조절 :
  - 글이 너무 길거나 짧은 글이 존재
  - 통일된 형태로 변경(길다면 자르고, 짧다면 복제 혹은 다른 글과 통합 혹은 더미값 추가)

2.3 텍스트 마이닝 기법 적용

데이터로부터 유의미한 정보를 추출하고 인사이트를 도출하는 과정
내용 파악 및 분석 :
- 자연어 이해 : 글에 존재하는 의미와 의도 파악
- 요약 : 글의 내용을 요약 정리
- 개체명 인식 : 글에서 인물, 장소, 기관 등의 특정 정보를 식별 & 분류
숨겨진 의미 파악 :
- 토픽 모델링 : 글에 담겨있는 숨겨진 주제를 발견
- 트렌드 분석 : 시간에 따른 데이터 변화를 분석, 패턴과 변화를 식별
- 감정 분석 : 글에 존재하는 저자의 감정 상태를 파악
관계 파악 및 구조화 :
- 군집화 : 비슷한 의미의 글을 그룹화해서 문서 간의 관계를 파악
- 글 분류 : 글을 특정 범주로 분류

2.4 결과 분석

분석된 결과를 통해 정보 이해, 통찰 도출, 의사 결정 과정에서 사용함
정보 이해 :
- 텍스트의 전반적인 내용을 파악
- 타겟 그룹에서 생성된 글의 패턴과 흐름을 빠르게 확인
통찰 도출 :
- 데이터 안에 숨어있는 연결 정보를 추출
- 숨은 정보를 추출하는 기술적인 모델이 필요
의사 결정 :
- 통찰을 바탕으로 비즈니스 전략, 제품 개발, 마케팅 등의 의사 결정 과정에서 활용

3. 텍스트 마이닝 적용 사례

3.1 자주 묻는 질문(FAQ)

자주 묻는 질문과 그에 대한 답변을 모아놓은 목록
CS, 고객 피드백, 리뷰 등에서 수집된 질문 - 답변의 패턴을 식별하여 분석하고 생성함
지속적인 업데이트로 서비스를 개선
이를 바탕으로 제품의 개선 포인트를 찾아낼 수 있음
사용자는 빠른 문제 해결과 편리한 정보 접근이 가능
서비스 제공자는 고객 지원 비용 절감 및 고객 만족도 향상 효과를 얻을 수 있음

3.2 책에 밑줄 긋기

교과서, 독서하는 책에서 중요한 정보에 밑줄을 칠함
과거 정보들을 바탕으로 중요한 내용이 무엇인지 판단
목적에 맞는 밑줄 긋기가 필요 :
- 시험에 나오거나
- 흥미로운 내용이거나
- 책에서 인사이트를 주는 포인트
독자는 중요한 정보를 빠르게 시각화할 수 있고, 기억력 강화를 통해 정보 정리를 효과적으로 진행할 수 있음

3.3 심리 분석

환자로부터 나온 글 내용 속 단어, 문구를 바탕으로 심리 상태, 감정 변화, 중요한 사건이나 생각 패턴을 파악
디지털화된 데이터(일기, 전화 내용, 상담 내용 등) 내에 존재하는 환자의 감정 상태를 파악함
그래프와 차트 형태의 시각화 과정으로 빠른 파악이 가능

3.4 신문 스크래핑

신문 내용을 보고 관심 내용을 스크래핑
관심 있는 주제와 관련된 내용을 인식하는 과정이 필요함
구독자는 최신 데이터를 추적할 수 있고, 시간에 따른 의미 관계 파악, 투자, 사업성 등 다양한 관점의 의사결정을 내릴 수 있음

3.5 검색 트렌드

검색어 단어의 발현 횟수를 기반으로 트렌드를 확인
사람들의 관심사, 이슈 등을 파악할 수 있음
특정 단어에 대한 사람들의 관심사를 파악
제품 판매 및 예측을 미리 예측해볼 수 있음
비즈니스의 의사결정에 활용

느낀점

3차 프로젝트가 끝나고 텍스트 마이닝에 대한 강의를 시작했다. 머신러닝에 대해서 정말 잘 가르쳐주셨던 강사님이셔서 이번에도 기대가 된다. 자연어 처리라는 개념을 굉장히 많이 봤었는데 이번 기회에 제대로 공부를 해야겠다.

'Data Science > TIL (Today I Learned)' 카테고리의 다른 글

프로그래머스 데이터분석 데브코스 1기 - 63일차 (0)	2024.02.21
프로그래머스 데이터분석 데브코스 1기 - 62일차 (0)	2024.02.20
프로그래머스 데이터분석 데브코스 1기 - 60일차 (2)	2024.02.16
프로그래머스 데이터분석 데브코스 1기 - 59일차 (1)	2024.02.15
프로그래머스 데이터분석 데브코스 1기 - 58일차 (1)	2024.02.14

무한한 우주 속

프로그래머스 데이터분석 데브코스 1기 - 61일차

주제

1. 텍스트 마이닝이란?
2. 텍스트 마이닝 절차
3. 텍스트 마이닝 적용 사례

1. 텍스트 마이닝이란?

2. 텍스트 마이닝 절차

3. 텍스트 마이닝 적용 사례

'Data Science > TIL (Today I Learned)' 카테고리의 다른 글

+ Recent posts

티스토리툴바

무한한 우주 속

프로그래머스 데이터분석 데브코스 1기 - 61일차

주제1. 텍스트 마이닝이란?2. 텍스트 마이닝 절차3. 텍스트 마이닝 적용 사례

1. 텍스트 마이닝이란?

2. 텍스트 마이닝 절차

3. 텍스트 마이닝 적용 사례

'Data Science > TIL (Today I Learned)' 카테고리의 다른 글

+ Recent posts

티스토리툴바

주제

1. 텍스트 마이닝이란?
2. 텍스트 마이닝 절차
3. 텍스트 마이닝 적용 사례