주제

1. 텍스트 마이닝이란?
2. 텍스트 마이닝 절차
3. 텍스트 마이닝 적용 사례

 

1. 텍스트 마이닝이란?

1.1 텍스트 데이터

  • 텍스트 데이터 : 문자, 단어, 문장으로 구성된 데이터
  • 출처 : 다양한 곳에서 발생, 웹사이트, SNS, 책, 학술 정보, 이메일 등
  • 대규모 데이터로 존재함
  • 특징 :
    • 텍스트 데이터를 구성하는 요소를 단어라고 가정한다면, 단어는 주변의 단어들과 연관성이 존재함
    • 연관성을 이해하는 방향으로 처리
    • 비구조적(비정형) 데이터
    • 다양성 : 같은 의미라도 여러 표현이 있을 수 있음
    • 다의성 : 같은 표현이 다른 의미로 사용될 수 있음
    • 문맥 정보를 포함함
    • 언어별로 고유한 특징을 가짐

 

1.2 텍스트 마이닝

  • 텍스트로 구성된 데이터를 바탕으로 대용량의 텍스트 안에 존재하는 관계, 패턴, 규칙을 탐색
  • 탐색된 지식과 인사이트를 추출해 의사결정에 활용하는 과정을 의미한다
  • 사용되는 패키지 :
    • 파이썬, R
    • 텍스트 데이터 수집, 처리, 분석, 시각화 등의 작업을 지원함
    • Pandas, Gensim, nltk 등

 

1.3 자연어 처리(Natural Language Processing, NLP)

  • 컴퓨터가 인간의 언어를 이해하고 해석하는 데 사용되는 분야
  • 글을 활용한 문제를 해결하고 향상된 사용자 경험을 제공하고자 함(ChatGPT)
  • 텍스트 마이닝 vs. 자연어 처리
    • 텍스트 마이닝 : 언어 속 내포된 정보를 파악
    • 자연어 처리 : 언어의 이해

 

2. 텍스트 마이닝 절차

  • 텍스트 수집 및 추출 → 텍스트 전처리 → 텍스트 마이닝 기법 적용 → 텍스트 마이닝 결과 분석

 

2.1 텍스트 수집 및 추출

  • 수집 방법 :
    • 웹 크롤링 : 웹에 존재하는 텍스트 데이터를 수집(Selenium, Beautiful Soup, Scrapy 등). 단, 크롤링이 가능한 사이트를 위주로 사용해야 함
    • API 사용 : 대형 SNS 플랫폼, 뉴스 사이트, 온라인 포럼 등은 데이터 제공을 위한 API를 제공함. 단, 비용을 지불해야할 수 있음
    • 공개 데이터 : 연구 기관, 정부 기관, 기업 등에서 제공하는 공개 데이터를 활용
  • 수집한 데이터는 원시적이기 때문에 사용할 수 없는 형태의 데이터도 존재함
    • 데이터의 질을 관리하기 위해 목표 관련성이 높은 글, 다양성이 확보되는 글을 주기적으로 모니터링해야함

 

2.2 텍스트 전처리

  • 수집된 데이터는 비구조화 데이터이기 때문에 전처리를 통해 데이터를 정제하고 분석이 가능한 형태로 변환해야 함
  • 전처리 방법 : 
    • 노이즈 값 제거 :
      • 이모티콘이나 오타, 비속어 등의 노이즈를 제거 혹은 수정
    • 분석에 최소 단위로 글을 분류 :
      • 단어 기반 문제 풀이, 문장 기반 문제 풀이 등에 따라 사용하는 정도의 단위가 다름
      • 이러한 정보의 단위로 글을 분리해야 함(Tokenization)
      • 컴퓨터가 이해할 수 있는 형태로 변환(Embedding)
    • 글 길이 조절 :
      • 글이 너무 길거나 짧은 글이 존재
      • 통일된 형태로 변경(길다면 자르고, 짧다면 복제 혹은 다른 글과 통합 혹은 더미값 추가)

 

2.3 텍스트 마이닝 기법 적용

  • 데이터로부터 유의미한 정보를 추출하고 인사이트를 도출하는 과정
  • 내용 파악 및 분석 :
    • 자연어 이해 : 글에 존재하는 의미와 의도 파악
    • 요약 : 글의 내용을 요약 정리
    • 개체명 인식 : 글에서 인물, 장소, 기관 등의 특정 정보를 식별 & 분류
  • 숨겨진 의미 파악 :
    • 토픽 모델링 : 글에 담겨있는 숨겨진 주제를 발견
    • 트렌드 분석 : 시간에 따른 데이터 변화를 분석, 패턴과 변화를 식별
    • 감정 분석 : 글에 존재하는 저자의 감정 상태를 파악
  • 관계 파악 및 구조화 :
    • 군집화 : 비슷한 의미의 글을 그룹화해서 문서 간의 관계를 파악
    • 글 분류 : 글을 특정 범주로 분류

 

2.4 결과 분석

  • 분석된 결과를 통해 정보 이해, 통찰 도출, 의사 결정 과정에서 사용함
  • 정보 이해 :
    • 텍스트의 전반적인 내용을 파악
    • 타겟 그룹에서 생성된 글의 패턴과 흐름을 빠르게 확인
  • 통찰 도출 :
    • 데이터 안에 숨어있는 연결 정보를 추출
    • 숨은 정보를 추출하는 기술적인 모델이 필요
  • 의사 결정 :
    • 통찰을 바탕으로 비즈니스 전략, 제품 개발, 마케팅 등의 의사 결정 과정에서 활용

 

3. 텍스트 마이닝 적용 사례

3.1 자주 묻는 질문(FAQ)

  • 자주 묻는 질문과 그에 대한 답변을 모아놓은 목록
  • CS, 고객 피드백, 리뷰 등에서 수집된 질문 - 답변의 패턴을 식별하여 분석하고 생성함
  • 지속적인 업데이트로 서비스를 개선
  • 이를 바탕으로 제품의 개선 포인트를 찾아낼 수 있음
  • 사용자는 빠른 문제 해결과 편리한 정보 접근이 가능
  • 서비스 제공자는 고객 지원 비용 절감 및 고객 만족도 향상 효과를 얻을 수 있음

 

3.2 책에 밑줄 긋기

  • 교과서, 독서하는 책에서 중요한 정보에 밑줄을 칠함
  • 과거 정보들을 바탕으로 중요한 내용이 무엇인지 판단
  • 목적에 맞는 밑줄 긋기가 필요 :
    • 시험에 나오거나
    • 흥미로운 내용이거나
    • 책에서 인사이트를 주는 포인트
  • 독자는 중요한 정보를 빠르게 시각화할 수 있고, 기억력 강화를 통해 정보 정리를 효과적으로 진행할 수 있음

 

3.3 심리 분석

  • 환자로부터 나온 글 내용 속 단어, 문구를 바탕으로 심리 상태, 감정 변화, 중요한 사건이나 생각 패턴을 파악
  • 디지털화된 데이터(일기, 전화 내용, 상담 내용 등) 내에 존재하는 환자의 감정 상태를 파악함
  • 그래프와 차트 형태의 시각화 과정으로 빠른 파악이 가능

 

3.4 신문 스크래핑

  • 신문 내용을 보고 관심 내용을 스크래핑
  • 관심 있는 주제와 관련된 내용을 인식하는 과정이 필요함
  • 구독자는 최신 데이터를 추적할 수 있고, 시간에 따른 의미 관계 파악, 투자, 사업성 등 다양한 관점의 의사결정을 내릴 수 있음

 

3.5 검색 트렌드

  • 검색어 단어의 발현 횟수를 기반으로 트렌드를 확인
  • 사람들의 관심사, 이슈 등을 파악할 수 있음
  • 특정 단어에 대한 사람들의 관심사를 파악
  • 제품 판매 및 예측을 미리 예측해볼 수 있음
  • 비즈니스의 의사결정에 활용

 

 


느낀점

3차 프로젝트가 끝나고 텍스트 마이닝에 대한 강의를 시작했다. 머신러닝에 대해서 정말 잘 가르쳐주셨던 강사님이셔서 이번에도 기대가 된다. 자연어 처리라는 개념을 굉장히 많이 봤었는데 이번 기회에 제대로 공부를 해야겠다. 

+ Recent posts