텍스트 분석이란 무엇입니까?

텍스트 분석은 일련의 머신 러닝 , 통계 및 언어 기술을 결합하여 대량의 비정형 텍스트 또는 사전 정의된 형식이 없는 텍스트를 처리하여 통찰력과 패턴을 도출합니다. 이를 통해 기업, 정부, 연구원 및 미디어는 마음대로 사용할 수 있는 방대한 콘텐츠를 활용하여 중요한 결정을 내릴 수 있습니다. 텍스트 분석은 감성 분석, 주제 모델링, 명명된 엔터티 인식, 용어 빈도 및 이벤트 추출과 같은 다양한 기술을 사용합니다.

텍스트 분석 다이어그램

텍스트 마이닝과 텍스트 분석의 차이점은 무엇입니까?

텍스트 마이닝과 텍스트 분석은 종종 같은 의미로 사용됩니다. 텍스트 마이닝이라는 용어는 일반적으로 비정형 텍스트에서 정성적 통찰력을 도출하는 데 사용되는 반면 텍스트 분석은 정량적 결과를 제공합니다.

예를 들어, 텍스트 마이닝은 고객의 리뷰 및 설문 조사를 분석하여 제품에 대한 만족도를 식별하는 데 사용할 수 있습니다. 텍스트 분석은 비정형 텍스트에서 패턴이나 추세를 식별하는 것과 같은 더 깊은 통찰력에 사용됩니다. 예를 들어, 텍스트 분석은 고객 경험이나 제품 인기도의 부정적인 급증을 이해하는 데 사용할 수 있습니다.

그런 다음 텍스트 분석 결과를 데이터 시각화 기술 과 함께 사용하여 더 쉽게 이해하고 신속한 의사 결정을 내릴 수 있습니다.

오늘날의 세계에서 텍스트 분석의 타당성은 무엇입니까?

2020년 기준으로 약 45억 7천만 명의 사람들이 인터넷에 액세스합니다. 이는 세계 인구의 약 59%에 해당합니다. 그 중 약 49%의 사람들이 소셜 미디어에서 활동합니다. 블로그, 트윗, 리뷰, 포럼 토론 및 설문조사의 형태로 엄청난 양의 텍스트 데이터가 매일 생성됩니다. 게다가, 대부분의 고객 상호 작용은 이제 디지털화되어 또 다른 거대한 텍스트 데이터베이스를 생성합니다.

대부분의 텍스트 데이터는 구조화되지 않고 웹에 널려져 있습니다. 이 텍스트 데이터를 올바르게 수집, 정렬, 구조화 및 분석하면 귀중한 지식을 얻을 수 있습니다. 조직은 이러한 통찰력을 사용하여 수익성, 고객 만족도, 연구 및 국가 안보를 향상시키는 조치를 취할 수 있습니다.

텍스트 분석의 이점

텍스트 분석이 기업, 조직 및 이벤트 사회 운동에 도움을 줄 수 있는 다양한 방법이 있습니다.

  • 기업이 고객 동향, 제품 성능 및 서비스 품질을 이해하도록 돕습니다. 그 결과 신속한 의사 결정, 비즈니스 인텔리전스 향상, 생산성 향상 및 비용 절감이 가능합니다.
  • 연구자가 짧은 시간에 많은 양의 기존 문헌을 탐색하여 연구와 관련된 내용을 추출하도록 돕습니다. 이것은 더 빠른 과학적 성과에 도움이 됩니다.
  • 정부와 정치 기관이 의사 결정을 내릴 수 있도록 사회의 일반적인 추세와 의견을 이해하는 데 도움이 됩니다.
  • 텍스트 분석 기술은 검색 엔진과 정보 검색 시스템의 성능을 향상시켜 빠른 사용자 경험을 제공하는 데 도움이 됩니다.
  • 관련 콘텐츠를 분류하여 사용자 콘텐츠 추천 시스템을 개선합니다.
텍스트 분석 솔루션
TIBCO Data Science 사용해보기-무료 평가판
TIBCO Data Science를 사용하여 조직 전체에서 머신 러닝을 민주화하고 협업하며 운영합니다.

텍스트 분석 기술 및 사용 사례

비정형 텍스트 분석과 관련된 몇 가지 기술이 있습니다. 이러한 각 기술은 다양한 사용 사례 시나리오에 사용됩니다.

감정 분석

감정 분석은 비정형 텍스트가 전달하는 감정을 식별하는 데 사용됩니다. 입력 텍스트에는 제품 리뷰, 고객 상호 작용, 소셜 미디어 게시물, 포럼 토론 또는 블로그가 포함됩니다. 감성 분석에는 다양한 유형이 있습니다. 극성 분석은 텍스트가 긍정적인 감정을 표현하는지 부정적인 감정을 표현하는지 식별하는 데 사용됩니다. 분류 기술은 혼란, 실망 또는 화와 같은 감정에 대한 보다 세분화된 분석에 사용됩니다.

감성 분석의 사용 사례:

  • 제품 또는 서비스에 대한 고객 반응 측정
  • 브랜드에 대한 잠재고객 동향 이해
  • 소비자 공간의 새로운 트렌드 이해
  • 심각도에 따라 고객 서비스 문제의 우선 순위 지정
  • 시간이 지남에 따라 고객 감정이 어떻게 발전하는지 추적

주제 모델링

이 기술은 방대한 양의 텍스트 또는 문서 세트에서 주요 주제 또는 화제를 찾는 데 사용됩니다. 주제 모델링은 기사의 주제를 식별하기 위해 텍스트에 사용된 키워드를 식별합니다.

주제 모델링의 사용 사례:

  • 대규모 법률 회사는 주제 모델링을 사용하여 대규모 소송 기간에 수백 개의 문서를 검사합니다.
  • 온라인 미디어는 주제 모델링을 사용하여 웹에서 인기 있는 주제를 선택합니다.
  • 연구자들은 탐색적 문헌 검토를 위해 주제 모델링을 사용합니다.
  • 기업은 어떤 제품이 성공적인지 결정할 수 있습니다.
  • 토픽 모델링은 인류학자들이 웹에서 사람들이 공유하는 콘텐츠를 기반으로 사회의 새로운 이슈와 트렌드를 파악하는 데 도움이 됩니다.

명명된 엔터티 인식(NER)

NER는 비정형 텍스트에서 사람, 장소, 조직 및 이벤트와 같은 명명된 엔터티를 식별하는 데 사용되는 텍스트 분석 기술입니다. NER는 텍스트에서 명사를 추출하고 이러한 명사의 값을 결정합니다.

명명된 엔터티 인식의 사용 사례:

  • NER는 뉴스 콘텐츠에 등장하는 사람, 장소 및 조직을 기반으로 뉴스 콘텐츠를 분류하는 데 사용됩니다.
  • 검색 및 추천 엔진은 정보 검색을 위해 NER을 사용합니다.
  • 대규모 체인 회사의 경우 NER은 고객 서비스 요청을 분류하고 특정 도시 또는 매장에 할당하는 데 사용됩니다.
  • 병원은 NER를 사용하여 실험실 보고서 분석을 자동화할 수 있습니다.

용어 빈도 – 역 문서 빈도

TF-IDF는 용어가 대용량 텍스트 또는 문서 그룹에 나타나는 빈도와 문서에 대한 해당 용어의 중요성을 결정하는 데 사용됩니다. 이 기술은 역 문서 빈도 계수를 사용하여 자주 발생하지만 통찰력이 없는 단어, 기사, 명제 및 접속사를 필터링합니다.

이벤트 추출

이것은 명명된 엔터티 추출보다 발전된 텍스트 분석 기술입니다. 이벤트 추출은 텍스트 콘텐츠에서 언급된 이벤트(예: 합병, 인수, 정치적 움직임 또는 중요한 회의)를 인식합니다. 이벤트 추출에는 텍스트 콘텐츠의 의미에 대한 고급 이해가 필요합니다. 고급 알고리즘은 이벤트뿐만 아니라 해당되는 경우 장소, 참가자, 날짜 및 시간을 인식하려고 합니다. 이벤트 추출은 여러 분야에서 여러 용도로 사용되는 유익한 기술입니다.

이벤트 추출 사용 사례:

  • 링크 분석: 소셜 미디어를 통한 커뮤니케이션에서 이벤트 추출을 통해 "누가 누구를 언제 만났는지"를 파악하는 기술입니다. 이는 법 집행 기관에서 국가 안보에 대한 가능한 위협을 예측하는 데 사용됩니다.
  • 지리 공간 분석: 이벤트가 위치와 함께 추출되면 통찰력을 사용하여 지도에 표시할 수 있습니다. 이는 이벤트의 지리 공간 분석에 유용합니다.
  • 비즈니스 위험 모니터링: 대규모 조직은 여러 파트너 회사 및 공급업체와 거래합니다. 이벤트 추출 기술을 통해 기업은 웹을 모니터링하여 공급업체나 거래업체와 같은 파트너가 소송이나 파산과 같은 불리한 사건을 처리하고 있는지 확인할 수 있습니다.

텍스트 분석에 포함된 단계

텍스트 분석은 비정형 텍스트를 수집하고 정리하기 위한 몇 가지 사전 단계를 포함하는 정교한 기술입니다. 텍스트 분석을 수행할 수 있는 다양한 방법이 있습니다. 이것은 모델 워크플로의 예입니다.

  1. 데이터 수집 - 텍스트 데이터는 고객 채팅, 이메일, 제품 리뷰, 서비스 티켓 및 순수 고객 추천 지수 설문조사를 포함하여 조직의 내부 데이터베이스에 널려져 있는 경우가 많습니다. 사용자는 또한 블로그 게시물, 뉴스, 리뷰, 소셜 미디어 게시물 및 웹 포럼 토론의 형태로 외부 데이터를 생성합니다. 내부 데이터는 분석에 쉽게 사용할 수 있지만 외부 데이터는 수집해야 합니다.
  2. 데이터 준비 - 비정형 텍스트 데이터를 사용할 수 있게 되면 머신 러닝 알고리즘에서 이를 분석하기 전에 몇 가지 준비 단계를 거쳐야 합니다. 대부분의 텍스트 분석 소프트웨어에서 이 단계는 자동으로 발생합니다. 텍스트 준비에는 다음과 같이 자연어 처리를 사용하는 여러 기술이 포함됩니다.
    • 토큰화: 이 단계에서 텍스트 분석 알고리즘은 텍스트 데이터의 연속 문자열을 전체 단어 또는 구를 구성하는 토큰 또는 더 작은 단위로 나눕니다. 예를 들어, 문자 토큰은 FISH라는 단어의 개별 문자일 수 있거나 또는 Fish-ing과 같이 하위 단어 토큰으로 나눌 수 있습니다. 토큰은 모든 자연어 처리의 기초를 나타냅니다. 이 단계는 또한 공백을 포함하여 텍스트의 원하지 않는 모든 내용을 삭제합니다.
    • 품사 태깅: 이 단계에서 데이터의 각 토큰에는 명사, 동사, 형용사 및 부사와 같은 문법 범주가 할당됩니다.
    • 구문 분석: 구문 분석은 텍스트의 구문 구조를 이해하는 과정입니다. 종속성 구문 분석과 구성 요소 구문 분석은 구문 구조를 유도하는 데 사용되는 두 가지 인기 있는 기술입니다.
    • 표제어 추출 및 형태소 분석: 토큰과 관련된 접미사 및 접미사를 제거하고 사전 형식 또는 보조 정리를 유지하기 위해 데이터 준비에 사용되는 두 가지 프로세스입니다.
    • 불용어 제거: 빈번하게 발생하지만 텍스트 분석에서 가치가 없는 모든 토큰이 발생하는 단계입니다. 여기에는 'and', 'the' 및 'a'와 같은 단어가 포함됩니다.
  3. 텍스트 분석 - 비정형 텍스트 데이터를 준비한 후 이제 텍스트 분석 기술을 수행하여 통찰력을 얻을 수 있습니다. 텍스트 분석에 사용되는 몇 가지 기술이 있습니다. 그 중 눈에 띄는 것은 텍스트 분류 및 텍스트 추출입니다.

    텍스트 분류: 이 기술은 텍스트 분류 또는 태깅이라고도 합니다. 이 단계에서는 의미에 따라 특정 태그가 텍스트에 할당됩니다. 예를 들어, 고객 리뷰를 분석하는 동안 "긍정적" 또는 "부정적"과 같은 태그가 할당됩니다. 텍스트 분류는 종종 규칙 기반 시스템 또는 머신 러닝 기반 시스템을 사용하여 수행됩니다. 규칙 기반 시스템에서 인간은 언어 패턴과 태그 간의 연관성을 정의합니다. "양호"는 긍정적인 평가를 나타낼 수 있습니다. "나쁜"은 부정적인 리뷰를 식별할 수 있습니다.

    머신 러닝 시스템은 과거의 예시나 학습 데이터를 사용하여 새로운 데이터 세트에 태그를 할당합니다. 더 큰 데이터 세트는 머신 러닝 알고리즘이 정확한 태깅 결과를 제공하는 데 도움이 되기 때문에 학습 데이터와 그 양은 매우 중요합니다. 텍스트 분류에 사용되는 주요 알고리즘은 SVM(서포트 벡터 머신), NB(알고리즘의 나이브 베이즈 군) 및 딥 러닝 알고리즘입니다.

    텍스트 추출: 비정형 입력 텍스트에서 인식 가능하고 구조화된 정보를 추출하는 프로세스입니다. 이 정보에는 키워드, 사람 이름, 장소 및 이벤트가 포함됩니다. 텍스트 추출을 위한 간단한 방법 중 하나는 정규식입니다. 그러나 이는 입력 데이터의 복잡성이 증가할 때 유지 관리하는 복잡한 방법입니다. CRF(조건부 무작위장)는 텍스트 추출에 사용되는 통계적 방법입니다. CRF는 비정형 텍스트에서 중요한 정보를 추출하는 정교하지만 효과적인 방법입니다.

텍스트 분석 후에는 어떻게 됩니까?

텍스트 분석 방법이 비정형 데이터를 처리하는 데 사용되면 출력 정보를 데이터 시각화 시스템에 제공할 수 있습니다. 그런 다음 결과를 차트, 도표, 표, 인포그래픽 또는 대시보드 형태로 시각화할 수 있습니다. 이 시각적 데이터를 통해 기업은 데이터의 추세를 빠르게 파악하고 의사 결정을 내릴 수 있습니다.