文字分析是什麼?

文字分析結合了機器學習、統計和語言等一系列技術,來處理大量的非結構化文字或未使用預定格式的文字,以從中獲得見解和型樣。它讓企業、政府、研究人員和媒體能夠利用提供給他們的大量內容來制定關鍵決策。文字分析用到的技術有很多,包括情感分析、主題模型、專有名詞辨識、用語頻率和事件擷取等。

文字分析圖

文字探勘與文字分析有何不同?

文字探勘和文字分析一般可以交互使用,文字探勘通常用於從非結構化文字中獲得質性(qualitative)見解,而文字分析則提供量化(quantitative)結果。

例如,文字探勘可以透過分析客戶的評論和調查,來確定客戶是否滿意某產品。文字分析則用於加深見解,從非結構化文字中識別出固定模式或趨勢,更可用於了解負面客戶體驗或產品受歡迎程度。

之後即可將文字分析的結果,搭配數據視覺化技術一起使用,以便增進理解和迅速決策。

文字分析與現今世界有何關係?

截至 2020 年,約有 45.7 億人可以使用網際網路。大約佔世界人口的 59%。其中約有 49% 的人活躍於社交媒體,每天都會以部落格、推文、評論、論壇討論和問卷調查等形式,產生極大量的文字數據。此外,現在大多數客戶互動都已數位化,因此產生另一個巨大的文字數據庫。

大多數文字數據都是非結構化的,分散於網路各處。如果正確收集、整理、組織和分析這些文字數據,就可以從中獲得重要的知識。機構可以利用這些見解來採取行動,從而提升盈利能力、客戶滿意度、研究成果、甚至國家安全。

文字分析的好處

文字分析可以在許多方面幫助企業、機構和社會活動:

  • 幫助企業了解客戶趨勢、產品性能和服務品質,如此便能快速決策、增強商業智慧、提高生產力和節省成本。
  • 幫助研究人員在短時間內查看大量現有文獻,擷取與他們研究相關的內容,這有助於加快科學突破。
  • 協助了解社會上的整體趨勢和主流意見,幫助政府和政治團體制定決策。
  • 文字分析技術能幫助提高搜尋引擎和資訊檢索系統的性能,從而提供迅速的使用者體驗。
  • 將相關內容分類,藉此改進使用者內容推薦系統。
文字分析解決方案
嘗試 TIBCO Data Science - 免費試用
使用 TIBCO Data Science 在整個機構中實現機器學習的民主化、協作和操作。

文字分析技術和使用案例

非結構化文字分析技術有好幾種,每種技術都適用於不同的使用案例情境。

情緒分析

情緒分析用於識別非結構化文字所傳達的情感,輸入的文字包括產品評論、客戶互動、社交媒體貼文、論壇討論或部落格。情緒分析有幾種類型,例如,極性分析用於識別文字是表達正面情緒或負面情緒,分類技術則用於更細緻的情緒分析,像是困惑、失望或憤怒。

情緒分析的使用案例:

  • 衡量客戶對產品或服務的反應
  • 了解受眾對品牌的趨勢
  • 了解消費者空間的新趨勢
  • 根據嚴重程度來排列客戶服務問題的優先順序
  • 追蹤客戶情緒如何隨著時間演變

主題模擬

此技術用於在大量文字或一系列文件中,找出主要調性或主題。主題模型會識別文章中的關鍵字,再據此確定文章的主旨。

主題模型的使用案例:

  • 大型律師事務所在大型訴訟期間,使用主題模型來查閱數百份文件。
  • 線上媒體使用主題模型來挑選網路上的熱門話題。
  • 研究人員使用主題模型來進行探索性的文獻回顧。
  • 企業可以判斷哪些產品獲得成功。
  • 主題模型可幫助人類學家根據人們在網路上分享的內容,來判斷社會上的新興議題和趨勢。

專有名詞辨識 (NER)

NER 是一種文字分析技術,用於識別非結構化文字中的專有名詞,例如人物、地點、機構和事件。NER 會從文字中提取出名詞,然後判斷這些名詞的價值。

專有名詞辨識的使用案例:

  • NER 可以根據新聞中的人物、地點和機構,對新聞內容進行分類。
  • 搜尋和推薦引擎使用 NER 來進行資料檢索。
  • 對於大型連鎖企業,NER 用於對客戶服務請求進行分類排序,並將請求指派給特定的城市或銷售點。
  • 醫院可以使用 NER 自動分析檢驗報告。

用語頻率 - 逆向檔案頻率(TF-IDF )

TF-IDF 用於在長篇文章或一系列文件中,判斷某個術語的出現頻率,以及該術語對該文件的重要性。此技術使用逆向檔案頻率因子來過濾排除頻繁出現但不具見解價值的單詞、文章、命題和連接詞。

事件擷取

這種文字分析技術是更進階的專有名詞擷取技術。事件擷取可以識別文字內容中提到的事件,例如合併、收購、政治動向或重要會議。事件擷取需要深入理解文字內容的語義,進階演算算法不僅要努力識別事件,還要努力識別適用的地點、人物、日期和時間。事件擷取是相當實用的技術,在各個領域都有多種用途。

事件擷取的使用案例:

  • 連結分析:此技術可從社交媒體的通訊內容中,透過事件擷取來了解「誰遇到誰和何時遇到」,例如執法機關便是使用連結分析來預測可能對國家安全造成威脅的情況。
  • 地理空間分析:將事件及其位置擷取出來後,可以運用見解將它們疊放在地圖上,幫忙針對事件進行地理空間分析。
  • 業務風險監控:大型機構需要與多家合作夥伴公司和供應商往來,企業可利用事件擷取技術來監控網路,以了解任何合作夥伴(如供應商或廠商)是否正在處理訴訟或破產之類的不良事件。

文字分析的步驟

文字分析是很複雜的技術,當中涉及幾個收集和清理非結構化文字的預先處理步驟。文字分析的執行方式有很多種,模擬工作流程就是其中一個例子。

  1. 數據收集:文字數據通常分散在機構的內部數據庫中,包括客戶聊天、電子郵件、產品評論、服務問題單和淨推薦值 (Net Promoter Score) 調查。不過使用者還可能以部落格貼文、新聞、評論、社交媒體貼文和網路論壇討論等形式,產生外部數據,所以雖然內部數據可隨時進行分析,但仍需要收集外部數據。
  2. 數據準備:取得非結構化文字數據之後,需要經過幾個準備步驟,才能提供給機器學習演算法進行分析。在大多數文字分析軟體中,都會自動執行這個步驟。文字準備包括以下幾種自然語言處理技術:
    • 符記化:在這個步驟中,文字分析演算法會將文字數據中的連續字串拆成幾個符記,或是用以組成完整單詞或片語的較小單元。例如,字元符記可以是單詞中的每個單獨字母:F-I-S-H,也可以拆成字根符記:Fish-ing。符記是所有自然語言處理的基礎,這個步驟還會刪除文字中所有無用的內容,包括空格。
    • 詞性標註:在這個步驟中,每個數據內的符記都被指派一個文法種類,像是名詞、動詞、形容詞和副詞。
    • 剖析:剖析是理解文字語法結構的過程,相依性剖析和結構剖析是其中兩種常用的句法結構分析技術。
    • 詞形還原和詞幹提取:這是數據準備的兩個過程,用於刪除符記的後綴和詞綴,以保留其字典形式或原形。
    • 無用字移除:這個階段會在文字分析過程中,移除所有頻繁出現但不具價值的符記,包括「and」、「the」和「a」等字。
  3. 文字分析:準備好非結構化文字數據之後,現在可以執行文字分析技術來獲得見解了。文字分析技術有好幾種,其中最重要的是文字分類和文字擷取。

    文字分類:這種技術也稱為文字類別或標籤。在這個步驟中,會根據文字的含義,將某些標籤指派給文字。例如分析客戶評論時,會指派「正面」或「負面」等標籤。文字分類通常是在基於規則的系統或基於機器學習的系統中完成,而在基於規則的系統中,需要由真人定義好語言模式和標籤之間的關聯,例如「好」表示正面評價,「壞」表示負面評價。

    機器學習系統利用過去的範例或訓練數據,將標籤指派給新的數據集。訓練數據及其數量是非常重要的,因為較大的數據集能幫助機器學習演算法提供準確的標籤結果。文字分類所採用的主要演算法有支援向量機 (SVM)、貝氏演算法 (NB) 和深度學習演算法。

    文字擷取:這是從非結構化輸入文字中,擷取出可識別和結構化的資訊的過程,這類資訊包括關鍵字、人名、地點和事件。文字擷取常用的一種簡單方法是使用一般表示式,但當輸入數據越來越複雜時,這種方法會變得太複雜而難以維護。條件隨機場 (CRF) 是一種用於文字擷取的統計方法,雖然複雜,但可以有效從非結構化文字中擷取重要資訊。

文字分析之後的下一步?

使用文字分析方法處理過非結構化數據之後,就可以將輸出資訊饋送至數據視覺化系統,進而透過圖表、圖示、表格、資料圖表或儀表板等形式,以視覺化方式呈現結果。這種視覺化數據可讓企業快速發現數據中的趨勢,並做出相應決策。

Text Analytics Software
Try TIBCO Data Science - Free Trial
Democratize, collaborate, and operationalize machine learning across your organization with TIBCO Data Science.