什么是文本分析?

文本分析结合了一组机器学习、统计学和语言技术来处理大量非结构化文本或没有预定义格式的文本,从而获得洞见和模式。它有助于企业、政府、研究人员和媒体利用所掌握的海量内容作出关键决策。文本分析使用了情绪分析、主题建模、命名实体识别、术语频率和事件提取等多种技术。

文本分析图

文本挖掘和文本分析有什么区别?

文本挖掘和文本分析通常可以互换使用。文本挖掘一词通常用于从非结构化文本中获取定性洞见,而文本分析则提供定量结果。

例如,文本挖掘可用于通过分析客户的评论和调查来确定客户是否对产品感到满意。文本分析用于更深入的洞见,比如从非结构化文本中识别模式或趋势。例如,文本分析可用于理解客户体验或产品受欢迎程度的负面峰值。

这样,就可将文本分析的结果与数据可视化技术结合使用,以便更易理解和迅速做出决策。

文本分析在当前环境下有何意义?

截至 2020 年,约 45.7 亿人可以访问互联网。这大约占世界人口的 59%。其中,约 49% 的人经常使用社交媒体。每天都会以博客、推文、评论、论坛讨论和调查等形式生成大量文本数据。此外,大多数客户互动现在都是数字化的,这就创建了又一个庞大的文本库。

大多数文本数据都是非结构化的,并分散在网络上。如果正确收集、整理、组织和分析这些文本数据,就可以从中获得宝贵的知识。组织可以利用这些洞见来采取操作,提高盈利能力、提高客户满意度、加强研究甚至提升国家安全。

文本分析的好处

文本分析可以通过多种方式对企业、组织和事件社会活动起到帮助作用:

  • 帮助企业了解客户趋势、产品性能和服务质量。这有助于快速做出决策、增强商业智能、提高生产力并节省成本。
  • 帮助研究人员在短时间内探查大量预先存在的文献,提取与其研究相关的内容。这有助于加快科学突破。
  • 帮助了解社会的总体趋势和观点,使政府和政治机构能够进行决策。
  • 文本分析技术有助于搜索引擎和信息检索系统提高性能,从而提供快速的用户体验。
  • 通过分类相关内容来优化用户内容推荐系统。
文本分析方案
试用 TIBCO Data Science - 免费试用
借助 TIBCO Data Science,在整个组织内实现机器学习的民主化、协作和运营。

文本分析技术和使用案例

有几种与分析非结构化文本有关的技术。这些技术中的每一种都用于不同的使用案例场景。

情绪分析

情绪分析用于识别非结构化文本所传达的情绪。输入文本包括产品评论、客户互动、社交媒体帖子、论坛讨论或博客。情绪分析有不同类型。极性分析用于确定文本是表示正面还是负面情绪。分类技术用于对困惑、失望或愤怒等情绪进行更精细的分析。

情绪分析的使用案例:

  • 衡量买家对产品或服务的响应
  • 了解品牌的受众趋势
  • 了解消费者领域的新趋势
  • 根据严重程度优先对客户服务问题进行优先级排序
  • 跟踪客户情绪是如何随着时间变化

主题建模

这种技术用于在大量文本或一组文档中查找主要主题。主题建模标识文本中用于识别文章主题的关键字。

主题建模的使用案例:

  • 在大型诉讼期间,大型律师事务所使用主题建模来检查数百份文档。
  • 在线媒体使用主题建模来获取整个网络的热门话题。
  • 研究人员使用主题建模进行探索性文献审查。
  • 企业可以确定他们的哪些产品是成功的。
  • 主题建模有助于人类学家根据人们在网络上共享的内容来确定社会中出现的问题和趋势。

命名实体识别 (NER)

NER 是一种文本分析技术,用于识别非结构化文本中的人、地点、组织和事件等命名实体。NER 从文本中提取名词并确定这些名词的值。

命名实体识别的使用案例:

  • NER 用于根据新闻内容中的人物、地点和组织对其进行分类。
  • 搜索和推荐引擎使用 NER 进行信息检索。
  • 对于大型连锁公司,NER 用于对客户服务请求进行排序并将其分配到特定城市或网点。
  • 医院可以使用 NER 自动分析实验室报告。

期限频率 — 反向文档频率

TF-IDF 用于确定一个术语出现在大型文本或一组文档中的频率,并因此确定该术语对文档的重要性。这种技术使用反向文档频率因子过滤掉频繁出现但不具有洞见的单词、文章、命题和连词。

事件提取

这是一种文本分析技术,是在命名实体提取基础上相取得的进步。事件提取可识别文本内容中提到的事件,例如合并、收购、政治行动或重要会议。事件提取需要对文本内容的语义有高级理解。高级算法不仅力求识别活动,还有场地、参与者、日期和时间(如果适用)。事件提取是一种有益的技术,在各个领域都有多种用途。

事件提取的用例:

  • 链接分析:这是一种通过社交媒体通信提取事件来了解 “谁遇见谁和何时遇见” 的技术。执法机构利用这种方法预测可能对国家安全带来的威胁。
  • 地理空间分析:当事件与其位置一起提取时,可以使用洞见将其叠加到地图上。这有助于对事件进行地理空间分析。
  • 业务风险监控:大型组织与多家伙伴公司和供应商打交道。事件提取技术允许企业监控网络,了解其合作伙伴(如供应商或卖主)是否正在处理诉讼或破产等不利事件。

文本分析涉及的步骤

文本分析是一种复杂的技术,包含几个收集和清理非结构化文本的预先步骤。有不同的方式可以执行文本分析。这是模型工作流程的一个示例。

  1. 数据收集 — 文本数据通常分散在组织的内部数据库中,包括客户聊天、电子邮件、产品评论、服务票证和净推荐值调查。用户还以博客文章、新闻、评论、社交媒体帖子和网络论坛讨论的形式生成外部数据。虽然内部数据随时可用于分析,但仍需要收集外部数据。
  2. 准备数据 — 一旦非结构化文本数据可用,在机器学习算法才能对其进行分析之前需要经过几个准备步骤。在大多数文本分析软件中,此步骤会自动执行。文本准备包括以下几种使用自然语言处理的技术:
    • 标记化:在此步骤中,文本分析算法将连续的文本数据字符串分解为组成整个单词或短语的标记或较小的单位。例如,字符标记可以是这个词中的每个单独字母:F-I-S-H。或者,您可以用子词标记分解:Fish-ing。标记代表所有自然语言处理的基础。此步骤还会丢弃文本中所有不需要的内容,包括空格。
    • 部分语音标记:在此步骤中,数据中的每个标记都被分配一个语法类别,如名词、动词、形容词和副词。
    • 解析:解析是理解文本语法结构的过程。依赖关系分析和选区分析是两种用于派生语法结构的常用技术。
    • 词汇化和词干:这是用于数据准备的两个过程,用于删除与标记关联的后缀和词缀,并保留其字典形式或词元。
    • 停用词删除:这是去除文本分析中频繁出现却没有价值的标记的阶段。这包括 “and”、“the” 和 “a” 等词。
  3. 文本分析 — 在准备非结构化文本数据之后,就可以执行文本分析技术来获取洞见。有几种技术用于文本分析。其中最突出的是文本分类和文本提取。

    文本分类:这种技术也称为文本分类或标记。在此步骤中,将根据文本含义为文本分配某些标签。例如,在分析买家评论时,会分配 “正面” 或 “负面” 之类的标签。文本分类通常使用基于规则的系统或基于机器学习的系统来完成。在基于规则的系统中,人类定义语言模式和标签之间的关联。“好” 可能表示积极评论;“坏” 可能表示负面评论。

    机器学习系统使用过去的示例或训练数据为新数据集分配标签。训练数据及其数量至关重要,因为更大的数据集有助于机器学习算法提供准确的标记结果。文本分类中使用的主要算法是支持向量机 (SVM)、Naive Bayes 算法系列 (NB) 和深度学习算法。

    文本提取:这是从非结构化输入文本中提取可识别和结构化信息的过程。这些信息包括关键词、人物姓名、地点和活动。文本提取的简单方法之一是正则表达式。但是,当输入数据的复杂性增加时,这种方法维护起来就有些复杂。条件随机字段 (CRF) 是一种用于文本提取的统计方法。通用报告格式是一种从非结构化文本中提取重要信息的复杂但有效的方法。

文本分析之后会发生什么?

一旦使用文本分析方法处理非结构化数据,输出信息就可以输入到数据可视化系统中。然后,可以按图表、绘图、表格、信息图表或仪表板的形式对结果进行可视化。这些可视化数据使企业能够快速发现数据趋势并做出决策。

Text Analytics Software
Try TIBCO Data Science - Free Trial
Democratize, collaborate, and operationalize machine learning across your organization with TIBCO Data Science.