近20年来,数字技术的飞速发展正在重塑人类的生产生活,以信息为中心所产生的数据出现指数级增长,信息过载使得依靠传统技术处理这些数据变得越发困难,需要新的技术解围。主题模型(topic modeling)可以从海量的文本数据中提取隐含主题,挖掘其中的问题、观点、情感和趋势等信息。目前,主题模型的应用范围在不断拓展,除广泛应用于商业和诸多自然科学领域外,也逐渐在教育学、社会学、文学、法学、历史学、哲学等人文社会科学研究领域发挥更大作用。
工作原理
主题模型是一种文本挖掘技术,旨在从给定文本集合中找出隐藏的主题,并为每个文档分配主题。主题模型的基本原理是,假设每个文档都是由多个主题组成,并且每个主题都是由单词组成。通过对单词频率和概率进行统计分析,主题模型能够推断隐藏的主题并对文档进行分类。该技术可以对不同层次的文本(如单个句子、段落、文章、网页、著作等)进行主题建模。在单个句子级别上,主题模型可以被用来识别一个句子中的主题,并帮助理解该句子的含义。在网页或社交媒体数据级别上,主题模型可以用于挖掘用户对某个话题的观点和倾向,了解用户对不同话题的兴趣和偏好。对于由多个章节构成的著作而言,主题模型既可以分析整书内容的主题结构和比例,也可以将每个章节作为一个文本,整合分析发现各章节主题的个数以及每个主题在不同章节的比例,由此发现整书主题分布结构和变化趋势。
主题模型通常涉及以下四个步骤。首先是文本预处理,将文档转换为仅包含有意义的单词的标记化表征,并根据需要进行去除停用词、词干提取等预处理步骤。其次是构建单词—文档矩阵,将文档表征为一个单词—文档矩阵,其中每一行代表一个文档,每一列表示一个单词,矩阵元素表示单词在文档中出现的次数。再次是建立模型,使用主题模型算法构建出每个主题的单词分布和每个文档的主题分布。最后是推断主题,对于新文档而言,可以使用已经训练好的模型来推断其主题分布。
主要方法
主题模型的方法多种多样。一般而言,基于数学方法,主题模型可分为概率主题模型和非概率主题模型。概率主题模型主要包括:概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)、结构主题模型(STM)和层次潜在狄利克雷分配(hLDA)等。非概率主题模型则主要包括:潜在语义分析(LSA)和非负矩阵分解(NNMF)等。在具体应用中,需要根据研究目的选择合适的主题模型。这里主要讨论三种经典的主题模型方法:PLSA、LDA和STM。
由霍夫曼(Thomas Hoffman)开发的PLSA,是一种基于词袋的文本挖掘降维技术,也是第一个揭示语料库文档术语矩阵中语义共现的统计模型。该技术将潜在语义分析从线性代数的框架发展为概率统计的框架。PLSA为文本分析奠定了基础,但也存在一些问题。该模型包含了大量参数,而且这些参数还会随文档数量的增加呈线性增长,并且无法为未经训练的文档分配概率,如果应用于大型语料库则容易导致过度拟合。
为解决上述问题,布莱(David M. Blei)等学者在PLSA模型的基础上,提出了一种更加泛化的语言统计模型,即LDA。此种方式允许文档在内容上相互“重叠”,而不是被划分为离散的组,从而能够反映自然语言的典型使用方式。具体而言,在此模型中,多个主题的单词可以按比例组成一个文档。由于LDA具有多个生成模型,所以也很容易适应特定的应用程序需求。因此,与PLSA完全基于数据的参数估计相比,LDA可以通过参数先验分布的引入弥补有限数据统计存在的缺陷,从而提高模型的泛化性能。
STM是对LDA模型的进一步拓展,允许将协变量(如作者、时间、评论类型、评论位置、说话者的立场等)融入文档—主题比例和主题—词项矩阵的先验分布中。这样,STM可以生成主题结构和分布比例,并呈现这些主题以不同频率出现的上下文,同时还可以呈现主题随着时间变化的趋势图,以及绘制主题间的词汇差异图等。因此,无论是在理论最优性还是应用实践中,STM都可以根据研究者的需要实现计算的最优化。
应用领域
自产生以来,主题模型已广泛应用于经济、商业、学术研究等领域。比如,在经济领域,主题模型常被应用于金融市场趋势预测等方面,从而有效发现市场风险和机会。在商业领域,主题模型可以分析商品评论和社交媒体文本,帮助企业了解消费者需求和态度,优化产品设计和品牌营销策略,实现商务智能化。在学术研究中,主题模型能够对海量文献进行分析,帮助研究者发现文献中的热点话题等,从而为后续研究提供指导。下面重点介绍主题模型在传播学、语言学、历史学以及哲学等人文社会科学研究中的应用。
目前,计算传播学是传播学领域的一种发展前沿。主题模型基于应用各类媒介话语的截面和纵贯进行研究。此外,研究者还可以使用主题模型来分析社交媒体数据中的主题和趋势,以识别公众对某个事件或话题的观点和态度等。总之,主题模型在传播学领域的应用,可以帮助我们更好地理解媒体环境和公众意见,从而为优化传播效果提供依据。
主题模型在语言学领域的应用,主要可以分为三个方面:语音识别、文本分类和语言知识提取。首先,语音识别是将语音信号转换为文本信息的过程。使用主题模型对大量语音数据进行分析,可以提取出与语音信号相对应的语义主题,从而提高识别的准确率。其次,在文本分类方面,主题模型可以按照话题、说话者、文体等因素快速有效地对海量文本进行自动分类。最后,语言知识提取领域也广泛应用主题模型。语言知识提取可以理解为,从大量文本中自动抽取出语言知识(如词汇、语法结构、句子类型等),其结果是可以增加语言学研究的深度。
在历史学、哲学研究领域,主题模型可以被用于研究文化史上特定时期、特定地域或特定社会群体中所涉及的主题、话题和语义特征,进而探讨不同文化、文明和价值体系之间的差异、相似性以及互动关系。比如,对中国文物中的注释进行主题建模,可以发现中国传统文化中的哲学、道德与人生观等方面的价值观。艾伦(Colin Allen)团队首先将主题模型引入科史哲的研究工作,借助 LDA 对达尔文所阅读的文献进行主题建模,窥探其如何通过阅读文献积聚了深厚而广阔的思维空间。
由于处理的文本数量在理论上不受限制,且能够解决传统的文本细读无法回答的宏大叙事问题,主题模型在推动人文社会学科数据驱动的研究转型方面作用显著。目前,在数据分析领域,一些复杂算法、对现存数据和软件包进行空间分析、基于关系研究的文本语义网络分析等,都正在与主题模型深度融合。
未来挑战
主题模型是一个相对活跃的研究领域,在实际应用中其优势也越发明显。随着社会文化领域基于“大数据”的研究越发普遍,相关研究工具也变得越发重要。在此过程中,主题模型迎来了发展机遇,同时也面临一些挑战。
第一,主题模型的稳定性问题为很多学者所关注。主题模型的稳定性问题可以表述为:当某一主题模型算法应用于具有相同参数的数据集时,在多次运行后,输出结果并不一定保持一致。当模型保留相同的输入或更新文档时,传统的主题模型结果往往是不稳定的。那么,如何生成一个既稳定又准确的主题模型?面对这一问题,不少研究者只是通过随机初始化的方式,使主题模型的结果具有一定确定性。而在无监督学习中,减少不稳定性的常见策略是使用集成聚类技术,这是一种结合大型和多样的聚类集实现更稳定、准确效果的解决方案。然而,此类研究也缺乏对主题模型不稳定性问题的多维关注。
第二,主题模型面临的另一个挑战是可解释性问题。在一个主题下的词汇有时很难找到一个上位概念来定义该主题,更何况对上位概念的总结也因人而异,难免带有主观性。针对此问题,评估主题模型的质量是实现产品可解释性的一个步骤。最广泛使用的度量方式是采用似然值(likelihood)。但似然值度量不适合在概率模型中提供良好的解释性。主题质量的自动测量是质量检查和可解释性的良好选择。此外,为了更好地解释与主题模型相关的问题,需要为特定应用程序找到合适的主题模型,并探索多个模型之间的关系。
第三,主题模型有助于多种类型的文本分析,但应用于以叙事为主的文学文本等可能并非明智之举。主题模型采用的“词袋”方法,会忽略文本的语法、语境等重要内容,从而导致“关系似乎胜过语法”的现象。而对于这种特定类型的文本,一些其他分析方法似乎更加奏效。比如,莫瑞蒂(Franco Moretti)对莎士比亚戏剧的网络分析和赫尔曼(David Herman)的叙事逻辑模型。这些方法更加注重建立文本中对象和情节之间的关系,从而揭示文本更深层次的内涵。因此,在实际应用中,研究者需要综合考虑文本的类型、目标和需求,选择合适的方法进行分析和研究。
随着互联网的迅速发展和数据的不断增长,主题模型也将迎来更广阔的应用前景。一方面,作为重要的文本分析方法,主题模型可以和新的统计方法、数字数据或空间数据相融合,以便更好应对文本语义的丰富性,为深化人文社会科学研究提供更全面、精准的信息支持。另一方面,将主题模型和语义网络分析相结合,可以使两者相互补充,有助于理解不同主题和概念之间的相关性,从而为进一步拓宽主题模型的应用领域、增强其解释力,提供更大的发展空间。
(本文系国家社科基金重点项目“基于文本挖掘的中国政治话语国际传播研究”(18AYY006)阶段性成果)
(作者系西安外国语大学研究生院博士研究生、副教授;西安外国语大学研究生院院长、教授)
发表评论