随着科技大发展,越来越多的高新科技成果也被应用到文学作品的研究中来,大数据就是其中之一,据说早已经有人用大数据对世界名著红楼梦进行了研究。首先我们先了解一下大数据的基本知识,作为一个新兴的概念,大数据的核心是数据,数据是统计研究的对象,从大数据中寻找有价值信息的关键在于对数据进行正确的统计分析。因此科学界这样来定义“大数据”:大数据指那些超过传统数据系统处理能力、超越经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合。对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。
红学研究(红学研究有什么意义)
大数据具有以下基本特征使它在红楼梦的研究里有得天独厚的作用:
(1)大量性。
大数据需要的数据量巨大。红楼梦前八十回和一百二十回正好提供了百万字的数据资料,这些数据资料使大数据研究红楼梦成为可能。
(2)多样性。
作为大数据的研究对象,红楼梦里的大数据类型繁多,不仅百万级的文本汉字资料,还包括百种学问的结构化数据。
(3)价值性。
红楼梦的大数据价值巨大。由于红楼梦文本规模巨大,因此,如何通过强大的机器算法让与朝代,地域、年代、身份、语言、对话、时间有关的数据价值成为亟待解决的全新课题。
(4)高速性。
由于红楼梦文本大数据是有价值的,应用机器阅读和分析可以很快就可以提取正常人用肉眼多年才可以提取的信息,而且这些信息能迅速有效地被分类,加以总结,进而提取更加有价值的信息。
其实,数学家研究《红楼梦》早已不是新鲜事了。上世纪,首届国际红楼梦研讨会在美国召开,美国威斯康星大学讲师陈炳藻独树一帜,宣读了题为《从词汇上的统计论〈红楼梦〉作者的问题》的论文,首次借助计算机对《红楼梦》进行研究,轰动了国际红学界。陈炳藻从字词出现频率入手,通过计算机进行统计、处理和分析,对《红楼梦》后40回系高鹗所作提出异议,认为全书120回均为曹雪芹所作。国际著名数学家、菲尔茨奖得主、哈佛大学教授丘成桐最喜爱研读小说《红楼梦》。他笑称,曹雪芹未写完《红楼梦》是中外文学史上的千古憾事,而续写《红楼梦》的数学也能帮上大忙。著名数学家丘成桐解释说,《红楼梦》的创作过程犹如一个大型的数学创作或科学创作过程,怎样用错综复杂的人物关系构成小说的结构,借助数学手段可能更有效率。
有专业的红楼梦研究者通过短时间对诗词创作进行了深入研究,而且有了部分结果,比如第三十七回中,红楼姐妹成立海棠诗社,根据诗题做诗。细读红楼梦诗词,创作风格与作者性格特征紧密贴合:黛玉的诗作感时伤事,与她寄人篱下的身世相关;宝钗的诗大气沉稳,可以说是“任是无情也动人”。用大数据的分析统计可以知道,红楼梦后40回中诗词比例减少,尤其是诗的创作,更是寥寥无几。
大数据在研究常见的儿化音和拟声词方面效果显著。常见的有名词+儿化音(如小幺儿、颦儿);形容词+儿化音(如静静儿,轻轻儿);数词+儿化音(如些儿、点儿)。统计发现前80回中更多名词+儿化音;后80回更多动词、形容词、副词+儿化音。拟声词也起到类似作用,使得语言更具备生活化的特点。比如双音节拟声词(嗤嗤、叮当、当当);三音节拟声词(哼哼哼、呼喇喇、豁啷啷);四音节拟声词(咕咚咕咚、哗喇哗喇)。
大数据研究《红楼梦》的效果如何?大数据对于故事发生的地域、朝代、年代、作者和增删者有没有推断出来?我们现在不得而知。曹雪芹的家世渊源如何?脂砚斋的批语又是出自何人之手?这些问题已经被探讨多年,也被大数据研究过,但至今依然悬而未决。
《红楼梦》是相当独特的文学作品,开篇就说了满纸荒唐言,文字真真假假,假假真真,属于用表里有喻和显隐文本掩盖了真实的文学作品。不谈诗词曲赋隐写了贾府的巨大的丑闻,不提草蛇灰线的手法,不提逻辑严密的推理,不提作者可以隐藏起来的身份,仅仅就不确定性做一个简单说明,这里只提文字具有相当的不确定性,而正是文字的不确定性给大数据分析红楼梦带来巨大的困难。大数据的不确定性表现为数据本身的不确定性、模型的不确定性和学习的不确定性,从而给大数据建模和学习造成困难。
红楼梦数据的不确定性既包括原始数据的不准确,前八十回和后四十回不属于一个风格,不是一个人的作品,同时也包括数据处理过程中由各种因素所造成的在不同维度、不同尺度上的不确定性,比如显隐文本的结合点,比如那些当代人早已经不能正确解读的大荒经。虽然传统的统计学方法主要研究不确定性数据。
但红楼梦的数据的不确定性明显不同于大数据的不确定性,面对百种学问组成的网状结构,面对无数难解的谶语,面对隐晦的历史事件的描写,面对多维、多学科、多类型的不确定性数据,不但传统的统计方法显得力不从心,而且大数据的采集、存储、建模都需要根据文本揭示的创作手法重新创新分析方法。根据有限的大数据分析结果,目前和有限的未来,运用大数据来分析红楼梦还有很大的困难,已经分析出来的成果的正确性值得怀疑,红楼梦文本本身的不确定性必然带来数据处理与分析模型的不确定性,要解决这样的问题看来依然任重道远。
注:本文参考部分专业文献和资料。
发表评论