作为资本、劳动力和自然资源之外的第四种生产要素,大数据一般是指在数量、类型、速度和价值等方面超过传统社会科学应用规模的海量数据资料。在信息技术急速发展的今天,数据必将消解传统社会科学的理论和实证研究基础,重构人文社科的理论范式和研究方法,加速各学科之间的相互融合。接下来科多大数据带你从八个不同维度来看大数据是怎么重构社会科学的。
在社会科学发展史上,重大理论问题往往能引发长期的学术争论。但随着实证证据的丰富和社会热点的转移,争论往往会在新的证据出现之前告一段落。而大数据的出现,可能为经典的理论之辨提供新的实证来源,进而有望为社科理论界重新描绘新的学术图景。
虽然社会科学理论的流派和体系众多,但它们都可以溯源到少数具有典范性、启发性和诠释意义的概念、假说和理论,这些经典学说通常立足于高远的宏观层面去理解和描绘社会结构及其变迁的历史,具有更高的概括能力和更宽的辐射面。然而,宏大理论却难以解释经验的现实问题。由于理论的宏观性和复杂性,传统的截面数据、面板数据等抽样分析方法,无法在经验层面上对这些理论进行检验,且囿于传统的资料采集方式,研究者所能获得的经验材料,无论在时间还是空间维度上都是有限的。因此,一直以来,要想使用经典学说指导经验研究,只能在其中不断增加结构性因素以降低理论层次,这使得经典理论的影响力逐渐式微。
大数据在经典理论和经验研究间架起了一座桥梁,使得学界得以重新审视和延伸经典理论,并使验证和拓展宏大叙事成为可能。大数据的出现,可以为经典理论的验证进行补充,甚至带来更多的发现。可见,大数据时代,经典理论将有可能实现“落地发展”,并不断被历史的、结构性的情境所检验和延伸,呈现出更强的生命力。
挖掘因果机制是科学研究的基本任务,也是科学知识积累和学科建设的核心。传统社会科学尤其是定量分析致力于进行因果推断、提供机制性解释,但由于社会人的异质性,基于非实验数据的定量分析很难避免诸如遗漏变量、样本偏误、联立性等内生性问题,这在很大程度上影响了因果推断的有效性。目前,社会科学家试图通过固定效应模型、倾向性匹配、工具变量等方法来规避内生性问题以改进因果推断,但上述方法有赖于高质量的调查数据,而现实中高质量的调查数据通常难以获得。大数据时代的到来,为我们呈现了一幅描述和相关分析重新崛起、因果推断更加强化的双赢学科目标新图景,将会对社会科学学科目标起到阶段性的丰富和拓展。
专业化是现代社会的鲜明特征,专业化程度的提高大大加强了人们认识自然和社会的能力,个人在越来越专业化的同时,也失去了对整体文化的了解和控制。对社会科学而言,学术分工的专业化进程大大提高了研究效率和学术领域内的交流评估质量,但也逐渐形成了各自为政的不足:研究者在获得相当深度的同时,失去了对广度的把握,不同学科间的边界日益鲜明,且学科边界间还产生了许多空白地带。因此,学科融合必将在社会科学发展过程中周期性地出现。大数据的出现将会从以下两个向度推动学科融合:
第一,大数据将会向外推动社会科学与自然科学、尤其是计算机科学的融合。大数据之“大”使得数据的性质发生了显著变化,其数据的获取和分析,往往需要有别于传统社会科学训练的方法和工具,这就为原本在计算机、人工智能和数理等领域具有专长的学者参与社会现象的分析甚至转型为社会科学家提供了机会。
第二,大数据将会向内推动社会科学学科间的交流和对话。长期以来,社会科学内部各学科间区隔明显,显著地表现在每个学科使用的数据和分析方法都自成体系。尽管数据分析的方法和原理大同小异,但学科差异下的数据搜集和使用“各自为政”,难以达成有效交流。大数据的出现将有助于改善这一对话困境。因此可以预见,越来越多的跨学科研究和交叉学科研究将会不断涌现。
随着信息革命的深入,大数据开始被广泛地应用于经济、金融、选举、竞赛、就业、高考、疾病、灾害等诸领域进行趋势预测,其逻辑基础在于从大量征兆的累积中判断社会现象发生质变的临界点。较之传统经济学研究,大数据推断改变市场的成效可谓立竿见影。
在传播学方面,大数据分析技术的提升能够同步提高新闻生产的广泛潜入性和规模化处理信息的能力,并在调查性新闻、可视化叙事和应用三个层面驱动创新。大数据新闻的重要特点在于其个性化和精准性,既能基于读者所在地和阅读兴趣的差异来进行新闻的个性化推荐和定制,提升读者的阅读体验,又能基于社会表层现实和深层现实、受众理性认知和感性认知对受众行为和社会事件发展趋势做出精准的预测。这无疑为政府科学决策、提高公共管理和服务水平提供了强有力的保证。
定量研究和定性研究是两种不同取向的研究范式,长期以来,不同学术偏好的研究者们从本体论、认识论和方法论等各方面对两种范式的优点和局限进行了深刻剖析:一方面,作为一种科学化的中介手段,定量研究能够实现社会现象的对象化、客体化;另一方面,定性研究能够突破自然科学的限制,实现对行动主观意义的把握。
从某种意义而言,大数据的使用使得定性和定量两大阵营之间出现了一个混合地带。大数据海量的数据规模和全新的数据特征使得定量研究与定性研究在资料获得与分析方法方面逐步走向趋同,这在某种程度上缓解甚至重构了定量研究与定性研究间的关系。
对定性研究者而言,大数据可以通过海量规模的样本直接发现和展示出社会现象的规律,既不需要控制变量来检验关联,又能避免定性方法在案例选择方面的样本偏差。大数据可为定性研究提供全新又不过于复杂的研究思维,并让检索和数据描述等过去被定量研究者“垄断”的方法为我所用。
对定量研究者而言,在探索变量间的因果关系所遭遇的最大困境便在于反事实问题。囿于研究伦理的限制,研究者无法同时得到个体在受干预和不受干预两种情况下的状态,这就使得寻找用于解决反事实问题的控制变量变得愈发困难,从而会导致统计推断产生遗漏变量偏误。由于数据的海量性甚至全样本的性质,一旦把基于大数据的简单关联分析或时间序列分析结果与文献中的传统回归分析进行比对,就能形成非常具有说服力的证据链。
可以预见:以描述和简单回归分析为主要方法的大数据研究,将同时出现在定量和定性两大阵营之中,并进一步缩小定性定量分析方法的鸿沟。
在对宏大概念进行测量的过程中,是否能寻找到相应的、有说服力的测量指标通常是实践中的重点和难点。在研究实践中,应用大数据能够优化变量的测量。
除了传统的抽样数据可以用来对城市进行研究之外,大数据特别是书籍报刊大数据能够为城市及文化传播研究提供新的维度。特别是,通过从大数据中提取出传统社会科学分析方法所能够处理的关键性变量对大数据进行二次分析,得以充分发挥传统定量分析方法的价值,达到对城市知名度形成渠道及其变化趋势分析的目的。总体上,大数据有助于重新强化“描述”在定量分析中的地位,也催生了利用大数据提取小数据然后进行定量分析的主要途径。
除了数据采集、分析、挖掘和因果推断外,在研究实践中我们还必须有效地展示数据结果。一直以来,数据展示存在着千人一面、阅读者难以理解的痼疾,而以简洁、清晰的方式展示数据间的内在模式,使受众对数据及其所代表的现象间的结构关系达到更深的理解,是大数据时代社会科学界的又一重大变革。
大数据时代的数据展示主要以可视化的方式进行。数据可视化是借助图形、图像处理、计算机视觉以及用户界面等多种手段,通过表达、建模以及对立体、表面、属性和动画显示等多种形式,从多角度把海量信息、概念视觉化,直接展示信息背后规律的方式。它能帮助受众迅速了解研究者的观点和思路,快速得到某一问题的答案,从而解决诸如信息过饱和、信息可靠性不足以及信息透明度缺失等问题。
数据可视化其实是知识的一种再生产方式,研究者以图形、时间序列、地图、流、矩阵、网络、层次和信息图形为基本元素,通过元素间的多种组合来表达自己对海量信息和数据的理解,进而解释较为宏大和抽象的理论问题。可视化并不局限于数字,概念也同样适用。
可以预见:大数据时代,数据可视化必将彻底取代传统的数据展示形式,充分展现数据的温度与美感。
大数据研究尚属起步阶段,但其对社会科学的冲击与改变已经不容小觑。重要的是,大数据为我国社会科学发展提供了加速超越西方和形成中国特色、中国气派的重要机遇。这是因为,大数据无论对于西方社会科学界还是对于中国社科界,都是一个全新的事物。只有迅速占据大数据的高地,才能在中西学术对话中占据主动。
发表评论