摘要:随着历史大数据时代的到来,如何高效处理大规模史料并从中获得规律性认识,是当代历史学面临的新挑战。量化方法经过数十年的发展,已经在应对大规模数据库、发现因果关系方面走在了前面。将量化分析方法和历史大数据结合起来,是新史学的重要内容,也是一种必然趋势。
当代新史学的发展,引发了“史料之革命”,扩展了史料的范围,形成了多元的史料体系,进而也引发了历史资料的“大爆炸”。这一发展的最新表现是历史数据库的大量出现。量化历史在如何利用大规模数据库方面,已经形成了较为完善的分析方法。本文希望在量化历史研究步骤及其对历史研究的价值这两方面提出一些初步的想法。
量化历史的含义及与新史学的关系
量化历史研究是交叉学科,是用社会科学理论和量化分析方法来研究历史,其目的是发现历史规律,即人类行为和人类社会的规律。量化历史研究称这些规律为因果关系;量化历史研究的过程,就是发现因果关系的过程。
理解量化历史研究的含义,一般需要结合三个角度,即社会科学理论、量化分析方法、历史学。
第一个角度是量化历史研究广泛借鉴社会科学的理论。理论对于历史研究的价值在于为分析、理解历史提供一个基准和框架。这一框架能够帮助研究者从纷繁复杂的史料中快速梳理出研究的起点、参照系或靶子,成为理解历史的重要工具。
第二个角度是量化分析方法。这包括统计学、计量经济学、人工智能等领域的方法。量化方法是不断发展的,新的方法不断出现,能够处理的数据量越来越多、效率越来越高,发现的结论也会越来越可靠。目前在社会科学研究中,实证研究正在从统计推断向因果推断转变,这种转变被称为“可信性革命”。这场革命的核心是基于随机试验的思想来获得因果关系,即规律性认识。
第三个角度是量化历史研究与历史学的关系。两者的关系体现在量化方法不是要取代传统历史研究方法,而是对后者的一种补充。量化史学同样注重对历史文献的考证、确认,这一点没有区别。
量化历史是新史学的重要组成部分,尽管新史学有不同的含义,但一般都强调尽可能结合人文社会科学的知识和方法来研究历史。随着人文社会科学研究方法的量化程度大大提高,量化分析已经在社会科学研究中唱主角,在人文学科中的影响也越来越大。
量化历史的研究步骤
典型的量化历史研究大致分为五个步骤:提出问题和假说;寻找史料和数据;对数据进行量化分析,寻找因果关系;对发现的因果关系进行解释和寻找作用机制;论文写作。在此,我们以围绕《新教伦理与资本主义精神》展开的量化研究为例,讨论量化历史研究的主要步骤。
在《新教伦理与资本主义精神》一书中,韦伯指出,新教伦理越强的地方,经济可能越繁荣,这被认为是关于文化与经济发展最重要的论断。为表述方便,我们暂时称之为“韦伯假说”。韦伯假说隐含了新教伦理可能影响经济发展的途径:一是新教徒工作更为努力;二是新教徒储蓄更多,进而投资更多,从而提高了长期的生产率。上述两种途径使得新教伦理推动了资本主义发展。
但这只是解释资本主义经济发展的观点之一。对于这一观点,是否应该接受?如何来检验?如果基于史料,正如韦伯所发现的,新教徒数量越多的地方,经济发展更好,就能断定新教伦理推动了资本主义发展吗?对上述问题的回答,构成了一项典型的量化历史研究。
这一研究由两位经济学家贝克尔(Becker)和沃斯曼(Woessmann)完成。他们利用19世纪普鲁士452个县(郡)级政区的调查数据,发现新教徒占比越高的地区,经济发展确实越好,这与韦伯的发现一致。但是,当他们将各地平均识字率的差别和新教徒占比的差别放到一起时,发现后者的影响消失了。他们认为,新教之所以推动了经济增长,主要是由于马丁•路德呼吁所有人自己去阅读《圣经》并直接跟上帝对话,从而(意料之外地)提高了读写能力,促进了人力资本的提升。因此,是人力资本,而不是新教的思想伦理,推动了经济的增长。
下面结合贝克尔和沃斯曼的研究和其他的量化历史研究,对量化历史研究的步骤进行详细说明。
(一)提出问题与假说
量化历史研究的第一步是提出问题和假说。在韦伯假说中,研究的问题是新教伦理是否导致了资本主义的增长。相对于研究问题,假说则更进一步,认为新教伦理导致了资本主义增长。假说是对人类行为和社会规律的一个猜测(猜想)。这个猜测是对其关心的变量关系的一个明确表述。比如儒家文化阻碍了创新,儒家文化减少了社会冲突,等等。由于是假说,其可能会被数据所证伪。
上面的假说,基本上都涉及两个变量,比如韦伯假说中,涉及新教伦理和资本主义经济发展。在量化历史研究中,把希望解释的对象叫作被解释变量,把用来解释的对象叫作解释变量。韦伯假说中的被解释变量是资本主义经济发展,解释变量是新教伦理。影响资本主义发展的因素很多,这些因素和新教伦理共同影响了资本主义发展,为了发现新教伦理这个单一因素的作用,需要把其他影响因素的效果也揭示出来,排除出去。这些其他的影响因素,一般称之为控制变量。
假说被提出之后,研究的路线图也就形成了。一个假说需要证明解释变量如何影响被解释变量,因此首先需要对被解释变量和解释变量进行度量,然后通过量化方法寻求两者之间的关系,以及对这种关系进行解释。
即使在定性研究中,也存在大量的假说,只是由于研究者没有特意强调,不容易被人察觉。传统的历史研究,避免带着问题阅读史料,那么量化历史研究先提出问题和假说,再去收集整理史料的好处是什么?
首先提出问题和假说的好处,一是可以方便跟已有文献对话,确定新的贡献在哪里。史料可能证实也可能证伪提出的问题或假说,如果是证伪,已有的观点会被推翻,则更容易形成重要的发现。定性研究的特点在于,常常会有很多的假说放在一起讨论,这有利于揭示更多历史细节,但不利于将复杂的历史条分缕析,将其中的规律揭示出来。二是便于与不同学科交流,回答不同学科的重要问题。比如对韦伯假说的研究,虽然讨论的是普鲁士的情况,但其基本问题是文化如何影响经济发展,研究者可以在这一问题之下,讨论基督教在中国的发展、儒家文化等对中国经济的影响。这不仅有利于在这些重大问题中提供中国经验、中国故事,也有利于知识的积累。三是可以基于要验证的假说,从被解释变量、解释变量和控制变量的角度,高效率地组织史料。最后需要指出的是,量化历史在研究开始就提出问题和假说,但这不是预设结论,而是猜测,这个猜测可能被史料证实,也可能被证伪。
(二)理解史料与数据
提出问题和假说之后,我们需要寻找史料来建立数据库,即找到被解释变量、解释变量、控制变量等度量指标和数据。
在拿到相关的史料和数据之后,量化方法并非像很多批评所说的那样,对数据和史料拿来就用,而是先从不同的维度对它们的质量进行检验。下面主要从量化历史的角度讨论如何理解史料,重点是理解史料的代表性问题。
在历史研究中,拿到的史料往往只是所关心的研究对象的一部分,只能够基于拿到的史料去开展研究。尽管随着历史大数据时代的到来,有时候可以拿到关于研究对象的全部史料,但这样的情况还比较少见。基于研究对象的部分信息对研究对象的特征进行分析,是统计学研究的核心之一。这里就涉及总体、样本和随机抽样的概念。
在统计分析时,把研究对象的全体称为总体,每一个研究对象称为个体,把从总体中抽取的一部分个体称为样本。什么对象是总体,取决于研究问题。如果希望知道清代中国的命案率,如果是以省为分析单位,那么每个省在每一年的命案率就是一个总体。如果只分析其中的一个或几个省,就是样本。如果只分析乾隆朝的命案,也是一个样本。前者是基于空间、后者是基于时间的抽样。
对于历史研究而言,基于空间和时间的抽样是非常常见的。一个典型的历史研究常常会限定地域和时期。做这样的限定,是为了避免将不同时期、不同地区的史料混用。这一方法有其特有的优势,也是目前历史研究中常用的方法,但从实证研究、发现规律的角度看,这可能会带来选择性偏差,研究结果不一定带有普遍性。
选择性偏差是指由于选择的样本不是随机抽取的,所以不能基于这些样本的特征推断总体的特征。随机抽取是指保证总体中每个样本被抽中的概率都是一样的。例如,不能够基于江南的经济发展水平去推断整个中国的经济发展水平。这样的选择性偏差非常明显,也很容易被察觉,但历史研究中,还有大量不容易察觉到的选择性偏差问题。例如,传统经济史研究中的“选精”“集粹”问题,其实质就是一个基于样本推断总体的问题。
具体而言,如果我们希望知道北宋整个朝代的年均亩产量,那么北宋所有土地上每一年的亩产量就是一个总体。由于不知道这个总体的规模有多大,不妨做一个假定。假设北宋耕地有7亿亩,平均每块耕地面积为70亩,那么耕地数量就有1?000万块;再假设是一年一熟制,北宋总共存续了167年,那么理论上,北宋亩产量的观察值应该有16.7亿个;因此要精确地知道宋代的亩产量这个总体几乎不可能。如果研究者拿到了16?700个北宋亩产量的历史记载,那么这1万多个亩产量占全体亩产量的比例约为十万分之一。然而,这十万分之一的样本能否推断总体呢?
由于研究者拿到的史料通常是样本,但希望了解的是总体,如何由样本推断总体就成为挑战。这种挑战在定性和定量研究中都存在,尽管定性研究中不用这套术语,但不代表这个挑战不存在。定量研究的好处在于,可以明确展示这种挑战,同时利用已有的量化方法克服这种挑战。
基于总体和样本的理解,可以知道,历史大数据或增加数据量,并不必然会解决“选精”与“集粹”的问题。应对选择性偏差,基于非随机抽样的样本来推断总体的特征,是量化分析方法特别是计量经济学分析方法的核心关注之一。
(三)相关分析和因果分析
在提出问题和收集数据之后,第三步是量化分析。量化分析方法主要有三类。第一是对数据进行描述统计,主要包括数据的来源、处理过程,观察值也即样本量的多少,每个变量的统计特征,比如平均值、方差等。描述统计主要针对单个变量进行分析。这一方法比较简单,在历史学研究中较常见,不赘述。第二是相关性分析,主要分析方法包括画散点图、画地图、计算相关系数等。这一方法主要用于分析两个变量之间的关系。第三是因果关系分析,通常使用多元回归分析的方法,重点是处理内生性问题和发现作用机制。
提出假说实际上是提出一个相关关系。相关关系分为三种,分别指正相关、负相关和不相关。正相关是指两个变量朝相同的方向变动,比如新教徒数量越多的地区,经济发展水平越高。负相关是指两个变量往相反的方向变动,比如儒家文化越发达的地方,发生暴力冲突的次数会更少。不相关是指两个变量的变动没有关联。韦伯在《新教伦理与资本主义精神》中开篇就提到他所发现的相关性。这种相关性构成了这一专著的起点和基石。
韦伯显然没有满足于只是发现新教徒数量与经济发展之间的相关性,而是继续追寻背后的因果关系。因果关系的基本含义是改变一个变量的值,就可以使另一个变量的值改变。相关关系不等于因果关系,相关关系中可能隐含有因果关系,也可能没有,一般需要进一步证明。
学界早已注意到,在定性研究中,本身就隐含了众多的因果推断。由于通常情况下,历史学家没有明确意识到其中包含的某种函数关系,更难想到在可能的条件下用量化方法检验。这使得这些论断,即使经过一定史实检验,陈述的时候也显得缺乏说服力,经不住计量检验。
导致相关关系不等于因果关系的问题,一般也称为内生性问题。造成内生性问题的主要原因,一种是遗漏变量,一种是反向因果。遗漏变量是指有一个变量在研究过程中没有被考虑到,一旦这个变量被考虑进来,就能够解释为什么之前观察的两个变量之间存在相关关系。比如在韦伯假说中,一旦考虑到人力资本这个变量,就会看到新教徒数量与经济发展水平之间没有了相关关系。这时候的人力资本,就是一个遗漏变量。反向因果是指因果关系的影响方向与预判的方向是相反的,或者存在互为因果的情况。比如,在韦伯假说中,就可能存在经济发展潜力越大的地区,越可能选择新教。这时候就不能得出结论说是新教徒越多的地方,经济越发展。
既然因果关系是研究的目的,因果推断在定性研究中也很常见,那么,如何来进行因果推断呢?
在自然科学中,可以通过重复试验来解决这一挑战。通过将影响实验结果的其他因素都控制住,考察一个因素变动带来的影响。在医学中,一般要通过大样本双盲对照试验发现因果关系,其背后的原理就是实验方法。以医学中对药物有效性的验证为例,在什么情况下,才能够说一种药物对于某种疾病有效?在新型冠状病毒疫情治疗案例中,一种药物对某位美国患者有明显的疗效,是否就可以下判断说这种药物是有效的呢?这里面至少存在两个问题需要解决,首先是这个患者不仅仅只服用了这种药物,可能也服用了其他的药物,或者是使用了其他的治疗方式,到底是哪一种药物或治疗方式起作用,需要区分开,但是我们只能观察到多个因素共同起作用的结果。其次是某些疾病即使是不吃药,有些人也能自愈,因而就有可能遗漏掉患者会自愈这个影响因素。为了证明某种药物的作用,通常需要做大规模随机对照试验。
历史不能够做试验,但研究者发现,在某些情况下,历史可以很好地充当实验室。在量化历史中,一般称之为(准)自然试验,即依靠历史事件模拟随机对照试验,将历史对象分为对照组和处理组。贝克尔和沃斯曼对于韦伯假说的检验就是利用准自然试验的方法,这也是目前量化历史研究中最为常用的方法。基于历史自然实验的思路,实证研究方法有工具变量法、差分方法、断点回归方法等。
上述发现因果关系方法的实现,都需要通过回归分析。回归分析是一种统计方法,通过建立统计模型,用一个或多个解释变量来解释被解释变量。在量化历史研究中,多元回归分析是最为常用的方法。
还是以韦伯假说为例,我们能够观察到的是不同地区的经济发展水平,但影响经济发展的因素很多。基于经济增长理论,直接原因有技术、物质资本、人力资本等,而根本原因则有制度、地理、文化等。这么多因素共同作用,影响了一个地区的经济发展。如何将新教伦理与其他因素分离出来呢?如果观察到一个县(郡),新教徒的数量很多,但经济发展较慢,能否就说新教伦理对于经济增长起到了反向的作用,即新教徒数量越多,经济发展越差,或者没有影响。这里可能遗漏了另外的影响因素。具体来说,假如新教伦理平均可以让经济增长快1%,但另外一个因素可以让经济增长慢2%,最后,虽然看到一个地区新教徒数量很多,但是经济增长还可能是负的。出现这样的问题,正是因为遗漏了重要的其他影响因素。多元回归分析正是将重要的影响因素都尽可能考虑到,并将不同因素的影响剥离开的方法。
(四)作用机制分析
通过上面步骤建立因果关系后,还需要知道为什么这种因果关系会发生,即作用机制是什么。在对“韦伯假说”的论证中,贝克尔和沃斯曼发现新教徒数量越多的地方,经济增长越快,起作用的机制是新教徒的识字率更高,而不是新教伦理。
机制研究是量化分析的核心组成部分,其价值在于揭示发现的因果关系是如何起作用的,其原理在哪里,也是对因果关系的进一步支撑。对于作用机制的分析,一般需要从三个方面进行。第一,起作用的机制变量,比如人力资本,必须与解释变量高度相关,即新教伦理越高的地方,人力资本应该越高。第二,需要说明机制变量与被解释变量高度相关,即人力资本越多的地方,经济发展状况更好。第三,需要说明,当同时考虑作用机制变量和解释变量之后,解释变量的解释力变小或消失,即系数在统计上显著性下降或不显著;而机制变量有很强的解释力,即系数在统计上显著。也就是说,当不同的解释出现的时候,最好的办法是使用“赛马模式”,将可能的解释变量都放到同一个多元回归模型中进行分析。
量化历史作为新史学的价值
量化历史是新史学的重要组成部分,量化方法对历史学的价值主要体现在三个方面。
一是应对历史大数据的挑战,帮助分析复杂的历史。随着大规模史料的出版、公开、数据库化,历史大数据时代已经到来。
历史大数据包含两层含义。第一是史料接近全样本,也就是可以掌握研究对象的总体。比如关于清代官员的信息,由于有缙绅录和地方志,清代中后期绝大多数官员的信息都能够得到还原。根据前述样本与总体关系,随着历史学家掌握总体,统计推断带来的挑战会下降,但因果推断的挑战依然存在,需要应用最新的量化方法来应对。第二是数据量巨大。比如,仅清代刑科题本档案就有近65万件。历史大数据出现之后,使用定性方法显然难以将这么多的数据作一个整体分析,从中得出经验性的认识,但量化分析方法却可以较好地应对这种挑战。因为数据量的加大很大程度上只是对计算机计算能力提出了更高的要求,而量化分析的基本原理没有发生大的变化。
二是识别历史的长期影响,形成贯通性认识。历史的长期影响,是人们关心历史的重要原因。今天很多重要的社会结构性特征,都与历史有关。比如,儒家文化对今天中国人的影响。那如何识别出历史的影响呢?实际上,在量化历史研究中,有很多这方面的研究,一般被称之为“遗产(legacy)”研究。
一个例子是科举制度的长期影响。陈婷等结合历史上的科举数据、今天的统计数据和大量微观调查数据,发现科举制度即使废除了,那些历史上出进士较多的地区,今天平均的受教育年限更长,对教育的重视程度更高。之所以产生这样的影响,主要是由于对教育观念的重视。
量化方法对历史长期影响的分析,也有助于形成贯通性的认识。尽管强调时间性和打通断代是历史学研究的重要诉求,但中国悠久的历史留存下来的史料汗牛充栋,要从中对某些历史特征进行长时段的描述,具有挑战性。这种困难,通过简单的量化分析,就可以得到缓解。基于时间序列数据和面板数据,可以快速地对历史时期非常重要的历史事件进行长时段的描述、与世界其他地区已有的研究进行对比。更重要的是,这有助于改善知识创造和积累的方式,以后的学者可以在此基础上作进一步的推进,而不需要从头开始阅读史料。
三是推动历史学与社会科学的交流与对话。史学被认为是一切社会科学的基础,应该成为社会科学理论创新的源泉,但从实际情况看,史学还没有起到应有的作用。
量化历史直接从问题和假说出发开始研究,这些问题和假说也受到不同社会科学的关注。如果假说得到证实,由于历史提供的实验室,使得理论被接受的可能性和可靠性得到增强,基于中国历史的例子也可以很好地融入社会科学理论之中。如果假说和理论被证伪,则会更好地推动理论的修改,形成重要的理论创新,这正是社会科学真实的发展过程。比如,诺贝尔经济学奖得主米尔顿•弗里德曼等人通过对1867-1960年美国货币史的量化历史研究,推导出了著名的货币层次理论及货币供应理论,是对经济学理论的重要贡献。当然,历史的作用不仅仅是社会科学理论的实验室,对于理论的证实和证伪还可以从不同的角度增进对历史的认识。
结语
随着历史大数据时代的到来,如何高效处理大规模史料并从中获得规律性认识,是当代历史学面临的新挑战。量化方法经过数十年的发展,已经在应对大规模数据库、发现因果关系方面走在了前面。将量化分析方法和历史大数据结合起来,是新史学的重要内容,也是一种必然趋势。
强调量化历史研究的优势,并非意味着这些优势很快就能够实现,一项好的量化历史研究需要很多条件的配合,也需要大量坚实的工作。而量化历史研究作为一个新兴的领域,仍然处于不断完善的过程之中。在使用量化历史研究方法的过程中,也需要注意其适用的条件,任何一种方法都有其适用的范围和局限,一项研究的发展也需要学术共同体的监督和批评。量化方法作为“史无定法”中方法的一种,在历史大数据时代,作用将越来越大。
(作者:林展,系中国人民大学清史研究所讲师,陈志武系香港大学经济管理学院与亚洲环球研究所教授)
载《社会科学文摘》2021年第4期,摘自《史学理论研究》2021年第1期
原题为《量化历史与新史学——量化历史研究的步骤和作为新史学的价值》
发表评论