3.3. 1990s-:人物研究平台的构建——中华历代人物传记数据库(CBDB)的实践
与观念史研究几乎同步,另一项具有里程碑意义的数字人文基础设施建设也在展开,即大型历史人物传记数据库的构建。其中,由哈佛大学费正清中国研究中心、台湾“中央研究院”历史语言研究所及北京大学中国古代史研究中心等机构合作开发的中华历代人物传记数据库(China Biographical Database, CBDB)便是其中的佼佼者。CBDB的目标是为中国历史上的人物(目前主要覆盖公元7世纪至19世纪,即唐代至清末)建立一个大规模、结构化的关系型数据库,以支持对历史人物群体进行深入的群体传记(prosopography,或称集体传记法)分析和历史社会网络分析(historical social network analysis, SNA)。截至目前,CBDB已收录了数十万个人物条目,并仍在持续扩充中。
CBDB的数据模型与数据库结构体现了其核心设计理念:将历史人物不仅仅视为孤立的个体,而是将其置于一个由亲属关系、社会交往、仕宦经历、地理空间、时代背景、著述活动等多种因素交织构成的复杂关系网络之中,并将这些关系数据化、结构化,以便进行量化分析。其核心表单(tables)大致包括:
● 人物基本信息表(BIOGMAIN): 存储人物的核心身份信息,如姓名(汉字及拼音)、性别、生卒年份(或活动时期)、籍贯、民族、谥号、独特的ID号等。
● 别名表(ALTNAMEDATA): 记录人物的字、号、室名、官称等多种称谓。
● 地址表(BIOGADDRDATA): 关联人物与地理位置,如出生地、居住地、为官地、墓葬地等,并与中国历史地理信息系统(CHGIS)等权威地理数据库对接。
● 亲属关系表(KINDATA): 记录人物间的血缘和姻亲关系,如父子、兄弟、夫妻、甥舅等,并尽可能标注关系的具体类型(如过继、庶出等)。
● 社会关系表(ASSOCDATA): 记录人物间的非亲属社会交往,如师生、同年、同僚、朋友、政敌、荐举与被荐举等,并标注关系的性质和发生情境。
● 入仕途径表(ENTRYDATA): 记录人物进入官场或获得特定社会身份(如僧侣)的途径,如科举(进士、举人等)、门荫、军功、捐纳等。
● 任官信息表(POSTINGDATA, OFFICECODES等): 详细记录人物历任的官职名称、任职时间、地点、品阶、职权范围等。
● 社会身份/地位表(STATUSDATA): 记录人物在社会上获得的特殊身份或声望,如学者、文人、孝廉、节妇等。● 著述表(BIOGTEXTDATA): 记录人物的著作信息。 为了规范数据,CBDB广泛使用了各类编码表(CODES tables),对关系类型、地点、官职、身份等属性进行标准化编码。
CBDB的数据采集是一个结合了计算方法与人工整理的复杂过程:
● 文本挖掘(Text-Mining): 这是CBDB快速扩充数据的主要手段。项目团队利用正则表达式(regular expressions)和先进的神经网络模型(如BERT, Bi-LSTM)等自然语言处理(NLP)技术,从海量的数字化历史文献(如正史、地方志、墓志铭、文集、年谱等)中自动或半自动地批量提取有关人物生平的“事实元”(factoids)——即文献中关于某人某事的具体陈述。
● 命名实体识别(NER)与消歧(Disambiguation): 这是数据处理中的关键环节和主要挑战。由于中国历史上同名同姓者众多,且同一人物又常有多种不同称谓(名、字、号、官称、谥号等),因此必须对从文本中识别出的实体(人名、地名、官名、时间等)进行准确的身份对应和歧义消除。CBDB的消歧过程会综合利用人物的其他传记信息,如其字号、籍贯、生卒年、亲属关系、社会交往、科举功名、仕宦履历等,来判断不同文献中提及的是否为同一人。
● 人工录入与校订: 除了自动提取,CBDB也整合了大量由学者手工录入和整理的数据,并建立了由多所研究机构的专家学者和研究生组成的编辑团队,负责对机器提取的数据进行审核、校订、补充和规范化编码,同时还通过众包平台吸纳更广泛学术社群的力量参与数据建设。
CBDB的建成对中国史乃至更广阔的历史学研究领域产生了深远影响,它为以下类型的研究提供了前所未有的数据支持和分析工具:
● 群体传记分析(Prosopography): 研究者可以利用CBDB对特定历史时期、特定地域、特定身份(如宋代官员群体、明清江南地区的科举家族、某个学派的成员等)的群体进行集体性的生平特征分析,考察其社会来源、教育背景、仕途升迁、婚姻模式、社会流动、平均寿命等方面的共性与差异,从而揭示更宏观的社会结构变迁和历史趋势。例如,有研究利用CBDB数据分析科举制度下精英群体的地理分布格局及其与社会网络的关系。
● 历史社会网络分析(Social Network Analysis, SNA): CBDB详细记录的人物间亲属、师承、同年、同乡、同僚、婚姻、政治联盟、学术交往等多种社会关系,为运用SNA方法研究历史社会结构、权力运作机制、信息与思想的传播路径等问题提供了坚实基础。例如,有学者利用CBDB数据重建并分析了南宋时期理学思想传播的社会网络,揭示了关键人物和传播节点。
● 历史空间分析(Spatial Analysis): 通过与中国历史地理信息系统(CHGIS)等地理空间数据库的联动,CBDB能够支持对人物活动轨迹、社会现象(如某一学派的区域分布、某一社会群体的迁徙模式)进行地理空间的可视化与分析,从而将历史研究与地理维度更紧密地结合起来。
CBDB无疑是中国史研究领域一个极为强大的数字化工具,它通过将散见于浩如烟海的文献中的零散人物信息,转化为结构化、可计算、可分析的数据,极大地拓展了历史学家的研究视野,催生了许多新的研究问题和研究范式。然而,CBDB的应用也伴随着一些需要审慎对待的认知论挑战和数据局限性。首先是“事实元”(factoid)的问题。CBDB记录的主要是原始文献中的“断言”(assertions),而非经过严格考证核实的“事实”(facts)。这意味着数据库中可能包含来自不同文献的、甚至是相互矛盾的记载,用户在使用时需要对史料来源进行批判性评估。其次是数据质量问题。尽管项目团队在数据清洗、实体消歧和信息校验方面付出了巨大努力,但由于数据来源的复杂性、历史文献本身的错讹以及文本挖掘技术(包括NER和机器学习模型)的固有局限,CBDB中的数据仍不可避免地会存在错误、遗漏、不一致等情况。例如,自动化的文本挖掘过程虽然效率高,但其准确性和覆盖面仍有提升空间,特别是对于古籍中复杂的语言现象和模糊表达。这些因素都要求研究者在使用CBDB数据时,必须保持清醒的批判意识,并结合传统的史学考证方法进行研究。
CBDB的实践深刻地体现了大型历史数据库构建的复杂性。它不仅是一项技术工程,更是一项持续的学术工程,需要在数据采集的广度、数据处理的精度、数据组织的合理性以及数据阐释的审慎性之间不断寻求平衡。它将分散的传记性提及转化为一个可分析的结构化数据集,从而在根本上改变了中国历史研究的方法论,使得对社会结构和个体能动性进行前所未有规模的量化分析成为可能。

留下评论