简体版 / 繁體版 正在载入当前时间...
首页 > 抗战研究 > 抗战文献数据平台 > 平台动态 > 内容正文

张燚明 | 打造公益开放的学术型数据库:抗战文献数据平台建设的实践与思考
来源:抗战文献数据平台   2023-01-05 08:42:33

  摘要:以“公益开放”为理念的抗战文献数据平台,以其海量的文献资源及免费的服务,在商业化数据库林立的市场上占据了一席之地。抗战文献数据平台构建了学校与学校间、研究者与历史爱好者间及国内与国外间的学术公平环境,这在新冠疫情期间表现得尤为明显。在打造方便好用的数据库的同时,抗战文献数据平台通过挖掘民间收藏的历史文献及开展中学生历史教学活动等方式,不断探索公益开放的学术型数据库服务社会的新模式。依托国家的强大支持,逐步打破信息技术与历史文献之间、数据库与历史研究者之间及各文献数据库之间的壁垒,通过培养兼具历史学功底与计算机基础的复合型人才、借助全文检索带动技术助力、打通底层逻辑实现数据共享等方式,消除商业化数据库所造成的“知识垄断”,更好服务社会,这将成为以抗战文献数据平台为代表的公益开放的学术型数据库所追求的目标。

  关键词:抗战文献数据平台;公益;开放;学术型数据库

  0

  引言

  随着互联网技术的不断提升,广大学者及高校学生日益依赖学术型数据库来获取海量的学术资源。因其文献数量巨大、建设周期较长及资源独占性强等特点,绝大部分学术型数据库采用了商业化的运营模式,而上述特点又决定了商业化学术型数据库收费必将日益走高,并逐渐呈现寡头垄断的倾向。2019年初,发生在美国最大的公立学校系统——加州大学(University of California)与荷兰出版巨头爱思唯尔公司(Elsevier)之间有关数据库付费的争端成为了国际瞩目的焦点,这正是学术型数据库不断商业化运作所带来弊端的集中体现。

  近年来,研究者通过对国内外学术型数据库发展的调研,不断反思商业化对于学术型数据库的利弊,提出了“商用学术文献数据库背离了学术资源的公共属性”的观点。[ii]在此基础上,研究者对依靠政府支持[iii]、践行“开放存取”理念[iv]的非商业化数据库的发展前景进行了展望,具有很强的启发性。

  2018年9月,“抗日战争与近代中日关系文献数据平台”(以下简称“抗战文献数据平台”)上线运行。该平台自上线伊始,就确定了“公益开放”的非商业化理念,向全球学者及公众免费开放浏览,并提供免费的下载服务,逐步建成为“全球领先的抗日战争乃至近代中日关系研究”的公益性史学数据库。[v]那么,抗战文献数据平台是如何践行“公益开放”发展理念的?抗战文献数据平台又是如何构建学术公平环境的?它又是如何探索服务大众的新模式?本文将对上述问题加以回应,并对公益开放的学术型数据库的未来发展提出展望。

  ,时长01:08“抗日战争与近代中日关系文献数据平台”荣获2022年中国数字人文年会优秀项目评选“最佳项目奖”,中国社会科学院近代史研究所副所长金以林研究员作为项目代表发表了获奖感言。

  1

  打造公益开放的学术型数据库

  为深入贯彻落实习近平总书记2015年7月30日在十八届中共中央政治局第25次集体学习时所做出的“抗战研究要深入,就要更多通过档案、资料、事实、当事人证词等各种人证、物证来说话。要加强资料收集和整理这一基础性工作,全面整理我国各地抗战档案、照片、资料、实物等,同时要面向全球征集影像资料、图书报刊、日记信件、实物等”的重要讲话精神,由中国社会科学院、国家图书馆和国家档案局牵头,中国社会科学院中国历史研究院近代史研究所承办的抗战文献数据平台,作为“国家社科基金抗日战争研究专项工程” 的基础性、标志性的核心项目与主体工程,于2016年6月得以批准立项。2017年9月,抗战文献数据平台一期工程上线并进行试运行。2018年9月2日,抗战文献数据平台正式上线,面向全球学者和公众免费开放、免费下载。

  1.1

  服务基础:海量、多样的文献资源

  海量的文献资源是抗战文献数据平台得以向广大读者提供服务的基础。截至目前,抗战文献数据平台已上传近代中西文档案、图书、期刊、报纸、音频和视频等不同类型的文献14万余种,总量超过5000万页。其中,海内外近现代报纸达1001种,总量近800万页,在国内同类数据库中首屈一指。可以说,抗战文献数据平台的文献数量已远远超过现有绝大多数商业数据库,甚至可以和国内一些省级图书馆的馆藏相媲美。

  集中展示中国共产党所领导的敌后战场的“红色文献库”,是抗战文献数据平台的一大特色。目前,平台已收集并呈现红色文献超过5500种,其中既有反映中国共产党人战略思想的《论持久战》《论新阶段》,又有体现中国共产党人英勇作战的《八路军的战争经验》、《战斗中的新四军》,更有《解放日报》《晋察冀日报》等机关刊物,在方便读者检索与浏览的同时,“有助于立体动态展现中国共产党领导全民族抗战的光辉历程”。

  在海量的基础之上,抗战文献数据平台还在努力追求文献的多样性。平台与首都师范大学有关西文档案缩微胶卷数字化的合作就是其中一例。首都师范大学是国内历史研究重镇之一,尤其以世界史研究著称。经过多年积累,该校累计购置了约一万卷涵盖英国、美国、法国、德国和日本等国的关于国际关系和政情民情的档案资料缩微胶卷。经过与首都师范大学历史文化学院协商,双方确定将其中约5000卷、近500万页有关近现代远东国际关系的缩微胶卷进行数字化处理并加以著录。这批数字化档案已上传至抗战文献数据平台供全球读者阅览,深化了学界及公众对全球视野下抗日战争历史的认识。

  抗战文献数据平台虽名为“抗战”,但在呈现文献的过程中却并不拘泥于特定的历史时代。如平台所呈现的中国近代著名报纸《申报》,即从其1872年4月30日创刊号起收录,直至1949年5月27日终刊号为止,时间跨度长达77年,总计27000余期,近40万版。平台收录并呈现的由中国史学会在20世纪50年代编纂的《中国近代史资料丛刊》,包括《鸦片战争》《太平天国》《洋务运动》及《中日战争》等十余个专题,为读者全面了解中国近现代历史的发展脉络提供了方便。

  1.2

  立足之本:好用、实用的人机界面

  抗战文献数据平台以“服务读者”为宗旨,“汇多库于一”,实现了检索结果多个关键词叠加、图书期刊目录的精准检索、万年历切换报纸阅览和文献内容同页面摘录等功能,极大地方便了读者的阅览与使用。

  数据库检索的速度与精度,是检验数据库能否满足读者需要的重要标准。抗战文献数据平台在技术上全面采用Elastic Search检索引擎,将数据库内容缓存至安置在数据库内的检索引擎上,这样不但大大缩短了查询时间,而且减轻数据库后台的压力,进而保证数据安全。

  抗战文献数据平台通过提供多种检索模式,方便读者得到更精确的检索结果。通过平台简约的首页,读者可以直接在“检索栏”中搜索自己想要的信息点进行精确检索。如果读者想要检索某一种文献类型,可在“检索栏”先单选或复选相对应的文献种类。如果读者想细化关键词的检索范围,可以自行点击检索栏右侧的下拉菜单,自行选择“题名”“关键词”“责任者” “出版者”等栏位以确定检索的具体项目。如果需要进一步精确检索结果,读者可通过“高级检索”界面实现自己的需求。

  抗战文献数据平台强大的“二次检索”功能,方便读者更快地得到想要检索的文献。在“检索结果页面”上,读者可在左边栏通过“关键词”“类型”“主要责任者”“出版者”“出版地”“语种”及“出版时间”等选项,细化检索结果。上述类型,还可以通过叠加的方式点选,进一步缩小检索范围。为了进一步服务读者,平台还在迭代升级中,例如在单种期刊、单个档案系列及单个图片册内设置独立的检索栏,极大地方便了研究者进行精确检索。上述栏位的各个信息点,都是由平台聘请国内知名高校在读近代史专业硕博士研究生著录完成,具有很强的专业性和可信度。

  为了突出专业性,抗战文献数据平台深入了解历史学研究者的需求,并充分反映在平台的功能点设置上。平台“文献阅读界面”上的“导出信息”和“摘录”功能点,就是两个例子。为了方便研究者直接将在平台上阅读到的文献运用到自己的著作中,平台设计了“导出信息”功能,让读者可以把已经按《历史研究》注释规范输入的文献信息一键导出。为了方便读者在阅读文献时抄录自己所需要的内容,平台亦设置了“摘录”功能点——点击之后,读者可在专门的“摘录框”中录入文献内容,并可进行保存、导出的操作,以供日后运用。这些功能点,都是平台项目组在充分调研史学工作者需求后,在技术上取得的独创性突破,深受平台读者的欢迎。

  在抗战文献数据平台最近完成的迭代升级中,项目组成功引入了国际上最新的IIIF技术框架,进一步提升读者的阅览体验。IIIF技术框架,全称为“国际图像互操作性框架”,是一种高清图片查看技术,即使在网络不佳的环境下传输超大高清图片,也能实现较为平滑流畅的浏览体验。IIIF技术框架广泛应用于图书馆、博物馆及艺术馆等文化领域所展陈的档案、手稿及地图等文献,使用流畅,经济高效,兼顾安全,正快速为国际主要数据库所引入和接纳,正逐步成为数据库阅览界面的国际标准。目前,平台内图书、报纸、期刊、档案和照片等五类文献均已采用了IIIF技术框架,它们在后台的存储模式虽各有不同,但通过集合成IIIF技术框架所需的“清单”,使其在前端阅览的体验达到一致。作为国内首批引入IIIF技术框架的学术型数据库,抗战文献数据平台不仅因此在国内居于技术领先地位,还进一步拓展了数据库间的国际合作空间。

  2

  探索服务社会的新路径

  在悉心打造方便好用的数据库的同时,抗战文献数据平台还通过与大专院校、研究机构、社会组织及民间收藏者的全方位合作,通过组织史料收集与数字化、开展中学历史教育教学活动等方式,不断探索公益开放的学术型数据库服务社会的新模式。

  2.1

  扎根学界:构建学术公平环境

  抗战文献数据平台拥有海量文献,并且全部免费向全球读者开放阅览和提供下载,因此甫一上线,便受到了研究人员及历史爱好者的广泛关注。

  商业化数据库的存在,在活跃市场、提供更多优质服务的同时,也给读者带来困扰。由于商业化学术数据库价格一般较为昂贵,绝大多数读者只能依赖所在高校或研究机构的购买,才能加以利用。但是,除去部分经费充足的双一流院校外,还有遍布全国的地方高校,难以持续支付水涨船高的数据库服务费,导致这些学校的师生无法享受与双一流高校师生在学术研究上的同等待遇,造成了学术研究上的不公平现象。笔者认为,学术研究的不公平,源头在于文献获取的不公平。构建学术公平环境,正是公益开放的学术型数据库存在的最大意义。

  抗战文献数据平台的诞生,首先实现了高校与高校间史学研究的学术公平。截至目前,有上百家学校图书馆网站的馆藏数据库页面,收录了抗战文献数据平台链接。其中既有北京大学、复旦大学、浙江大学和南开大学等国际知名的双一流高校,又有云南民族大学、内蒙古师范大学、长治学院及郑州航空工业管理学院等地方院校。由此,全国各地的高校师生都拥有了和传统人文社科强校师生一样获取文献的机会。

  2020年初突如其来的新冠肺炎疫情,给全国高校师生的日常学习与研究带来了极大的不便。对于学者来说,在疫情期间不能正常出入各级图书馆及档案馆,不但给他们的个人研究带来了不便,也影响到了日常教学的质量。对于更为依赖学校图书馆的在校生而言,在难以返校的困境下,撰写毕业论文与课程论文成了学习中的一大难题。根据平台在2020年6月收集的近千份读者问卷调查反馈,超过75%的受访者表示疫情对自己的研究进度影响较大。就此,为了更好地为居家进行远程教学、学习与研究的高校师生提供帮助,疫情期间,分散在全国各地的平台工作人员居家不停工,充分利用互联网的优势,尽心尽力做好资料的著录与上线、网站的维护与更新等工作,保障了平台的稳定运行。据统计,在2020年2月份,抗战文献数据平台的访问量(PV)较1月份增幅达48.65%,较2019年平均日均访问量提升约41.8%;4月份,平台的访问量更达到了2019年同期的156.8%。据平台所做的问卷调查显示,超过一半的读者表示,自己使用平台的频率和时长都有所增加,其中10%的读者每天阅读平台的时长增加了3个小时以上。有不少读者表示,正是借助抗战文献数据平台,才克服了无法进入学校图书馆的困难,从而保障正常科研工作的开展。更有部分读者依靠平台的丰富史料,完成了自己的毕业论文。可以说,疫情期间,抗战文献数据平台有效保障了广大科研人员、高校师生科研工作的持续开展,凸显了自身公益开放的特点。

  其次,抗战文献数据平台的诞生,实现了专业研究者与历史爱好者间史学研究的学术公平。史学研究不应仅仅存在于象牙塔内,更应向广大历史爱好者敞开大门。历史爱好者所面临的最大问题,就是不能像专业研究者一样,拥有获取充足文献史料的权力。而抗战文献数据平台的诞生,意味着历史爱好者只要拥有一台电脑和一根网线,即可近距离地接触真实可信的历史文献。与此同时,公共图书馆的积极介入,也为历史爱好者使用抗战文献数据平台提供了方便。抗战文献数据平台上线以来,“杨天石老先生能看到什么,你就能看到什么”这句话,成了历史爱好者的共识,这充分体现出了公众对公益开放的学术型数据库长久以来的热望。

  再次,抗战文献数据平台的诞生,实现了国内与国外间史学研究的学术公平。2019年3月,平台成员赴美参加北美东亚图书馆协会年会,公益开放的抗战文献数据平台受到了国外学者的广泛关注。国外学者纷纷表示,抗战文献数据平台为他们提供了丰富的文献资料,一定程度上缓解了他们日常研究史料不足的困境,是他们深入研究中国历史的“窗口”。针对国外学者反映的浏览速度较慢的问题,平台在迭代更新中特别采用了国内互联网运营商业已构建成熟的“内容分发网络”(CDN)技术,使得国外读者在阅览平台时,享受几乎和国内用户同样的浏览速度。

  2.2

  拓展来源:搭建史料展示舞台

  除了依托中国社会科学院中国历史研究院近代史研究所70年来的馆藏积累,并整合各大专院校及研究机构的文献馆藏以外,抗战文献数据平台还积极搜集民间个人与机构所藏的珍稀文献,打造亮点鲜明的“特色专题库”。

  “陈田鹤抗战音乐专题库”就是抗战文献数据平台打造“特色专题库”的初次尝试。曾创作《我们要夺回失去的地》《八一三战歌》的陈田鹤,是抗战时期活跃在大后方、创作了多首抗战歌曲的作曲家和音乐教育家。其女陈晖在一次偶然的机会经网友介绍与平台相识。[i]在平台工作人员的协助整理下,陈田鹤在抗战时期创作的乐谱手稿及乐曲音频,在抗战文献数据平台上得以“陈田鹤抗战音乐专题库”的名义向读者开放浏览与下载。

  “张林池陈舜玉抗战文献专题库”是抗战文献数据平台深入挖掘史料的一次探索。张林池,1937年11月加入中国共产党,抗战时期曾任晋察冀边区唐县县长、晋察冀边区第三专署专员等职,解放后成为“北大荒”的重要奠基人之一。他的夫人陈舜玉是一名活跃在晋察冀边区的妇女干部,是晋察冀边区唯一一位女县长。[ii]张林池、陈舜玉之女张希玲女士将其父母抗战时期的个人资料无偿捐赠给平台进行数字化处理,包括两人在抗战时期的日记、手稿、相册及各种证件等,具有很高的历史价值。现在,这批资料已陆续上线,作为真实可信的史料,传承抗战精神。

  除了深入挖掘个人收藏的民间史料,抗战文献数据平台还与机构合作,整理了一批从未开放的、由社会组织保管的档案资源。平台与黑龙江省宝泉岭农场合作完成数字化的“宝泉岭档案”就是这样一个例子。宝泉岭农场始建于1948年,第一批开发建设者是中国人民解放军东北军区政治部解放一团的部分官兵。他们从抗日战场转到了开发建设的战场,为农场的创立、“北大荒”的开发做出了不可磨灭的贡献,其所留下的个人档案,更是弥足珍贵,具有很高的文献价值。这批档案即将在抗战文献数据平台上呈现,以铭记历史、激励后人,将“艰苦奋斗、勇于开拓、顾全大局、无私奉献”的“北大荒精神”代代相传。

  此外,抗战文献数据平台还征集到了抗战名将佟麟阁的个人文献及抗战时期音乐家江定仙、刘雪庵等人的个人文献数万页,并与冀中人民抗日斗争史资料研究会等社会组织合作。目前,平台与民间史料收藏者的合作还在不断拓展和推进当中。公益开放的抗战文献数据平台为海量而富有价值的民间文献提供展示的舞台,推动了对民间文献更深入的挖掘、整理与呈现。

  2.3

  代际传承:培养史学后备力量

  抗战文献数据平台与中学历史教学“联姻”,于2019年春正式启动第一届“抗战文献数据平台与中学历史学习”征文活动,这正是平台对公益开放的学术型数据库如何服务社会的一次有益探索。通过展现真实可信的历史资料,平台可帮助中学历史教师将历史核心素养中的时空观念更好地传递给学生。时空观念作为历史学科核心素养之一,是指“特定的时间联系和空间联系中对事物进行观察、分析的意识和思维方式”。在教学实践中,一线教师可以借助抗战文献数据平台的海量史料,将教学过程丰富起来,使得学生以史料为桥梁,真正置身于历史情境当中,生发起学习的兴趣。同时,平台通过协助中学师生围绕史料展开搜集、整理与阐释工作,帮助学生建立完整的历史价值观,为史育才,为国育人。

  具体到征文活动,由于抗战文献数据平台举办此项活动的初衷,是启发学生自主探究历史,培养其进行研究性学习的能力,因此,只规定了征文的文体、规范和大致方向,没有指定具体的题目。这一举措收到了良好的效果,学生们在指导老师的引导下,拓展了研究的视野,提交的文章内容可谓丰富多样,涉及诸如抗战时期女性地位变迁、周恩来的外交生涯和陕甘宁边区的商业活动等问题。与会专家亦纷纷表示,当代中学生搜索史料、运用史料的能力超乎他们的想象。通过这次活动,抗战文献数据平台成功地引导中学生把对历史的兴趣爱好与发现问题的研究意识、史料搜集的基本功及史学论文写作的探索串联起来,益于其全方位建立历史核心素养。

  组织中学生历史写作活动,还有助于培养史学人才的“后备军”。短短3个月内,平台就收到了1993篇来自全国初高中生的参赛投稿。入围决赛的13位小作者多为高中生,最小的年仅12岁。他们依照论文答辩的模式,当场介绍了自己所撰写的文章,得到了包括高中统编历史教材总主编张海鹏先生和徐蓝教授等专家学者的现场指导。他们纷纷表示:在抗战文献数据平台上阅读史料的过程中,真切地感受到中华民族争取民族解放所付出的艰辛,以及今天和平的来之不易。更有同学被专家学者对历史的热爱与认真、一生对研究之梦的不懈追求所打动,立下了将来报考历史专业的决心。

  可以说,通过举办中学生征文活动,抗战文献数据平台探索出了一条学术服务社会的道路。

  3

  公益开放的学术型数据库的未来之路

  商业化学术型数据库因其商业开发的属性,追求利润的最大化本是无可厚非的,但由于其受版权保护而具有排他性,使得市场竞争的客观规律难以在这一领域实现。价格日益高昂的商业化学术型数据库,“使得知识无法广泛传播,从而形成‘知识垄断’”。[i]而打破垄断、消除壁垒,正是公益开放的学术型数据库所秉承的原则,与未来的发展方向。具体而言有三方面内容。

  其一,培养复合型人才,打破信息技术与历史文献之间的壁垒。复合型人才是21世纪的第一生产力。技术团队的开发人员,一般对于历史文献的特点与情况了解不多;而历史学者对技术发展知之甚少。这就造成某些在历史学者看来很难呈现的内容,在技术人员来看并不复杂;而历史学者觉得很容易呈现的内容,在技术人员看来则难于上青天。随着时代的发展,年轻一代的历史学人已经开始主动接触信息技术、拥抱“大数据”时代,但这还远远不够。抗战文献数据平台期望通过与其他兄弟数据库的携手合作,为历史学界培养历史基础牢固、技术水平过硬的复合型人才,以应对日新月异的技术发展,谋求历史研究的可持续发展。

  其二,实现全文检索,打破数据库与历史研究者间的壁垒。以图片为主要呈现形式的文献数据库,虽然在一定程度上满足了读者的需要,但仍无法在“质”上提高历史研究者的工作效率。当“大数据时代”即将来临之时,以文献的全文识别为基础,叠加自然语言识别、内容分析及情感分析等新技术,配合知识图谱分析和文献计量分析,才能真正让技术进步为历史研究提供更多可能。众所周知的是,文献的全文识别不但耗时耗力,而且需要持续的经费投入。抗战文献数据平台期望与兄弟高校及科研单位一道携手开展工作,不做重复劳动,逐步实现对文献进行全文识别。

  其三,统一底层逻辑,打破各数据库之间的壁垒。各个数据库间客观存在着壁垒,这既造成了不必要的重复建设,也使得研究者们不能更好地利用新的科技手段提升研究效率。笔者认为,可以将 “汇多库于一”的理念进一步拓展,即为文献数据库设计统一的技术标准、文献标准与著录标准,实现底层逻辑的统一,在于此基础上打造不同内容属性、不同门类的文献数据库,并以此为基础实现同一平台上的统一检索。这样,读者就能像逛“淘宝”、“京东”等网络购物平台一样,实现“一站式资料获取”“一站式研究服务”,真正将史料公益开放地呈现给全世界使用者。

  抗战文献数据平台六年来的实践真切地说明,坚持公益开放的理念,是能够不断打破既有壁垒、为公众提供更好服务的根本原因。并且只有通过培养兼具人文学科功底与计算机基础的复合型人才、借助全文检索带动新技术的附加、通力合作实现数据共享等路径,公益开放的学术型数据库才能在商业化大潮中占据一席之地,才能在营造学术界良好生态的同时,消除商业化数据库所造成的“知识垄断”,构建学术公平环境,拥抱“大数据时代”的到来。

  来源:《数字人文研究》2022年第3期,注释从略

  作者张燚明,中国人民大学历史学院讲师、数字人文研究中心研究员,国家社科基金抗日战争研究专项工程项目“抗日战争与近代中日关系文献数据平台”项目组成员

Copyright ©2014-2023 krzzjn.com All Rights Reserved

湘ICP备18022032号 湘公网安备43010402000821号

不良信息举报电话:0731-85531328 19118928111

纠错电话:15116420702(微信同号)

QQ:2652168198