为古籍寻求“数字生命”,“文化大数据”钱从哪里来

栏目:成人教育  时间:2023-04-02
手机版

  

  徐永明在办公室翻阅文献

  “我不避讳谈钱。”徐永明目光看向书架,“事实上,思路千万条中,‘资金从哪里来’,是很重要的一条。”

  徐永明位于浙江大学人文大楼的办公室,更像是一间稍显局促的书房,三面倚墙而立的架子上堆满文献,其中大多是专业典籍和研究论著,也有部分关于编程的教材。两种看似不搭的书藉,交汇于他正在摸索的道路——智慧古籍。

  徐永明刚回国没多久。此前的十多天,他在美国参加了一场由哈佛大学发起的关于数字人文的国际研讨会。3月16日,会议最后一晚,哈佛大学终身教授、著名的中国思想史研究学者包弼德(Peter K. Bol),向徐永明等核心成员介绍了由其主持的“中国历代人物传记资料库”(简称“CBDB”)项目的商业化进程。包弼德透露,CBDB项目接下来有望迎来“盈利时代”。

  对徐永明来说,这无疑是一个振奋人心的消息。这些年,他先后主持了“浙江文献网”“学术地图发布平台”“智慧古籍平台”的研发和实践。在他和团队的努力下,卷帙浩繁的古籍善本得以陆续走出“高阁”,有了一处更为恒久的数字居所。但这个过程是漫长的。而要让庇护得以“永恒”,资金保障问题始终横亘在这位开拓者面前。

  “数据在中国,数据库却在国外”

  回首往事、探寻渊源,带领徐永明走上数字人文这片浩瀚土地的,正是包弼德。

  那是2007年的秋天,徐永明第一次踏上哈佛访学之旅。他对口的院系是哈佛东亚语言与文明系,包弼德是系里的教授,主要研究宋代历史及地域文化。

  “一个晴天的下午,他邀请我到办公室,用一口流利的中文,兴致勃勃地向我演示了CBDB数据库。”关于CBDB,徐永明此前有所耳闻,它由汉学家、宾夕法尼亚大学终身教授郝若贝(Robert Hartwell)于20世纪七八十年代建立。郝若贝去世后,数据库资料捐赠给了哈佛燕京学社,部分资料成为CBDB的第一笔数据资源。2005年,包弼德开始接手主持这一项目。

  2007年9月,包弼德教授在他的办公室向徐永明展示CBDB数据库(受访者供图)

  “无非就是几种二手材料的传记。”当时看来,CBDB数据库中的数据很少,只有来自台湾的《宋人传记资料索引》《元人传记资料索引》数种,完全无法和大陆的浩瀚典籍相媲美,徐永明没把它当回事。但到了2014年,当徐永明第三次前往哈佛“取经”时,CBDB上线的中国历代人物已接近40万人,可视化分析成果更是令他刮目相看。

  “输入人名,就能在线获取相关人物的资料,包括生卒、别名、任官、亲属关系、社会关系等。不仅如此,中国地方志等其他数据源的几十万数据也被源源不断收录进来。”徐永明说,像某位历史人物的朋友圈、某地的状元名录、某个朝代女性寿命情况这些,CBDB都可以通过数据可视化的方式直观地呈现出来。

  CBDB中展示的北宋文学家苏轼的“朋友圈”

  而随着研究的深入,徐永明愈发觉得,这种数字人文的理念与创新,正是中国大陆学者亟待补齐的短板。更值得关注的一点是,诸如CBDB、中国历史地理信息系统(CHGIS)、明清妇女著作(MQWW)等与中国文史研究相结合的数据库,尽管引领了汉学研究的世界潮流,但由于服务器均在海外,自然也就被贴上了“西方”的标签。

  “数据在中国,数据库却在国外。”说这句话的时候,徐永明多少有点复杂心境在里头。他认为,中国拥有漫长的历史、浩瀚的著作,建立属于自己的“文化大数据”,是一条必由之路。

  从“星级宾馆”到“豪华酒店”

  中国是世界上保存古籍文献最为丰富的国家,但大多数人并不清楚我国现存的古籍数量究竟有多少。

  “270余万部”——这是2021年年末全国汉文古籍普查工作摸清的汉文古籍“家底”数。不过,徐永明指出,这一数据包括了同一部古籍的多个副本,减去这些重复数,初步估计,中国现存的古籍为20多万种以上,约60多万部。这其中,已经被影像数字化的古籍约10万种,不到25万部。

  影像数字化,直白来说,就是扫描古籍的电子版放到网上,它给学者的研究和读者的阅读带来便利的同时,也存在一定的局限性,阅读者只能在这些平台上阅读图片,无法就书中的内容进行检索分析,也不能编辑和关联。“只有将影像转换成fulltext,也就是‘文本’,古籍才能从‘活下来’变成‘活起来’。”徐永明称。

  但影像古籍要转成文本,远比现代印刷品的数字化录入难得多。

  “不仅是竖排版的问题。古文一般没有标点符号,标注分单行标注和双行标注,文中还会出现现代汉语字库里没有的生僻字或异体字。此外,古籍上的水渍、霉斑,都会影响字迹的清晰度。”徐永明说,在早期,数字化录入由录入人员看着图书逐字录入,效率低、成本高,“一个人埋头苦干,两年整理、点校80万字的古籍实属不易。”

  古籍版面样式(受访者供图)

  好在近年来,古籍的OCR技术(对文本资料的图像文件进行分析识别处理,从而获取文字及版面信息)越来越智能,像阿里巴巴(BABA.US)、书同文等开发的智能OCR系统,对版刻古籍的识别率已超过90%,大大助力了古籍的文本数字化。

  智能OCR系统识别古籍(受访者供图)

  徐永明留意到,现在市面上不少数字公司开发的产品,主要就是在古籍的文本数字化基础上加一个搜索引擎,进而变成了一个全文检索的数据库。不过,在徐永明眼里,这类数据库就好比经济型酒店,只能满足基本的检索需求。数据库要真正做到智能化,就得升级成“豪华酒店”,让前台文本中的每一个字符、词语、段落,都蕴藏文本以外的丰富信息,并展示出庞大的知识谱系。

  “譬如,打开一篇古文,点击其中的人名,就会出现这个人物的生卒年月、社会关系以及他生前的行迹图;点击其中的地名,就会显示其现在的准确定位;点击一个传统的时间短语,就会自动换算成公历。”现如今,ChatGPT技术的出现,更使古籍的智能化处理和人机互动成为可能。徐永明说,只有这样,“豪华酒店”的配套设施才会越来越完善,才能赋予读者以时空感和趣味性。

  智慧古籍平台上,对人名、地名等进行标注后,古文《潛溪新集序》更易被理解

  但从星级宾馆到“豪华酒店”绝非易事,最关键的问题就在于,钱从哪里来?

  “不能只靠科研项目资金”

  “从最低的7元到几十元不等。”徐永明说,目前“智慧古籍平台”约有600多名师生参与线上的古籍整理,师生的酬劳,按工作任务的难易程度支付费用。

  虽然OCR技术识别准确率现如今已达90%以上,但与国家对印刷品万分之二的错误率要求相比,仍相差甚远。这也就意味着,需要大量的人力,去对剩下的10%的识别错误率进行“修补”。

  为此,徐永明在智慧古籍平台内部推出众包系统,以中文系研博生为主要成员,大家可以直接在线上以“领任务”的方式,对技术处理后的文本进行基本的文字、标点校对。经过类似“三审三校”的流程,古籍才能上线供大众浏览。为了保证质量,徐永明这位“班主任”还会时不时对大家上交的“作业”进行抽查,在后台的排行榜上,他以1300万字的审核量高居榜首。

  而相较师生的酬劳费,工科类技术人才的开支明显要大得多。“像一个GIS(地理信息系统)博士,年薪动辄几十万元,根本雇不起。”为了节省开支,“60后”徐永明甚至开启了自学Python(一种计算机语言)开发之路。

  徐永明正在演示智慧古籍平台

  “大数据建设是要投入真金白银的。”徐永明说,不管是学生众包费,影像古籍的购买费,数据安全的防护费,亦或是平台的维护更新费,都是一笔不小的开支,而文科的科研经费相对较少,像徐永明此前申请到的国家社科基金招标项目“明代文学智慧大数据及平台建设”,资助金额为80万元,对智慧化平台而言捉襟见肘,如果一直依靠科研项目资金,极易出现短缺状况。

  据媒体报道,国家古籍保护中心办公室副研究馆员赵文友曾做过估算,如果将全国尚未数字化的40万个版本的古籍全部数字化,采集、组织、加工、存储、管理等费用大约需要60亿元。而国家古籍保护中心每年用于古籍数字化工作的经费仅1000万元。

  “学术地图发布平台”中的杜甫行迹图

  截至目前,“学术地图发布平台”拥有地图700余人的行迹图和1200余幅分布图,有70多个国家的读者访问;“智慧古籍平台”已有数百人的世系图、社会关系图及上百种标引后的古籍,有30多个国家的读者访问。但仅凭一己之力,实在太过单薄。特别是越接近退休年龄,徐永明对自己苦心创建的这些大数据平台的担忧就愈发强烈。“我经常思考如何延续它们的生命力,否则可能到我退休了,没有足够的资金投入,这些平台也就‘死’了。”

  徐永明想到了市场化运作。他依旧拿CBDB举例:“自启动以来,CBDB项目的数据一直是开源共享的,许多基金会对其提供了资助。到了2018年,CBDB开始和中国的上市公司中文在线(300364.SZ)合作,推出开源版和商业版,通过向公共图书馆、高校文科专业及高校图书馆提供数据获利。这不啻是一个值得借鉴的解决之道。”

  这两年,徐永明一直在物色可以合作的企业家,只是相比于财力,有些理想主义的他更看重对方的人文情怀。“文化变现是一个漫长的过程。倘若今天出钱,明天就想‘生蛋’,这种合作我们也吃不消。”他直言。

  只有认识历史,才能理解当下

  人文类研究成果的市场化一直是一个难题。在徐永明的印象里,浙江大学文科项目转让方面,至今未有“零”的突破。不过这一次,或许会迎来改变。

  2022年年底,一位私交甚好的企业家了解到徐永明正在致力于文史大数据结构化和智慧化建设,觉得做这个事情“很有意义”,主动提出愿意投资。为此,浙江大学工业技术转化研究院正聘请第三方专业评估公司对其负责的平台进行评估,如果进展顺利的话,项目的市场化运作预计年内就能成形。

  浙江大学校级文科实验室:文史大数据实验室

  徐永明的心中,其实早已有了明晰的蓝图:“资金进来后,我们首先充实学术队伍,培养更多的学科交叉人才;而考虑到盈利点主要还是在政府的数据加工方面,我们还将扩充运营队伍,主要负责参与招投标项目。”

  让徐永明欣喜的是,从大环境看,国家也在大力助推古籍数字化建设。2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,对新形势下古籍的管理、保存、整理、出版、普及、资金及数字化工作等问题提出了18条明确的指导性意见。这表明必须加大从源头创新、人才培养,到商业应用、产业培育的全链条相互贯通、有机衔接、环环相扣。

  目前,包括字节跳动、阿里在内的大厂也纷纷开始助力古籍保护工作。根据抖音集团近期发布的ESG报告,“在助力古籍保护方面,2022年,字节跳动上线识典古籍数字化平台,免费开放685部经典古籍。预计三年内,将完成1万种古籍的数字化整理,基本覆盖儒家、道家和佛家的核心典籍,并对全社会免费开放。”

  “加快古籍资源的转化利用,绝对不是‘阳春白雪’之事。”徐永明说,古籍善本不仅具有认识价值、审美价值及功利价值,更是一面镜子,透过它们,人们得以看清过去,“而只有看清过去、认识历史,我们才能更好地理解当下、预测未来。”

  徐永明正在阅读专业典籍

  举报/反馈

上一篇:女校长落马:操控高考敛财百万,痴迷整容,家中搜出大量情趣用品
下一篇:新传考研复试第一!三跨一战也能405分高分上岸上海交通大学!

最近更新成人教育