北大携字节跳动推出古籍数字化平台 搭建免费开放的“智能图书馆”
新华财经北京10月11日电 11日,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。目前,该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。
据了解,上述实验室系今年3月北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。“识典古籍”平台上线,即是双方合作的最新进展。
当前,中国的古籍数字化还处于初级阶段,面临技术难度高、资金缺口大、人才紧张等难点。相关资料显示,现存的20多万种古籍中,只有8万种完成影像数字化扫描,近4万种完成文本数字化。据专家统计,从1949年到2019年,国内共修复整理出版古籍近3.8万种,要将现存古籍全部修复整理出来,可能需要300年时间;若利用人工智能技术辅助修复整理,大概二三十年就能完成。
据“识典古籍”项目负责人介绍,该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。
未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。
一年多来,字节跳动在古籍修复和活化上也有所进展。此前,字节跳动资助国家图书馆定向修复的珍贵古籍104册件,现已完成50多册件,包括一批稀有的样式雷图档。在活化方面,抖音平台推出“寻找古籍守护人”计划,旨在激励创作者通过音乐、说书、绘画、复原美食等形式,普及古籍知识、演绎古籍内容,让古籍鲜活起来。
编辑:刘铭
声明:新华财经为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。
举报/反馈
上一篇:北大人民医院确诊2例新冠肺炎 完成密接251人检测
下一篇:全国各省统招专升本哪些是先填志愿后考试,哪些是比较特殊的呢?
最近更新远程教育
- 澳洲传媒专业分类
- 均胜电子获“蔚来质量卓越合作伙伴”奖
- 温差12℃!菏泽天气马上反转!
- 山东这三个家族进入2023胡润百富榜前100名
- 永定区:百舸争流绽芬芳 体育赛课促成长
- 花钱就能免试读博士?马鞍山一女硕士被骗12万元
- 国家级外贸转型升级基地魅力何在?海珠服装产业链转移考察团二次走进新塘
- 九九重阳 孝润童心 郑州市实验幼儿园开展重阳节主题活动
- 浪潮信息业绩失速股价受挫 国内算力景气度提升有望打开增量
- 凌晨三点上岗接驳,烟台公交集团顺利“跑完”烟台马拉松
- 中航大探索定向就业招生新模式 着力提高人才培养契合度
- 工匠精神融入高校课程体系的逻辑与策略
- 自考本科需要考多久?
- 郑州都市圈建设迈入新阶段 中原出“圈”再出发
- 行政人员“卡壳”高校教师资格证 职业晋升瓶颈待解
- 起猛了!这是“银角大王”在上课吧
- 物业服务哪家强?来普陀这场比武练兵中找答案
- 战火下加沙一大学的助教:在炮火中开设中文班,缓解孩子们的恐惧
- 原创世界羽联最新排名 翁泓阳上升三位
- 哈六中被授予全国中学生科普科幻作文“优秀生源基地”
- 山西聚焦“百亿工程”目标 推动高等教育高质量发展
- 全力打赢重点产业链攻坚战
- 大专学历可以直接报考中级会计师吗?
- 13国官员学者共议新时期高质量共建“一带一路”
- 金华周记(2023.9.25-10.1)