大数据环境下清华大学图书馆的实践
目前清华大学图书馆馆藏纸质书达300多万种,电子书600多万种、近7万种电子期刊、几亿篇文章,并采用专业的资源发现系统为用户提供纸质书和电子资源的整合检索。资源发现系统自带的知识库包含7亿多条高品质的文章级元数据,是庞大的元数据仓储;此外,清华大学图书馆还在发现系统平台汇集融合了从维基百科下载的开放数据,以及由图书馆员收集整理的清华教工的学术简介等。基于上述数据基础,清华大学图书馆在以下两方面进行了探索和实践。
数据集成。清华大学图书馆尝试在检索平台“水木搜索”上综合运用多来源数据。将书、刊、文章等元数据汇聚在一起用于检索,用户可通过开放链接技术定位及获取资源;维基百科的词条、清华教工简介、豆瓣书评、清华学生打过的标签则在展示层与检索结果关联,用户可在一个检索结果页面获得不同层次、不同角度的信息内容。
挖掘数据价值。从目前情况看,图书馆的数据规模以及对数据处理的实效性虽远未达到大数据处理的需求,但是基于大数据开展的挖掘数据价值、提取知识的理念却深深影响了图书馆的服务模式。
海量权威的元数据汇集到一起,蕴藏了大量的知识,对基于数据的知识服务带来重要影响。清华大学图书馆尝试对这些数据集合做一些分析工作,即从电影先生元数据仓储中提取关键词等信息,分析关键词走向,分析作者与合作者的关系,建立以人为中心的知识关联网络。
基于时间轴进行趋势分析。研究某学科领域在一个时间段的发展趋势对了解该学科的发展脉络、预测未来的发展方向至关重要。清华大学图书馆采用提取文章关键词并分析关键词在时间轴上分布的方法来给出该领域的发展趋势。该服务的初步尝试已得到读者的良好反馈。
建立以学者为中心的知识关联网络。清华大学图书馆以海量多来源数据为基础,通过分析海量文献数据的特点,自动甄别出清华大学目标学者(ThuRID),获取目标学者的学术出版物、与其紧密关联的合作者、期刊会议等信息,应用开放链接技术准确定位清华学者学术出版物的全文,采用可视化视图的方式直观展示学者的学术历程,以及以学者为中心的科研网络。目前,清华大学图书馆已经成功甄别出清华50位专家学者,并建立了以他们为中心的知识关联网络。
清华大学图书馆用于分析的主要数据集合还是英文数据,我们期待着和中国知网这样的国内数据提供商在数据挖掘及增值应用方面有更多的合作。此外,中国知网在国内外大力推广数字出版,这使得建设一个从资源产生到资源应用的快速通道成为可能,我们也在积极思考如何和中国知网携手共建这个快速通道,也希望数字出版能从资源诞生那一刻起即考虑到与应用环节的有机衔接,共同促进知识的传播与再利用。
(作者系清华大学图书馆馆长)
上一篇:市南西片沿海地块控规调整!用地布局、规划指标有变
下一篇:成都师范大学2021年招生计划:四川招收3298人,公费师范生171人
最近更新教育管理
- 德州市社保中心组织开展12333社保咨询日及服务体验活动
- 郁亮关于房地产的最新判断
- 新sat写作多长时间
- 中超最新积分榜:山东泰山稳居第2,距离榜首只差5分!三镇升6
- 拒绝教师“躺平”,湖北一地出招
- 九江市人社局精准服务推动高校毕业生高质量就业
- 逢八秩晋五·续摇篮华章 ——西安市第一保育院学术讨论暨摇篮课程成果分享活动
- 奇安信集团总裁吴云坤赴南京信息工程大学交流座谈
- “重礼兴乐”涵育师生家国情怀
- 上汽大众途观L(Tiguan L)和探岳怎么选?看完这篇就有答案
- 我省严禁艺考考点院校参与应试培训活动
- 深度介入基础设施建设,推动人才培养与人文交流 十年大手笔!江苏高校同绘丝路画卷
- 行而不缀,未来可期
- 大量编内!福建多家好单位招人!
- 首届川渝“巴蜀杯”中学生排球联赛开赛
- 平安产险重庆分公司开展2023年金融消费者权益保护教育宣传月“五进入”活动
- 湖南娄底:全面优化项目建设环境
- 辽宁科技大学材料与冶金学院开展新生入学教育系列活动
- 明年起,江苏开设6类艺术类省统考
- 我真的很棒——合肥市荣幼教育集团开展幼小衔接活动
- 快看:首列车亮相,郑州这两条地铁新进展来了!
- 推动农业绿色发展 淄博打开农民增收“新密码”
- sat阅读填空题的答题方法
- 主题教育|枣庄市司法局采取有力措施 确保主题教育高质高效推进
- 昆明市工会驿站普惠日活动启动