观花｜2021年全国知识图谱与语义计算大会评测任务发布

栏目：学前教育时间：2022-12-01

　　CCKS技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法及系统的平台和资源，促进国内知识图谱领域的技术发展，以及学术成果与产业需求的融合和对接。CCKS2020技术评测吸引了4056支队伍报名参赛，形成了较高的影响力。经过前期的评测任务征集和评测组委会筛选，CCKS 2021共设立五个评测主题，共十四个评测任务，任务列表见下。

　　专委会为每个任务前三名设立奖金并颁发证书（具体任务奖励参见评测任务书），同时组委会将针对不同任务特别评选“创新技术奖”（具体任务奖励参见评测任务书），专门用于鼓励创新性技术的使用。专委会还将协同Data Intelligence期刊编辑部组织“评测论文主题专刊”，优秀评测论文将推荐至该专刊免费发表。

　　主题一：领域信息抽取

　　任务一地址文本分析任务描述：该评测包含2个子任务，分别是:中文地址要素解析、地址文本相关性。地址要素解析是将地址文本拆分成独立语义的要素，并对这些要素进行类型识别的过程。地址文本相关性主要是衡量地址间的相似程度。

　　地址要素解析与地址相关性共同构成了中文地址处理两大核心任务，具有很大的商业价值。目前中文地址领域缺少标准的评测和数据集，这次我们将开放较大规模的标注语料，希望和社区共同推动地址文本处理领域的发展。

　　任务二

　　面向通信领域的过程类知识抽取

　　任务描述：本次评测任务的语料来源主要是华为公司的公开故障处理案例。本次评测任务的事件类型包括：指标恶化类、软硬件异常、采集数据、核查类、配置类故障、外部事件、调整机器、操作机器等。

　　任务三

　　网页文件中学者画像任务

　　任务描述：本次大赛主要挖掘专家的基本画像，但现有的挖掘方法受限于标注数据集或者基于规则统计的方法，因而效果有限。希望选手能够结合当下最先进的AI和NLP技术，深入挖掘web文本中的专家标签信息，构建模型实现精准的高端人才画像。

　　任务四

　　中文电子病历的医疗实体及事件抽取

　　任务描述：本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续，在CCKS 2017，2018, 2019, 2020相关评测任务的基础上进行了延伸和拓展。本次评测依然是聚焦在两个任务：医疗命名实体识别和医疗事件抽取。与往年不同的是本次评测要求参赛者提供一个解决方案来同时解决实体识别和事件抽取两个任务。参赛者在建模过程中尽可能的利用两个任务间的关系来提高最终的效果。参赛者需在两个子任务上进行测试，两个子任务测试集上的综合表现作为最终的评测结果。

　　主题二：篇章级信息抽取

　　任务五

　　通用细粒度事件检测

　　任务描述：本评测构建了包含十万余个事件实例的大规模英文数据集，覆盖了168类通用域事件类型，以期评测现有技术对通用域的普遍事件语义的检测能力。同时本评测鼓励探索事件间的层次标签体系、文档主题等额外信息对事件检测的帮助作用。

　　任务六

　　面向金融领域的篇章级事件抽取和事件因果关系抽取

　　任务描述：事件抽取是舆情监控和金融领域的重要任务之一。本评测任务的目标是解决篇章级事件元素抽取和事件因果关系抽取这两个核心的知识抽取问题。

　　主题三:链接预测

　　任务七

　　表型—药物—分子多层次知识图谱的链接预测

　　任务描述：本任务基于表型-药物-分子多层次知识图谱进行关系预测，如药物和基因/蛋白的靶向作用、药物和表型的治疗作用、蛋白间的交互作用等。评测依据知识图谱模式（Schema）和知识图谱的实体、实体之间的关系，预测新的两个实体的关系。评测本身不限制各参赛队伍使用的模型、算法和技术。可以利用各种图算法模型，预训练等手段进行图谱上的关系预测，共同促进知识图谱技术的发展。

　　主题四：知识图谱构建与问答

　　任务八

　　保险领域信息抽取和运营商知识图谱推理问答

　　子任务1：面向保险领域的低资源文档信息抽取

　　任务描述：本次评测面向真实业务场景下的商业文档理解需求，提供保险领域的少量标注数据和大量无标注数据，期望参与者能够充分利用文档格式信息，在低资源标注场景下完成“文档标题层级抽取”和“文档开放信息抽取”两个子任务。

　　子任务2：运营商知识图谱推理问答

　　任务描述：基于知识图谱的问答系统，通过对用户输入query进行语义理解，生成结构化查询语句，从给定知识库中选择若干实体或属性值作为该问题的答案。

　　以电信运营商场景为例，比如：“不含彩铃的套餐有哪些？”、“支持长途漫游，价格低于100元的套餐有哪些？”、“神州行B套餐是5G套餐吗”等，这类需要推理的Query目前的问答系统难以回答。阿里巴巴与中移在线服务有限公司发布的此次评测任务，是希望参赛选手基于提供的运营商知识图谱，将用户这类真实query作为输入，构建模型预测其答案。为帮助参赛选手提高问答效果，训练文件会提供问题对应的SPARQL查询。该任务的训练可以使用额外的资源，但是最终的答案必须来自给定的知识库。

　　任务九

　　通用百科知识图谱实体类型推断

　　任务描述：本评测任务围绕通用百科知识图谱构建中的实体类型推断展开，评测从实体百科（包括百度百科、搜狗百科等来源）页面出发，从给定的数据中推断出相关实体的类型。本次任务的实体类型包括组织机构、人物、作品等多个领域，不同领域下包括多种实体类型，实体类型之间具有层级关系，并形成一棵分类树。对于一个具体的实体，需要尽可能推断到最细粒度的实体类型，同时一个实体还可能属于一种或多种实体类型。任务提供大量无标注数据，参与者可以通过分析网页相关数据及字段信息等，灵活采用无监督、半监督、有监督等方法进行实体类型推断。

　　任务十

　　面向军用无人机系统的军事垂直领域知识图谱构建

　　任务描述：本次任务从工程实际出发，对构建图谱的数据来源进行了严格限定，对图谱构建过程中涉及的技术、方法、模型、训练数据等不作限制，自动化、半自动化以及其他混合方式均可，鼓励参赛队面向工程实际开展探索；在评测上，结合工作实际，区分构建阶段与任务阶段，从“质”、“效”两个方面进行评测。同时，为支持本次评测任务，军科系统院组织有关单位专家，设计了目前公开领域最为全面、系统的军用无人机系统知识图谱顶层模式(Schema)。

　　任务十一

　　蕴含实体的中文医疗对话生成

　　任务描述：本评测任务为蕴含实体的中文医疗对话生成，主要涉及对话系统构建、自然语言生成、领域知识融合等方向。任务具体定义如下：给定医生和患者交流的对话历史H，并假定医生的下一句回复Y包含一个标注的实体列表E，模型要求根据对话历史H生成下一句回复Y。同时，模型的回复中应当包含尽可能准确的实体信息（E中的实体）。本评测提供了一万多个医疗咨询对话数据，并标注有疾病、症状、程度、检查、药物五大类共160种相关实体。

　　任务的挑战如下：

　　（1）医疗对话系统模型需要能够准确理解对话历史，生成与上文相关的回复。

　　（2）训练集中，我们提供了五类实体标注，参赛者需要考虑如何利用这些信息来辅助模型训练。在验证和测试阶段，模型只能根据对话历史来推断回复中可能包含的实体。

　　（3）除了任务提供的医疗对话数据，参赛者可以考虑利用开源的医疗领域相关语料进行模型预训练和迁移学习。

　　任务十二

　　面向中文医疗科普知识的内容理解

　　任务描述：本次评测任务围绕着中文医疗科普知识的内容理解展开，分为两个子任务：

　　（1）医疗科普知识阅读理解；

　　（2）医疗科普知识答非所问识别。

　　其中，子任务1是针对用户提出的搜索query，在相关文章中找到对应的答案片段内容，以此作为直接展示给用户的摘要；子任务2指针对问答形式的医疗科普内容<Q, A>中，回答A和问题Q没有关联，即答案不能满足所提问题。

　　任务十三

　　生活服务领域知识图谱问答

　　任务描述：本任务属于中文知识图谱自然语言问答任务。本评测任务所使用的生活服务领域知识图谱来源于美团知识图谱，其中包括旅游、酒店、美食等多种领域的数据。我们将这些数据集整合到一起，同开放领域知识库PKUBASE一起作为问答任务的依据。

　　主题五：多模态问答

　　任务十四

　　知识增强的视频语义理解

　　任务描述：本评测任务所使用的数据来源于百度好看/全民小视频，人工标注视频分类标签和语义标签（包括：实体/概念/事件/实体属性等维度）结果。同时，我们也提供了本次评测任务所需的知识数据，期望充分利用知识图谱的语义化知识，并结合多模态学习和知识推理技术，实现视频的深度语义理解。

　　报名方式

　　本次评测采用邮件报名的方式，邮件标题为：“CCKS2021-任务名称-参赛单位”，例如：“CCKS2021-任务一地址要素抽取-哈尔滨工业大学”；邮件内容为：“参赛队名，参赛队长信息（姓名，邮箱，联系电话），参赛单位名称”。请参加评测的队伍发送报名邮件至相应邮箱（参赛队可同时选择多个子任务参赛，也可选择任意一个子任务单独参赛，请报名时注明参加哪一个子任务），具体的参赛方式见各评测任务书。

　　任务一、地址要素抽取:

　　xuanjie.wxb@alibaba-inc.com

　　任务二、面向通信领域的过程类知识抽取:

　　ccks2021taskcpe_t1@126.com

　　ccks2021taskcpe_t2@126.com

　　任务三、网页文件中学者画像任务: llwangxju@163.com

　　peng.jiang@aminer.cn

　　jia.liu@aminer.cn

　　任务四、面向中文电子病历的医疗实体及事件抽取:

　　Wtsinghua1@163.com

　　liudingxiao@mail.tsinghua.edu.cn guangliang.liu@yiducloud.cn

　　任务五、通用细粒度事件检测：

　　maven_ccks@163.com

　　任务六、面向金融领域的篇章级事件抽取和事件因果关系抽取：

　　ccks2021taskFEE_t1@126.com

　　ccks2021taskFEE_t2@126.com

　　任务七、表型-药物-分子多层次知识图谱的链接预测:

　　20125154@bjtu.edu.cn

　　任务八、保险领域信息抽取、运营商知识图谱推理问答：

　　chengguang.tcg@alibaba-inc.com

　　shiweiwei.sww@alibaba-inc.com

　　任务九、通用百科知识图谱实体类型推断 :

　　lihongyu1@oppo.com

　　任务十、军事垂直领域知识图谱构建技术:

　　lrp_ph@163.com

　　任务十一、蕴含实体的中文医疗对话生成:

　　ccks2021_mdg@163.com sqrt3tjh@gmail.com

　　任务十二、面向中文医疗科普知识的内容理解: ccks2021Medical_1@qq.com

　　ccks2021Medical_2@qq.com

　　任务十三、生活服务领域知识图谱问答：

　　linyinnian@pku.edu.cn

　　任务十四、知识增强的视频语义理解:

　　ccks2021_baidukg@126.com

　　重要日期

　　评测任务发布

　　4月15日

　　报名时间

　　4月15日—7月15日

　　训练及验证数据发布

　　5月15日

　　测试数据发布

　　7月15日

　　提交测试结果

　　7月20日

　　评测论文提交

　　8月5日

　　CCKS会议日期(评测报告及颁奖)

　　8月18日—21日

　　评测论文发表

　　为更好地面向国内外同行推广评测成果、提高评测技术影响力、扩大优秀成果的应用潜力，专委会将协同Data Intelligence期刊编辑部组织“评测论文主题专刊”，优秀评测论文将推荐至该专刊快速免费发表。DI期刊由中国科学院文献情报中心与美国麻省理工学院出版社联合创办，期刊官网：

　　https://www.mitpressjournals.org/loi/dint

　　来源 | 中国中文信息学会

　　撰稿 | 联络部张赟

　　排版 | 宣传部杨梓钒

　　图源 | 网络

　　举报/反馈

上一篇：一个to B的好未来
下一篇：眉山彭山区张林工作室：新课标背景下落实语文学科核心素养课堂教学展示

观花｜2021年全国知识图谱与语义计算大会评测任务发布

最近更新学前教育