近日,中科天玑团队的重要组成部分--中科院网络数据科学与技术重点实验室由李紫宣、仇韫琦、杨帆三名硕士生与延浩然、赵凯琳、苏佳林三名保研生组成的知识计算团队在计算所靳小龙、王元卓与贾岩涛老师的指导下,在国际知识库构建领域的权威评测TAC-KBP 2017英语语种的冷启动知识库构建任务中取得了优异成绩。
其中,实体发现(Entity Discovery)子任务整体排名第三,2项准确率指标排名第一;实体链接(Entity Linking)子任务1项准确率指标排名第一、1项排名第二;槽填充(Slot Filling)子任务1项准确率指标排名第一、3项排名第二。
网络数据科学与技术重点验室由中科院计算所副所长、中科天玑公司董事长程学旗担任主任。该实验室是中科天玑公司众多国际前沿技术的研发基地,同时也是国内大数据产业与国际接轨的重要通道。实验室致力于面向网络空间的大规模数据感知与获取、存储与管理、分析与挖掘等方面的基础理论、关键技术与应用系统的研究工作。研究方向包括网络数据复杂性与数据计算理论、网络空间感知与数据表示、大数据存储与管理、网络数据挖掘和社会化计算、网络数据管理引擎相关技术、大数据与信息安全等,以此支撑国家网络空间战略性任务,并推动网络数据的产业发展。实验室近年来的大量成果已被应用于国家网络空间信息内容安全保障、互联网搜索与服务、政府信息化等多个领域。
TAC由美国国家标准与技术研究所(NIST)主办,美国国防部协办。作为文本内容处理领域最重要的国际评测之一,TAC评测从2008年开始每年举办一次,吸引了来自美国、英国、加拿大、中国等20多个国家的队伍参赛,累计参赛队伍超过440支。从2012年开始,TAC专注于TAC-KBP评测,至今已连续举办九届,已成为知识库构建技术的国际主流评测平台,每届均有四十余支队伍参加,参赛队伍来自卡内基梅隆大学、斯坦福大学、伊利诺伊大学香槟分校等国际著名高校与Microsoft、IBM等大型IT公司。
冷启动知识库构建任务2011年首次设立,其目标是对开放文本(包括新闻、论坛等)进行知识挖掘,“从无到有”地构建一个包括实体、属性与关系的知识库。TAC-KBP不仅注重知识库构建中的实体发现、关系抽取等单项技术,而且考验参赛团队将各项技术整合成完整知识库系统的能力。相比传统的知识库构建技术评测任务,冷启动任务更加注重知识库构建技术在开放领域文本上的实际应用,也因此更具实用价值。
与往年相比,2017年冷启动知识库构建任务的难度显著提高,评测内容增加将近一倍,子任务数量达到五个,几乎囊括知识库构建的所有技术,因此更加注重参赛队伍的综合实力。2017年的参赛队伍来自斯坦福大学、约翰霍普金斯大学等国外高校与IBM等多家企业,共提交71个参赛结果。
该实验室知识计算团队在此次评测任务中将深度学习技术与传统的知识抽取方法相结合,从零开始构建了包括实体、事件、关系、情感在内的知识库,相关技术将在领域知识推断与预测、基于知识图谱的领域问答等应用中起到关键作用。