题目:基于知识的智能问答技术(PDF)作者:许坤,冯岩松(北京大学)-—--————----—-——---—作者简介:许坤,北京大学计算机科学技术讨论所博士生,讨论方向为基于知识库的智能问答技术,已连续三年在面对结构化知识库的知识问答评测 QALD-4, 5, 6 中获得第一名.冯岩松,北京大学计算机科学与技术讨论所讲师。2024 年毕业于英国爱丁堡大学,获得信息科学博士学位。主要讨论方向包括自然语言处理、信息抽取、智能问答以及机器学习在自然语言处理中的应用;讨论小组已连续三年在面对结构化知识库的知识问答评测 QALD 中获得第一名;相关工作已发表在TPAMI、ACL、EMNLP 等主流期刊与会议上.作为项目负责人或课题骨干已承担多项国家自然科学基金及科技部 863 计划项目。分别在 2024 和 2024 年获得 IBM Faculty Award。引言近年来,信息抽取技术的快速进展使得快速构建大规模结构化、半结构化知识库成为可能。一大批结构化知识库如雨后春笋般涌现出来,如 Google Knolwedge Graph (Freebase)、Yago,DBpedia、微软 ProBase、搜狗知立方及百度等企业内部的知识图谱等.同时,这些大规模知识库也被应用于关联检索、个性化推举、知识问答等任务中。相比于传统基于文本检索的问答系统,利用知识库回答自然语言问题可以为用户提供更精确、简洁的答案,因此一直受到学术界和工业界的广泛关注。目前基于知识库的问答技术可以大致分为两类。第一类基于语义解析的方法。这类方法通过学习相关语法将自然语言转问题转换成可以用来描述语义的形式化语言,如逻辑表达式等。构建这样的语义解析器需要大量的标注数据,例如,自然语言问题及其对应的语义描述形式。然而,针对 Freebase 这样大规模的结构化知识库,在实际中很难收集到足够多的高质量训练数据.另外,语义描述形式与知识库的结构之间的不匹配也是这类方法普遍遇到的一个问题,例如,在Freebase 中并没有“爸爸"或“妈妈"这样的谓词关系,只有“父母”,因此,假如想表示 “A 是 B 的母亲"这样的关系,则需明确表示为“