题目:基于知识的智能问答技术(PDF)作者:许坤,冯岩松(北京大学)————————————————————作者简介:许坤,北京大学计算机科学技术研究所博士生,研究方向为基于知识库的智能问答技术,已连续三年在面向结构化知识库的知识问答评测QALD-4,5,6中获得第一名
冯岩松,北京大学计算机科学与技术研究所讲师
2011年毕业于英国爱丁堡大学,获得信息科学博士学位
主要研究方向包括自然语言处理、信息抽取、智能问答以及机器学习在自然语言处理中的应用;研究小组已连续三年在面向结构化知识库的知识问答评测QALD中获得第一名;相关工作已发表在TPAMI、ACL、EMNLP等主流期刊与会议上
作为项目负责人或课题骨干已承担多项国家自然科学基金及科技部863计划项目
分别在2014和2015年获得IBMFacultyAward
引言近年来,信息抽取技术的快速发展使得快速构建大规模结构化、半结构化知识库成为可能
一大批结构化知识库如雨后春笋般涌现出来,如GoogleKnolwedgeGraph(Freebase)、Yago,DBpedia、微软ProBase、搜狗知立方及百度等企业内部的知识图谱等
同时,这些大规模知识库也被应用于关联检索、个性化推荐、知识问答等任务中
相比于传统基于文本检索的问答系统,利用知识库回答自然语言问题可以为用户提供更精确、简洁的答案,因此一直受到学术界和工业界的广泛关注
目前基于知识库的问答技术可以大致分为两类
第一类基于语义解析的方法
这类方法通过学习相关语法将自然语言转问题转换成可以用来描述语义的形式化语言,如逻辑表达式等
构建这样的语义解析器需要大量的标注数据,例如,自然语言问题及其对应的语义描述形式
然而,针对Freebase这样大规模的结构化知识库,在实际中很难收集到足够多的高质量训练数据
另外,语义描述形式与知识库的结构之间的不匹配也是这类方法普