摘要智能问答是一种前沿的人工智能技术,旨在对特定问题自动给出贴切的答案。自然语言处理和信息检索是研究分析智能问答的重要基础,前者侧重驱动计算机理解问题、候选答案和上下文语境的语义信息,后者则侧重从大规模开放域数据或垂直领域知识库中高速获取相关问题信息。本文集中研究基于检索的问答技术,并假设先验问答知识库(问题与人工标注答案的对应集合)已经存在,聚焦如何快速通过相似问题的检测,快速定位目标问题的正确答案。排序是信息检索中一个重要的环节,可根据多种需求特征评估候选知识与目标查询的相关性,并形成由强相关至弱相关的检索结果列表。根据这一特点,本文将目标问题视为查询项(Query),利用排序学习技术引入相似问题的检索、排序和择优,并将最为相关问题的答案作为目标问题的正解。在系统化工程方面,本文设计并实现了一套基于支持向量机(SupportVectorMachine,简写为SVM)的排序学习机制,集成于单个问题为查询的检索系统架构中,并利用上述相似问题检索的思想,获取目标问题的最佳答案。技术层面,本文尝试利用二值独立模型的扩展(BM25)、向量空间模型(VectorSpaceModel,简写为VSM)、句子级分布式表示(Sentence2Vec)三大类特征,实现统计与语义特征联合驱动的SVM排序模型。本文通过两方面展示工程实现:一方面,实施小规模实验,分析上述特征独立与联合使用的效果;另一方面,对构建的系统及应用结果进行详细说明。关键词:自动问答;信息检索;排序学习;特征选择AbstractAutomaticquestionanswering(QAforshort)isacutting-edgeArtificialIntelligence(AI)technology.Itisrequiredtoprovidecorrectanswerstospecificquestions.NaturalLanguageProcessing(NLP)andInformationRetrieval(IR)aretheimportantbasisfortheresearchandanalysisofQA.NLPfocusesonmakingthecomputerunderstandthequestions,candidateanswersandcontexts.WhileIRfocusesonobtainingrelevantinformationfromlarge-scaleopendomaindataordomain-specificknowledgebase.ThepaperfocusesonQAtechnologiesonthebasisofIR.Weassumethatthepriorquestionandanswerknowledgebasehasalreadyexisted.Itisthecorrespondingsetofquestionsandannotatedanswers.Weworkonhowtoquicklyfixthecorrectanswertothetargetquestionbyretrievingsimilarityquestions.RankingplaysanimportantroleinIR.Accordingtoavarietyofpracticalneeds,itcanmeasuretherelevancebetweenanswercandidatesandtargetquestions,andformalistofretrievalresultsfromthestrongcorrelationtotheweak.Accordingly,thetargetquestionisconsideredasaqueryitem.Learningtoranktechniqueisusedtosearch,sortandchoosethesimilarquestions.Theanswerofthemostrelevantquestionisadoptedasthetrueanswertothetargetquestion.Inaviewofsystematicengineering,thispaperdesignsandimplementsalearningtorankmechanismbasedontheSupportVectorMachine(SVM).Itisintegratedintoaquerybasedretrievalarchitecture,andobtainsthebestanswertothetargetquestionbyretrievinghomogeneousquestions.Intheexperiments,weattempttocombinevariousfeatures,suchasBM25,VectorSpaceModel(VSM)andsentenceleveldistributedrepresentation(Sentence2Vec),torealizeranking.Ourpracticalexperiencehasbeenshownintwoaspects:ononehand,small-scaleexperimentsarecarriedouttoanalyzetheeffectoftheabovefeatures;ontheotherhand,thesystemandapplicationconsequenceareexplainedindetail.Keywords:automaticquestionandanswer;informationretrieval;learningtorank;FeatureSelection目录第一章绪论(1)1.1研究背景和意义(1)1.2研究现状概况(2)1.3主要研究内容(3)1.4论文的组织架构(4)第二章任务定义和相关工作(6)2.1任务定义(6)2.2知识库与资源(6)2.3基于NDCG的评价方法(7)2.4本章小结(8)第三章基于支持向量机的排序学习算法(9)3.1支持向量机分类原理(9)3.2支持向量机排序模型(11)3.3本章小结(13)第...