基于概念关联网络的文献挖掘与应用系统摘要随着生命科学的高速发展,文献的数量呈现出爆炸性地增长
如生物医学文献数据库 PubMed,每年新收录的文献数量达到 30-35 万条,且数量仍在不断增长
如何获取相关文献文献和关联目标的概念,从而更好地提取所需信息,是目前研究热点和难点
传统方式通过阅读文献来获取所需信息,非常低效
因此,需要更为高效的方式,使研究者可以系统地获取目标文献信息,并从文献中挖掘出潜在关系
本课题选取了文献挖掘中实体识别,信息提取,文本挖掘和信息整合四种研究方法进行探索,建立了基于概念关联网络的文献挖掘与应用系统
针对实体识别方法,通过整合 MetaMap 软件的识别结果,对 CRISPR/Cas9 技术文献中抽取的概念词进行层次归类,评估 MetaMap 在不同层次分类下抽提概念的准确率
在评估结果的过程中,通过筛选 MetaMap 抽取概念的错误结果,提高了MetaMap 抽取概念的准确率,验证了基于 MetaMap 抽取概念这一方法的有效性
在此基础上,针对信息提取的问题,结合自然语言和共词策略两种方法
首先整合自然语言处理工具 SemRep 软件抽取文献中概念关联关系,并建立了肝癌文献中基于语义关系的基因与疾病的网络
其次,对抽取的语义关系进行筛选,来探索肝癌文献集中基因与疾病间的各类关系
对抽取出的基因与疾病间的相关关系与人工标注得到的基因与疾病对进行比较,结果表明自然语言方法建立的语义网络是能更准确地挖掘出文献中的概念关系,查准率高;但缺点是查全率较低,且难以提取多种复杂类型的关系和发现潜在的基因与疾病间关联
故在研究文本挖掘的方法时,本课题利用共词策略建立概念之间关系,进而发现潜在的概念之间关联与联系
本课题以消化道肿瘤为中心,挖掘了32751 篇消化道肿瘤文献中的概念关系
首先通过 MetaMap 抽取了不同消化道肿瘤中肿瘤和基因的概念