内容挖掘的机遇和威胁内容挖掘的机遇和威胁 2025 年二三月间,全球出版?的讨论智囊之一出版讨论协会(PBC)委托两位荷兰讨论者 Eefke Smit 和 Maurits van der Graaf进行了一项有关期刊论文内容挖掘的讨论工作。项目访谈了 29 位内容挖掘讨论专家并针对学术出版商展开问卷调查,最终就内容挖掘的进展现状、利益相关者、政策和趋势等问题做出了回答。 所谓内容挖掘(content mining)是指为满足信息检索、信息提取或荟萃分析的需要而采纳自动化的工具、技巧和技术来处理大量非结构化或非均一结构的数字内容。内容挖掘的应用范围很广,受到了从早期信息科学家和药物研发人员到近来市场营销人员、广告从?人员、商?分析师和法律从,?人员的欢迎。举例来说,药物学家可以通过挖掘记载药物副作用的文献来发现药物的新用途;市场人员可以通过情感分析等挖掘技术来处理脸书、推特等社交媒介上的信息,从而了解人们对于产品或服务的真实态度。 内容挖掘经过了几个演化阶段(见图 1):一开始主要通过识别书目数据来促进信息检索;当前的主流是通过与数据库相连的语义标签来完成实体识别;下一步关注的热点是实现信息提取,以揭示文献内(间)和内容库内(间)实体之间的关系;新兴的综合内容分析可根据应用目的和领域集聚不同形式的相关内容;而最有前景的应用,则是利用人工智能来发掘隐含的知识,即完成知识发现功能。专家们对于数据挖掘的态度并不相同:悲观者认为内容挖掘技术应用领域有限且高度分化,另外许多自动化工具都离不开人工干预;乐观者认为过去 5―10 年间标准术语集和识别工具等都有了长足进展,而且领域化有助于提升所猎取信息的准确性和可重用性,因此反而是优势所在。 作为原始内容提供商,出版商对于内容挖掘可谓一则以喜、一则以惧。喜的是内容挖掘作为有用的工具,出版商同样可以利用它来提升自己产品和服务的质量。全球最大的几家学术出版集团,如爱思唯尔的 SciVal、施普林格的 SpringerMaterials 数据库和汤森一路透的科学网平台等,都是利用数据挖掘技术来丰富自身信息产品和服务并提高其可获得性的典范。而在回复调查问卷的 190 位受访学术出版商中,也有 50%-60%打算挖掘自家内容以改善信息导航,25%-30%拟提供语义标签,30%-45%计划藉此开发新产品。惧的则是第三方利用挖掘技术生成的衍生信息产品很有可能成为原始内容的替代品,从而将出版商置于信息产?链的底端,收窄其赢利和生存空间。事实上,77%...