内容挖掘的机遇和威胁内容挖掘的机遇和威胁 2025 年二三月间,全球出版
的讨论智囊之一出版讨论协会(PBC)委托两位荷兰讨论者 Eefke Smit 和 Maurits van der Graaf进行了一项有关期刊论文内容挖掘的讨论工作
项目访谈了 29 位内容挖掘讨论专家并针对学术出版商展开问卷调查,最终就内容挖掘的进展现状、利益相关者、政策和趋势等问题做出了回答
所谓内容挖掘(content mining)是指为满足信息检索、信息提取或荟萃分析的需要而采纳自动化的工具、技巧和技术来处理大量非结构化或非均一结构的数字内容
内容挖掘的应用范围很广,受到了从早期信息科学家和药物研发人员到近来市场营销人员、广告从
分析师和法律从,
举例来说,药物学家可以通过挖掘记载药物副作用的文献来发现药物的新用途;市场人员可以通过情感分析等挖掘技术来处理脸书、推特等社交媒介上的信息,从而了解人们对于产品或服务的真实态度
内容挖掘经过了几个演化阶段(见图 1):一开始主要通过识别书目数据来促进信息检索;当前的主流是通过与数据库相连的语义标签来完成实体识别;下一步关注的热点是实现信息提取,以揭示文献内(间)和内容库内(间)实体之间的关系;新兴的综合内容分析可根据应用目的和领域集聚不同形式的相关内容;而最有前景的应用,则是利用人工智能来发掘隐含的知识,即完成知识发现功能
专家们对于数据挖掘的态度并不相同:悲观者认为内容挖掘技术应用领域有限且高度分化,另外许多自动化工具都离不开人工干预;乐观者认为过去 5―10 年间标准术语集和识别工具等都有了长足进展,而且领域化有助于提升所猎取信息的准确性和可重用性,因此反而是优势所在
作为原始内容提供商,出版商对于内容挖掘可谓一则以喜、一则以惧
喜的是内容挖掘作为有用的工具,出版商同样可以利用它来提升自己产品和服务的质量