大数据文摘作品 编译:糖竹子、 吴 双 、 钱 天 培 自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息
在 它 的 帮 助 下 , 我 们 从 文本 中 提 炼 出 适 用 于 计 算 机 算 法 的 信 息
从 自 动翻 译、 文本 分 类 到 情 绪 分 析 , 自 然 语 言 处 理 成 为 所 有 数据科 学 家 的 必 备 技 能 之 一
在 这 篇 文章 中 , 你 将 学 习 到 最 常 见 的 10 个 NLP 任 务 , 以 及 相 关 资 源 和 代 码
为什么要写这篇文章
对于处理NLP 问题,我也研究了一段时日
这期 间 我需 要翻 阅 大 量 资 料 ,通 过 研究报 告 ,博 客 和 同类 NLP 问题的 赛 事 内 容 学 习 该 领 域 的 最 新 发 展 成 果 ,并 应 对NLP 处理时遇 到 的 各 类 状 况
因 此 ,我决 定 将 这些 资 源 集 中 起 来 ,打 造 一个 对NLP 常 见 任 务 提 供 最 新 相 关 资 源 的 一站 式 解 决 方 案
下 方 是 文章中 提 到 的 任 务 列 表 及 相 关 资 源
那 就 一起 开 始 吧
目 录 : 1
词 干 提 取 2
词形还原 3
词向量化 4
词性标注 5
命名实体消岐 6
命名实体识别 7
情感分析 8
文本语义相似分析 9
语种辨识 10
文本总结 1
词干提取 什么是词干提取
词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程
词干提取的目 标是将相关 词语还原为同 样 的词干,哪 怕 词干并 非 词典 的词目
例 如 ,英 文中 : 1
beautiful 和 beautifully 的词干同 为beauti 2
Good,better 和 best 的词干