电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

互联网网页文本对象抽取实现技术本科毕业(设计)论文

互联网网页文本对象抽取实现技术本科毕业(设计)论文_第1页
1/57
互联网网页文本对象抽取实现技术本科毕业(设计)论文_第2页
2/57
互联网网页文本对象抽取实现技术本科毕业(设计)论文_第3页
3/57
互 联 网 网 页 文 本 对 象 抽 取 实 现 技 术摘 要互 联 网 中 蕴 含 着 大 量 的 关 于 现 实 世 界 对 象 的 结构 化 信 息 。 为 了 能 应 对 信 息 爆 炸 带 来 的 严 重 挑 战 ,抽 取 、 集 成 网 页 上 各 式 各 样 的 文 本 对 象 信 息 , 进行 对 象 级 别 的 搜 索 , 迫 切 需 要 一 些 自 动 化 的 技 术帮 助 人 们 在 海 量 信 息 中 迅 速 找 到 自 己 真 正 需 要 的信 息 。 网 页 文 本 对 象 抽 取 实 现 技 术 正 是 解 决 这 个问 题 的 一 种 方 法 。本 文 以 传 统 的 信 息 抽 取 理 论 和 方 法 为 基 础 , 针对 目 前 热 门 的 博 客 领 域 , 提 出 了 一 种 基 于HTML 特征 和 机 器 学 习 的 博 客 正 文 抽 取 算 法 。 在 该 算 法 中,讨 论 了 博 客 网 页 的 特 征 , 提 出 了 一 种 基 于HTML 标签 特 征 的 网 页 分 块 算 法 , 使 用 决 策 树 算 法 对 博 客数 据 集 进 行 统 计 训 练 , 采 纳 专 门 的 统 计 工 具WEKA对 该 算 法 进 行 了 测 试 和 评 估 , 并 总 结 出 该 算 法 的优 点 以 及 可 以 改 进 的 地 方 。 最 后 , 展 示 了 基 于 该博 客 正 文 抽 取 算 法 的 博 客 搜 索 引 擎Geeseek 的 系 统 结构 和 界 面 演 示 。 该 系 统 属 于 新 型 的 垂 直 搜 索 引 擎,能 够 对 博 客 和 博 文 进 行 快 速 有 效 的 搜 索 。 据 了 解,Geeseek也 是 目 前 国 内 高 校 中 第 一 个 博 客 搜 索 引 擎 。关 键 词 : 互联网,信息爆炸,信息抽取,博客,HTML , 机 器 学 习 , 决 策 树 , 搜 索 引 擎 , Geeseek Implementation of text object extraction for Internet web pages Author: Zhang Hui Tutor: Lin YapingAbstractNowadays, there is a large number of semi-structural information which represents objects in the real world on the Internet. In order to deal with the severe challenge...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

互联网网页文本对象抽取实现技术本科毕业(设计)论文

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部