虚拟联合目录系统中

下载本文档

阅读 68
下载 29
格式 docx
大小 199.59 KB
约11页
2025-01-31 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/11页

2/11页

3/11页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/11

文本预览下载提示常见问题

下载后可任意编辑虛擬聯合目錄系統中擁有共同結構之網頁文件資料萃取曾志軒 1 黃夙賢 1Chih-Hsuan Tseng1 Su-Shang Huang11國立交通大學資訊科學所{chtseng, sshuang, wpyang}@cis.nctu.edu.tw柯皓仁 2 楊維邦 1Hao-Ren Ke2 Wei-Pang Yang12國立交通大學圖書館claven@lib.nctu.edu.tw摘要虛擬聯合目錄系統是一個從分散式的圖書資訊館藏查詢系統中收集並整合圖書目錄的系統。在虛擬聯合目錄建置的過程中，有些圖書資訊館藏查詢系統並不允許直接去擷取底層的資料庫，而僅提供圖書資訊館藏查詢系統所產生出來的網頁資料。這些由查詢系統所產生的網頁資料通常擁有共同結構網頁文件的特性，而傳統的資訊擷取方式並沒有辦法從擁有共同結構之網頁文件萃取資料。為了讓虛擬聯合目錄系統從個別的圖書資訊館藏查詢系統傳回的網頁中萃取資料，本篇論文提出了一個 Level-ID 的方法。本文所提出的 Level-ID 演算法分配每個關鍵元素唯一的 Level ID，並由使用者標示欲萃取資料的Level ID 以及所代表的意義，並將資料欄位存成結構標記檔。根據結構標記檔系統就可用來萃取擁有共同結構文件之資料。在這些資料萃取的過程中，所有的詮釋資料都以詮釋資料描述語言(Metadata Modeling Language) 來描述與儲存，以達成資料交換及資料傳遞的一致性。最後本論文並驗證Level-ID 的方法在交通大學虛擬聯合目錄系統 (VUCS@NCTU) 中的可行性。關鍵詞：資料萃取、結構化文件、共同結構、中介資料、虛擬聯合目錄系統1. 簡介由於數位圖書館系統與網際網路的迅速發展，人們可以更方便地從網路上取得資料，只要連上各個數位化圖書館的檢索網站，就可以填寫檢索字串來尋找我們欲取得的資料。但是若我們要尋找的資料不存在於該網站，則必須連線到其他網站查詢。然而並不是每個使用者都有能力找到解答，多數的使用者根本不知道欲尋找的資料究竟是位於哪一個數位圖書館，這將會造成使用者的困擾。有鑑於此，虛擬聯合目錄系統提供從分散式的數位圖書資訊環境中收集並整合圖書目錄的能力。在虛擬聯合目錄建置的過程中，由於智慧財產權以及資訊安全等因素的考慮，導致並不是所有的數位圖書館皆允許程式設計者直接去擷取底層的資料庫。而程式設計者所能擁有的資源，則是各個圖書館所提供的圖書目錄查詢系統。各個圖書館所提供的圖書目錄查詢系統所產生出來的網頁資料通常擁有結構化文件的特性，這提供了我們從共同結構網頁文件擷取資訊...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

虚拟联合目录系统中

下载后可任意编辑虛擬聯合目錄系統中擁有共同結構之網頁文件資料萃取曾志軒 1 黃夙賢 1Chih-Hsuan Tseng1 Su-Shang Huang11國立交通大學資訊科學所{chtseng, sshuang, wpyang}@cis

tw柯皓仁 2 楊維邦 1Hao-Ren Ke2 Wei-Pang Yang12國立交通大學圖書館claven@lib

tw摘要虛擬聯合目錄系統是一個從分散式的圖書資訊館藏查詢系統中收集並整合圖書目錄的系統

在虛擬聯合目錄建置的過程中，有些圖書資訊館藏查詢系統並不允許直接去擷取底層的資料庫，而僅提供圖書資訊館藏查詢系統所產生出來的網頁資料

這些由查詢系統所產生的網頁資料通常擁有共同結構網頁文件的特性，而傳統的資訊擷取方式並沒有辦法從擁有共同結構之網頁文件萃取資料

為了讓虛擬聯合目錄系統從個別的圖書資訊館藏查詢系統傳回的網頁中萃取資料，本篇論文提出了一個 Level-ID 的方法

本文所提出的 Level-ID 演算法分配每個關鍵元素唯一的 Level ID，並由使用者標示欲萃取資料的Level ID 以及所代表的意義，並將資料欄位存成結構標記檔

根據結構標記檔系統就可用來萃取擁有共同結構文件之資料

在這些資料萃取的過程中，所有的詮釋資料都以詮釋資料描述語言(Metadata Modeling Language) 來描述與儲存，以達成資料交換及資料傳遞的一致性

最後本論文並驗證Level-ID 的方法在交通大學虛擬聯合目錄系統 (VUCS@NCTU) 中的可行性

關鍵詞：資料萃取、結構化文件、共同結構、中介資料、虛擬聯合目錄系統1

簡介由於數位圖書館系統與網際網路的迅速發展，人們可以更方便地從網路上取得資料，只要連上各個數位化圖書館的檢索網站，就可以填寫檢索字串來尋找我們欲取得的資料

您可能关注的文档

雏圣文化 + 关注: 实名认证
内容提供者

欢迎光临，大量办公文档供您挑选。

收藏店铺进入空间

虚拟联合目录系统中

虚拟联合目录系统中

您可能关注的文档

相关文档

热门下载

相关标签