虚拟联合目录系统中VIP免费

下载本文档

阅读 52
下载 13
格式 docx
大小 221.07 KB
约8页
2024-11-03 发布于河南
收藏
评论
点赞(0)
海报
举报

1/8页

2/8页

3/8页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

虛擬聯合目錄系統中擁有共同結構之網頁文件資料萃取曾志軒1黃夙賢1Chih-HsuanTseng1Su-ShangHuang11國立交通大學資訊科學所{chtseng,sshuang,wpyang}@cis.nctu.edu.tw柯皓仁2楊維邦1Hao-RenKe2Wei-PangYang12國立交通大學圖書館claven@lib.nctu.edu.tw摘要虛擬聯合目錄系統是一個從分散式的圖書資訊館藏查詢系統中收集並整合圖書目錄的系統。在虛擬聯合目錄建置的過程中，有些圖書資訊館藏查詢系統並不允許直接去擷取底層的資料庫，而僅提供圖書資訊館藏查詢系統所產生出來的網頁資料。這些由查詢系統所產生的網頁資料通常擁有共同結構網頁文件的特性，而傳統的資訊擷取方式並沒有辦法從擁有共同結構之網頁文件萃取資料。為了讓虛擬聯合目錄系統從個別的圖書資訊館藏查詢系統傳回的網頁中萃取資料，本篇論文提出了一個Level-ID的方法。本文所提出的Level-ID演算法分配每個關鍵元素唯一的LevelID，並由使用者標示欲萃取資料的LevelID以及所代表的意義，並將資料欄位存成結構標記檔。根據結構標記檔系統就可用來萃取擁有共同結構文件之資料。在這些資料萃取的過程中，所有的詮釋資料都以詮釋資料描述語言(MetadataModelingLanguage)來描述與儲存，以達成資料交換及資料傳遞的一致性。最後本論文並驗證Level-ID的方法在交通大學虛擬聯合目錄系統(VUCS@NCTU)中的可行性。關鍵詞：資料萃取、結構化文件、共同結構、中介資料、虛擬聯合目錄系統1.簡介由於數位圖書館系統與網際網路的迅速發展，人們可以更方便地從網路上取得資料，只要連上各個數位化圖書館的檢索網站，就可以填寫檢索字串來尋找我們欲取得的資料。但是若我們要尋找的資料不存在於該網站，則必須連線到其他網站查詢。然而並不是每個使用者都有能力找到解答，多數的使用者根本不知道欲尋找的資料究竟是位於哪一個數位圖書館，這將會造成使用者的困擾。有鑑於此，虛擬聯合目錄系統提供從分散式的數位圖書資訊環境中收集並整合圖書目錄的能力。在虛擬聯合目錄建置的過程中，由於智慧財產權以及資訊安全等因素的考慮，導致並不是所有的數位圖書館皆允許程式設計者直接去擷取底層的資料庫。而程式設計者所能擁有的資源，則是各個圖書館所提供的圖書目錄查詢系統。各個圖書館所提供的圖書目錄查詢系統所產生出來的網頁資料通常擁有結構化文件的特性，這提供了我們從共同結構網頁文件擷取資訊的契機。傳統的資訊擷取技術，並沒有辦法從文章中擷取結構化資訊。於是許多的研究人員都致力在結構化文件的相關研究[1]。所謂的結構化文件就是把文章結構包含在文件裡面的文件[8]，通常這類型的文件是由標籤語言如XML、SGML或HTML所描述而成。擁有文章結構特性的文件允許我們擷取到更細部的結構資料，而不僅僅只能擷取到文件所呈現的文字內容(Content)。從結構化的文件中擷取資料和從資料庫中擷取有著相當大的不同，資料庫擁有表格結構(Schema)，透過表格結構便可以直接從已定義好的表格中擷取出資料。但結構畫文件並沒有類似表格結構的概念，因此我們必須先對結構化文件的結構作分析，然後才能對文件作資料萃取。在過去的研究中，已經有很多有效率的索引方法及結構化文件的資料擷取方法被提出[3,5,8]。在[5]這篇論文中，使用了識別碼(UID--UniqueelementIdentifier)和k-arytree來減少建置索引時所必須佔用的儲存空間。UID的設計是用來描述文章結構的資訊，而k-arytree則是用來快速地搜尋元素(Element)儲存位置並便於存取各元素。在[8]這篇論文中將UID的概念擴充為GID(GeneralelementIdentifier)，其目的在於支援多種不同型態的結構化文件，此篇論文也提出了一個名為BUS(BottomUpScheme)的設計模組來整合索引及檢索的效能評估，並驗證了該方法的可行性與效率。在[3]這篇論文中則使用了SCL(SimpleConcordanceList)來模組化結構化文件，並支援多種不同層次的檢索。SCL利用每個元素與內容出現的位置來做為其識別碼，不但簡單也提供了夠充分的檢索層次給使用者。綜觀以上的論文，不難發現雖然已有很多關於結構化文件資料擷取的研究，但卻很少有人從事於擁有共同結構之網頁文件的資料萃取的研究。對於一個欲整合多個數位圖書館的系統而言，這是...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

虚拟联合目录系统中

虛擬聯合目錄系統中擁有共同結構之網頁文件資料萃取曾志軒1黃夙賢1Chih-HsuanTseng1Su-ShangHuang11國立交通大學資訊科學所{chtseng,sshuang,wpyang}@cis

tw柯皓仁2楊維邦1Hao-RenKe2Wei-PangYang12國立交通大學圖書館claven@lib

tw摘要虛擬聯合目錄系統是一個從分散式的圖書資訊館藏查詢系統中收集並整合圖書目錄的系統

在虛擬聯合目錄建置的過程中，有些圖書資訊館藏查詢系統並不允許直接去擷取底層的資料庫，而僅提供圖書資訊館藏查詢系統所產生出來的網頁資料

這些由查詢系統所產生的網頁資料通常擁有共同結構網頁文件的特性，而傳統的資訊擷取方式並沒有辦法從擁有共同結構之網頁文件萃取資料

為了讓虛擬聯合目錄系統從個別的圖書資訊館藏查詢系統傳回的網頁中萃取資料，本篇論文提出了一個Level-ID的方法

本文所提出的Level-ID演算法分配每個關鍵元素唯一的LevelID，並由使用者標示欲萃取資料的LevelID以及所代表的意義，並將資料欄位存成結構標記檔

根據結構標記檔系統就可用來萃取擁有共同結構文件之資料

在這些資料萃取的過程中，所有的詮釋資料都以詮釋資料描述語言(MetadataModelingLanguage)來描述與儲存，以達成資料交換及資料傳遞的一致性

最後本論文並驗證Level-ID的方法在交通大學虛擬聯合目錄系統(VUCS@NCTU)中的可行性

關鍵詞：資料萃取、結構化文件、共同結構、中介資料、虛擬聯合目錄系統1

簡介由於數位圖書館系統與網際網路的迅速發展，人們可以更方便地從網路上取得資料，只要連上各個數位化圖書館的檢索網站，就可以填寫檢索字串來尋找我們欲取得的資料

但是若我們要尋找的資料不存在於該網站，則必須連線到其他網站查詢

然而並不是每個使用者都有能力找

您可能关注的文档

状元书阁 + 关注: 实名认证
内容提供者

爱好英语教学和互联网行业，热爱教育事业，兢兢业业

收藏店铺进入空间

虚拟联合目录系统中VIP免费

虚拟联合目录系统中

您可能关注的文档

相关文档

热门下载

相关标签