虛擬聯合目錄系統中擁有共同結構之網頁文件資料萃取曾志軒1黃夙賢1Chih-HsuanTseng1Su-ShangHuang11國立交通大學資訊科學所{chtseng,sshuang,wpyang}@cis
tw柯皓仁2楊維邦1Hao-RenKe2Wei-PangYang12國立交通大學圖書館claven@lib
tw摘要虛擬聯合目錄系統是一個從分散式的圖書資訊館藏查詢系統中收集並整合圖書目錄的系統
在虛擬聯合目錄建置的過程中,有些圖書資訊館藏查詢系統並不允許直接去擷取底層的資料庫,而僅提供圖書資訊館藏查詢系統所產生出來的網頁資料
這些由查詢系統所產生的網頁資料通常擁有共同結構網頁文件的特性,而傳統的資訊擷取方式並沒有辦法從擁有共同結構之網頁文件萃取資料
為了讓虛擬聯合目錄系統從個別的圖書資訊館藏查詢系統傳回的網頁中萃取資料,本篇論文提出了一個Level-ID的方法
本文所提出的Level-ID演算法分配每個關鍵元素唯一的LevelID,並由使用者標示欲萃取資料的LevelID以及所代表的意義,並將資料欄位存成結構標記檔
根據結構標記檔系統就可用來萃取擁有共同結構文件之資料
在這些資料萃取的過程中,所有的詮釋資料都以詮釋資料描述語言(MetadataModelingLanguage)來描述與儲存,以達成資料交換及資料傳遞的一致性
最後本論文並驗證Level-ID的方法在交通大學虛擬聯合目錄系統(VUCS@NCTU)中的可行性
關鍵詞:資料萃取、結構化文件、共同結構、中介資料、虛擬聯合目錄系統1
簡介由於數位圖書館系統與網際網路的迅速發展,人們可以更方便地從網路上取得資料,只要連上各個數位化圖書館的檢索網站,就可以填寫檢索字串來尋找我們欲取得的資料
但是若我們要尋找的資料不存在於該網站,則必須連線到其他網站查詢
然而並不是每個使用者都有能力找