下载后可任意编辑虛擬聯合目錄系統中擁有共同結構之網頁文件資料萃取曾志軒 1 黃夙賢 1Chih-Hsuan Tseng1 Su-Shang Huang11國立交通大學資訊科學所{chtseng, sshuang, wpyang}@cis.nctu.edu.tw柯皓仁 2 楊維邦 1Hao-Ren Ke2 Wei-Pang Yang12國立交通大學圖書館claven@lib.nctu.edu.tw摘要虛擬聯合目錄系統是一個從分散式的圖書資訊館藏查詢系統中收集並整合圖書目錄的系統。在虛擬聯合目錄建置的過程中,有些圖書資訊館藏查詢系統並不允許直接去擷取底層的資料庫,而僅提供圖書資訊館藏查詢系統所產生出來的網頁資料。這些由查詢系統所產生的網頁資料通常擁有共同結構網頁文件的特性,而傳統的資訊擷取方式並沒有辦法從擁有共同結構之網頁文件萃取資料。為了讓虛擬聯合目錄系統從個別的圖書資訊館藏查詢系統傳回的網頁中萃取資料,本篇 論文提出了一個 Level-ID 的方法。本文所提 出的 Level-ID 演算法分配每個關鍵元素唯一 的 Level ID,並由使用者標示欲萃取資料的Level ID 以及所代表的意義,並將資料欄位存成結構標記檔。根據結構標記檔系統就可用來萃取擁有共同結構文件之資料。在這些資料萃取的過程中,所有的詮釋資料都以詮 釋 資 料 描 述 語 言(Metadata Modeling Language) 來描述與儲存,以達成資料交換及資料傳遞的一致性。最後本論文並驗證Level-ID 的方法在交通大學虛擬聯合目錄系 統 (VUCS@NCTU) 中的可行性。關鍵詞:資料萃取、結構化文件、共同結構、中介資料、虛擬聯合目錄系統1. 簡介由於數位圖書館系統與網際網路的迅速發展,人們可以更方便地從網路上取得資料,只要連上各個數位化圖書館的檢索網站,就可以填寫檢索字串來尋找我們欲取得的資料。但是若我們要尋找的資料不存在於該網站,則必須連線到其他網站查詢。然而並不是每個使用者都有能力找到解答,多數的使用者根本不知道欲尋找的資料究竟是位於哪一個數位圖書館,這將會造成使用者的困擾。有鑑於此,虛擬聯合目錄系統提供從分散式的數位圖書資訊環境中收集並整合圖書目錄的能力。在虛擬聯合目錄建置的過程中,由於智慧財產權以及資訊安全等因素的考慮,導致並不是所有的數位圖書館皆允許程式設計者直接去擷取底層的資料庫。而程式設計者所能擁有的資源,則是各個圖書館所提供的圖書目錄查詢系統。各個圖書館所提供的圖書目錄查詢系統所產生出來的網頁資料通常擁有結構化文件的特性,這提供了我們從共同結構網頁文件擷取資訊...