电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

资料品质及资料净化技术之探究VIP免费

资料品质及资料净化技术之探究_第1页
1/11
资料品质及资料净化技术之探究_第2页
2/11
资料品质及资料净化技术之探究_第3页
3/11
第1页共11页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第1页共11页資料品質及資料淨化技術之探究-以環保部門資訊整合為例連志誠黃素梅東吳大學資訊科學系朱雨其行政院環保署監測資訊處摘要隨著公私企業部門對整合性資訊系統及資料倉儲應用的日益普及,「資料品質」已成為當前資訊系統建構過程及日常操作應用的一項重要課題。由於單一資料來源的資料品質控管程序與多個資料來源的控管程序差異甚大,現行資料倉儲相關技術可否有效提昇資料整合後的資料品質問題,頗值得探討。事實上,資料品質的問題在傳統資料庫與整合性資訊系統(或資料倉儲)有相當差異,在資料整合過程中,來源資料因為使用者輸入錯誤或組織環境隨著時間的推移而改變,這些都會影響所存放資料的品質。本文旨在探討在資料品質的特性及現行提昇資料品質的學理背景及實作方法,特別是資料淨化(datacleaning)技術的相關討論,並以環保部門的資訊整合應用實例輔助說明,以期對資料品質課題有通盤性之瞭解與掌握。關鍵詞:資料品質、資料淨化、資訊整合系統、資料倉儲第2页共11页第1页共11页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第2页共11页AStudyonApplyingDataQualityandDataCleaningTechnologiestoGovernmentDataIntegrationChih-ChengLien,Su-MeiHuang,Dept.ofComputerScience,SoochowUniversityYu-ChiChu,Dept.ofInformationManagement,EPAABSTRACTRecentlydataintegrationamongthedepartmentsofgovernmenthasproposedasanimportantworktoincreasethequalityoftheservicesprovidedbygovernment.Dataqualityisonemajorfactortomakeasuccessfuldataintegration.Inthispaper,weproposedanapproachwhichadvancesthecurrentdataintegrationapproachofgovernmentwithdataminingtechnologies.WestudytheprocessofdataintegrationintheEnvironmentalProtectionAdministrationExecutiveYuan(EPA)ofTaiwan.Thenwedefinesomemetricsofdataqualitytodetectandprotectthedataproducedsomeunfavorablebehaviorssuchastypingerror,unauthorizeddata,databecomeoutofdate,etc.Finally,wedesignalotofrulestoguardthequalityofthedataintherelateddatabasesinEPA.WegotabetterdataqualitywithourapproachthanthatofthecurrentapproachfromEPAdatabases.Keyword:Datacleaning,dataquality,datawarehouses,informationintegrationsystems第3页共11页第2页共11页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第3页共11页1.前言根據DataWarehousingInstitute的一份調查報告顯示[8],美國企業因資料品質的問題,每年損失6千億美元。由於網際網路之便捷及資料庫技術之發展,使得資料整合系統之建置日益普遍。在資料整合計畫開始後,大多數企業會採行資料倉儲技術,同時運用資料擷取、轉換並載入(Eliction,Transform,Load,ETL)作業程序,將各個不同來源的資料整合匯入資料倉儲。在資料擷取的階段中,原有的資料必須經由檢視,找出其中問題或錯誤,並且儘可能解決這些問題。惟以往多以人工方式來清理資料,不僅成本高,也相當耗時,而且效果有限。DataWarehousingInstitute便發現在員工基本資料中,大約會出現76%的錯誤,進而產生有瑕疵的資料。一個主要的因素是資料來源本身充滿了許多有問題的資料,是以如何有效地處理資料整合系統或是資料倉儲環境所衍生的資料品質問題,已是當前學術界與實務界亟為關注的課題。一般來說,資料倉儲可視為一種整合性的資料儲存體,其內部所儲存的資料是由多個分散式、自主性及異質性的資訊源中,萃取並整合而來的,由此相對地更突顯出資料倉儲中資料品質問題的重要性。換句話說,決定資料倉儲系統是否能夠開發成功以及有效運作發揮實際功效的一項關鍵因素,取決於資料倉儲系統內部所儲存資料的品質是否足以適用。資料品質的問題在傳統資料庫與資料倉儲中最大的不同在於資料倉儲中的資料主要是做為決策支援,而非操作性的交易應用。因此儲存在資料倉儲中的資料通常是歷史性資料,具有時序上的變化,是以資料品質的問題會因時間延續而加...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

资料品质及资料净化技术之探究

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部