我國高校信息化建設(shè)經(jīng)過多年的發(fā)展,各個高校都開發(fā)了許多業(yè)務(wù)應(yīng)用系統(tǒng),應(yīng)用系統(tǒng)給日常數(shù)據(jù)管理帶來了很大的便捷,然而隨著時間的推移,高校應(yīng)用系統(tǒng)數(shù)據(jù)主要存在以下四個問題:
1.數(shù)據(jù)冗余和數(shù)據(jù)不一致
目前高校應(yīng)用系統(tǒng)中積累了大量的基礎(chǔ)數(shù)據(jù),各個應(yīng)用系統(tǒng)的運行使用都是基于基礎(chǔ)數(shù)據(jù)之上的,但是如果某個系統(tǒng)中的基礎(chǔ)數(shù)據(jù)發(fā)生修改,其余的應(yīng)用系統(tǒng)卻仍然使用原有的數(shù)據(jù),這樣就造成了數(shù)據(jù)的重復(fù)性和多樣性。
2.信息資源可用程度較低
高校一些應(yīng)用系統(tǒng)集成度低、互聯(lián)性差,數(shù)據(jù)的完整性、及時性已經(jīng)越來越不能滿足日常業(yè)務(wù)的需求。高校單位雖然已經(jīng)建立了內(nèi)部網(wǎng)和互聯(lián)網(wǎng),但多年來由于應(yīng)用系統(tǒng)大多為分散開發(fā),應(yīng)用系統(tǒng)之間形成了信息孤島,缺乏可共享的、可用度高的信息資源體系。
3.信息資源存儲空間利用率低
高?;A(chǔ)數(shù)據(jù)都分散在各個應(yīng)用系統(tǒng)中,應(yīng)用系統(tǒng)重復(fù)的基礎(chǔ)數(shù)據(jù)和業(yè)務(wù)邏輯數(shù)據(jù)會對信息資源存儲造成極大的浪費。并且由于物理存儲中垃圾信息較多,也會影響應(yīng)用系統(tǒng)的有效信息查詢速度。
4.缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范
由于各個高校應(yīng)用系統(tǒng)中缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范,所以無法從龐大的基礎(chǔ)數(shù)據(jù)中形成有效的數(shù)據(jù)積累,并且在數(shù)據(jù)統(tǒng)計和上報時準(zhǔn)確性不高,無法給領(lǐng)導(dǎo)決策提供有效的數(shù)據(jù)支持。
以上問題使得大量的高?;A(chǔ)數(shù)據(jù)處于低水平的自治共享上,眾多數(shù)據(jù)資源成為孤立、離散的信息孤島,有必要對其進行整合,建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),進行大范圍、有效的數(shù)據(jù)交換共享。
二、文獻綜述 1.ETL技術(shù)
ETL,是英文單詞(Extract,Transform,Load)三個單詞的縮寫,用來描述將數(shù)據(jù)從源端數(shù)據(jù)源經(jīng)過抽取(Extract)、轉(zhuǎn)換(Transform)、加載(Load)至目的端數(shù)據(jù)倉庫的過程。ETL是構(gòu)建數(shù)據(jù)倉庫的重要步驟,如果把數(shù)據(jù)比作構(gòu)建高樓大廈的磚瓦,那么ETL就是建造高樓大廈的過程。
ETL過程中,抽取主要是解決數(shù)據(jù)異構(gòu)的問題,可以看做是從多個數(shù)據(jù)源將數(shù)據(jù)輸入到統(tǒng)一的數(shù)據(jù)存儲中。數(shù)據(jù)的轉(zhuǎn)換和清洗是解決臟數(shù)據(jù)的問題,其主要任務(wù)就是檢測和修復(fù)臟數(shù)據(jù)(消除錯誤或者不一致的數(shù)據(jù)),提高數(shù)據(jù)質(zhì)量[1]。數(shù)據(jù)加載則是將處理后的數(shù)據(jù)從統(tǒng)一的數(shù)據(jù)存儲加載到目的端數(shù)據(jù)倉庫中,傳統(tǒng)的ETL轉(zhuǎn)換模式如圖1所示。
圖1傳統(tǒng)的ETL轉(zhuǎn)換模式 圖2ODI(E-LT)轉(zhuǎn)換模式 2.OracleDataIntegrator
OracleDataIntegrator(簡稱ODI)是一個功能全面的數(shù)據(jù)集成工具,與Oracle數(shù)據(jù)庫配合使用,可進行高性能批量加載,支持事件驅(qū)動和SOA數(shù)據(jù)服務(wù)。
在圖2中大家可以看出,在E-LT結(jié)構(gòu)中,首先從各個數(shù)據(jù)源中抽取數(shù)據(jù),然后把數(shù)據(jù)直接裝載到目標(biāo)數(shù)據(jù)庫中,在目標(biāo)數(shù)據(jù)庫中完成數(shù)據(jù)的轉(zhuǎn)換工作。傳統(tǒng)的ETL轉(zhuǎn)換由于需要ETL服務(wù)器,所以需要額外的硬件投入,而E-LT轉(zhuǎn)換過程省略了中間節(jié)點,充分利用了目標(biāo)數(shù)據(jù)庫服務(wù)器,減少了解決方案的成本。
3.高校異構(gòu)數(shù)據(jù)整合研究現(xiàn)狀
圍繞數(shù)據(jù)整合和ETL技術(shù)這兩個方面,國內(nèi)外研究人員進行了一系列的研究工作。關(guān)于ETL技術(shù)方面,2003年通過UML標(biāo)準(zhǔn)化來對ETL過程中不同數(shù)據(jù)源和目標(biāo)之間的轉(zhuǎn)換屬性進行重新的定義,避免出現(xiàn)錯誤的商業(yè)決策[2]。2005年Simits,A給出了ETL工作流算法,對ETL中的執(zhí)行時間進行優(yōu)化操作[3]。2007年牟青等以自行開發(fā)的異構(gòu)數(shù)據(jù)整合工具為背景,討論了審計監(jiān)控子系統(tǒng)的設(shè)計與實現(xiàn)方法[4]。2012年唐鈺等提出了一種基于逆向清理的異構(gòu)數(shù)據(jù)整合模型,該模型能同時提高原始數(shù)據(jù)和目標(biāo)數(shù)據(jù)的質(zhì)量[5]。關(guān)于數(shù)據(jù)中心建設(shè),2006年王涌通過從數(shù)據(jù)中心標(biāo)準(zhǔn)集的建設(shè)出發(fā),結(jié)合本校示例對實施過程中的相關(guān)問題進行了討論和研究[6]。2008年陸子平從硬件建設(shè)角度介紹了高校數(shù)據(jù)中心的建設(shè)思路和架構(gòu)[7];2012年孟凡立等對高校數(shù)據(jù)中心關(guān)鍵設(shè)備的選擇及虛擬化進行了深入分析,從云計算平臺的角度給出了一套數(shù)據(jù)中心建設(shè)方案[8]。
以上研究工作的重點只是單單從硬件角度給出數(shù)據(jù)中心設(shè)計方案或者只是從ETL技術(shù)層面來給出如何優(yōu)化數(shù)據(jù)清洗整合的過程,而對于如何從結(jié)合高校本身的特點來對高校數(shù)據(jù)進行整合卻沒有給予太多的關(guān)注。鑒于以上問題,本文的研究重點是從實際應(yīng)用出發(fā),根據(jù)高校業(yè)務(wù)系統(tǒng)的實際應(yīng)用情況,討論高校數(shù)據(jù)標(biāo)準(zhǔn)集設(shè)計方法,給出幾種不同的數(shù)據(jù)通用交換模型,以此來提高高校業(yè)務(wù)系統(tǒng)數(shù)據(jù)的利用率。
信息發(fā)布:廣州名易軟件有限公司 http://www.jetlc.com