分析評(píng)價(jià)管理模塊是系統(tǒng)的主要部分之一,設(shè)置了分析活動(dòng)管理子模塊、活動(dòng)狀態(tài)監(jiān)控子模塊、挖掘庫(kù)管理子模塊和數(shù)據(jù)管理子模塊。
分析活動(dòng)管理器對(duì)分析活動(dòng)進(jìn)行管理,增加分析活動(dòng)、查詢分析活動(dòng)、設(shè)置分析參數(shù)等,能夠根據(jù)各個(gè)分析活動(dòng)的先后順序和權(quán)限進(jìn)行活動(dòng)的排序,結(jié)合活動(dòng)所需的條件和活動(dòng)狀態(tài)監(jiān)控器的反饋信息安排活動(dòng)。分析活動(dòng)管理的任務(wù)分解策略將在3.2.2中詳細(xì)敘述。
客戶關(guān)系分析評(píng)價(jià)系統(tǒng)中可以同時(shí)運(yùn)行多個(gè)不同的分析任務(wù),不同的操作者可能同時(shí)運(yùn)行相同的或不同的分析任務(wù),任務(wù)在運(yùn)行過(guò)程中,可能會(huì)出現(xiàn)資源爭(zhēng)用問(wèn)題或其他異常問(wèn)題等,為此,專門設(shè)置了活動(dòng)狀態(tài)監(jiān)控器?;顒?dòng)狀態(tài)監(jiān)控器能監(jiān)控正在執(zhí)行的活動(dòng)的狀態(tài)和待執(zhí)行活動(dòng)所需的各種條件,及時(shí)反饋各種錯(cuò)誤信息等。
挖掘庫(kù)管理子模塊主要提供對(duì)挖掘庫(kù)的整體管理,包括連接挖掘庫(kù)、斷開挖掘庫(kù)、打開挖掘庫(kù)、增加挖掘庫(kù)、存儲(chǔ)挖掘庫(kù)、刪除挖掘庫(kù)和查詢挖掘庫(kù),任何對(duì)挖掘庫(kù)的操作必須在打開了一個(gè)挖掘庫(kù)以后才能進(jìn)行,而系統(tǒng)的任意運(yùn)行時(shí)刻最多只能打開一個(gè)挖掘庫(kù)。
數(shù)據(jù)管理子模塊負(fù)責(zé)對(duì)分析所需的數(shù)據(jù)源的操作,這組操作主要包括定義數(shù)據(jù)源、查詢數(shù)據(jù)庫(kù)信息、增加數(shù)據(jù)源、查詢數(shù)據(jù)源信息等。
某分析任務(wù)到達(dá)分析評(píng)價(jià)管理模塊后,產(chǎn)生一個(gè)挖掘活動(dòng),活動(dòng)管理子模塊負(fù)責(zé)管理該活動(dòng),活動(dòng)所需的各種條件得到滿足后,活動(dòng)管理子模塊通知挖掘庫(kù)管理子模塊和數(shù)據(jù)管理子模塊,將分析所需的分析模版和數(shù)據(jù)傳輸給分析評(píng)價(jià)操作模塊,進(jìn)而進(jìn)行具體分析。
(3)分析,挖掘庫(kù)分析/挖掘庫(kù)所保存的挖掘操作是指包括數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)挖掘在內(nèi)的所有操作。每種分析任務(wù)都對(duì)應(yīng)一個(gè)分析模版,分析模版統(tǒng)一存放在挖掘庫(kù)中,每個(gè)分析模版存儲(chǔ)如下信息:該分析指標(biāo)采用什么算法、操作的名稱、操作順序、數(shù)據(jù)源信息、挖掘操作的參數(shù)設(shè)置以及挖掘的結(jié)果等。在挖掘庫(kù)中存放的這些操作信息是有順序的(用戶進(jìn)行這些操作的順序),這是因?yàn)椤獋€(gè)數(shù)據(jù)挖掘操作在整個(gè)知識(shí)發(fā)現(xiàn)過(guò)程中往往不是孤立的,它所使用的數(shù)據(jù)源常常是另一個(gè)數(shù)據(jù)挖掘操作的結(jié)果,而它的挖掘結(jié)果又有可能是其他操作的數(shù)據(jù)源。所以,保留挖掘順序?qū)嶋H上就是保留了挖掘操作之問(wèn)的這種關(guān)系,這無(wú)論對(duì)用戶理解挖掘結(jié)果還是以后重新進(jìn)行挖掘都是有幫助的。因此,我們的系統(tǒng)能夠很方便地實(shí)現(xiàn)把一個(gè)挖掘操作的結(jié)果作為另一個(gè)挖掘操作的輸入。
(4)數(shù)據(jù)預(yù)處理模塊數(shù)據(jù)預(yù)處理模塊的主要功能是定義數(shù)據(jù)源、格式化數(shù)據(jù)源以及過(guò)濾數(shù)據(jù)源。該模塊對(duì)整個(gè)系統(tǒng)的可用性非常重要,它可以分為以下幾個(gè)子模塊:
數(shù)據(jù)映射:將源表中的數(shù)據(jù)映射成ID形式,并生成對(duì)照表(ID和原始值的對(duì)照)。此功能的目的是把不同形式的數(shù)據(jù)映射成統(tǒng)一的、可供挖掘模塊操作的形式。
類型映射:對(duì)源表中所列數(shù)據(jù)類型進(jìn)行強(qiáng)制類型轉(zhuǎn)換。之所以需要這個(gè)功能,是因?yàn)樵跀?shù)據(jù)庫(kù)中不同的數(shù)據(jù)類型很多,數(shù)據(jù)挖掘算法只支持其中最基本的幾種。
列映射:該子模塊從源表中提取所需要的列,以減少數(shù)據(jù)量,提高系統(tǒng)的效率。
數(shù)據(jù)清理:該子模塊負(fù)責(zé)對(duì)數(shù)據(jù)集中的空缺數(shù)據(jù)、噪聲數(shù)據(jù)和不一致數(shù)據(jù)等進(jìn)行處理。
(5)存儲(chǔ)控制模塊系統(tǒng)假設(shè)數(shù)據(jù)源存放在數(shù)據(jù)庫(kù)中,由存儲(chǔ)控制模塊對(duì)數(shù)據(jù)庫(kù)統(tǒng)一進(jìn)行操作。對(duì)于存放在外部文件中的數(shù)據(jù),需要使用數(shù)據(jù)庫(kù)管理系統(tǒng)提供的導(dǎo)入工具把數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)以后再進(jìn)行挖掘操作。當(dāng)前,系統(tǒng)的數(shù)據(jù)源存放在SQLServer2000中,從可移植性的角度考慮,使用JDBC作為底層的接口,對(duì)存儲(chǔ)控制的封裝高于JDBC存儲(chǔ)控制的封裝,這是因?yàn)閿?shù)據(jù)挖掘應(yīng)用不同于一般的數(shù)據(jù)庫(kù)應(yīng)用程序,它對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)頻繁,而每次對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)都會(huì)耗費(fèi)一定的時(shí)間和資源。對(duì)于數(shù)據(jù)挖掘操作來(lái)說(shuō),對(duì)大數(shù)據(jù)量的處理能力和處理效率是一個(gè)根本的問(wèn)題,所以,由系統(tǒng)來(lái)進(jìn)行緩沖和內(nèi)存索引就非常重要。
存儲(chǔ)控制模塊的功能主要體現(xiàn)在3個(gè)方面:
對(duì)連接數(shù)據(jù)庫(kù)、管理外部文件以及交換外部文件和內(nèi)存的內(nèi)容等較為底層的操作進(jìn)行封裝。
負(fù)責(zé)緩沖管理。具體地說(shuō),該模塊為數(shù)據(jù)源、數(shù)據(jù)挖掘中間結(jié)果以及挖掘結(jié)果分別申請(qǐng)緩沖區(qū),并保證其駐留在內(nèi)存中。
提供簡(jiǎn)單的數(shù)據(jù)格式轉(zhuǎn)換。不同于數(shù)據(jù)預(yù)處理模塊提供的數(shù)據(jù)格式轉(zhuǎn)換,該功能主要彌補(bǔ)關(guān)系數(shù)據(jù)庫(kù)不能存儲(chǔ)不規(guī)則格式數(shù)據(jù)的問(wèn)題,在向緩沖區(qū)中存放數(shù)據(jù)以前對(duì)事務(wù)記錄進(jìn)行重新拼接。
(6)分析評(píng)價(jià)操作模塊不同的挖掘操作模塊負(fù)責(zé)不同的數(shù)據(jù)挖掘操作。它們彼此之間相對(duì)獨(dú)立,共間之處是都受到挖掘庫(kù)管理模塊的管理,通過(guò)存儲(chǔ)控制模塊獲得數(shù)據(jù),并把結(jié)果寫入挖掘庫(kù)。
信息發(fā)布:廣州名易軟件有限公司 http://www.jetlc.com