對于醫(yī)院積累的大量臨床信息,我們通常只是檢索某位特定病人相關(guān)的信息,或者一些簡單的數(shù)量統(tǒng)計,而蘊藏在這些大量信息當(dāng)中人們事先不知道、但是又潛在有用的知識往往被忽略。究其原因,其一,面對這些海量信息,普通的檢索方式效率低下,甚至經(jīng)常出現(xiàn)檢索超時出錯等;其二,常規(guī)的統(tǒng)計查詢往往得到的是一些簡單的類似于數(shù)量總和的統(tǒng)計結(jié)果,不能很好地反映數(shù)據(jù)分布等特點,因此對于科研統(tǒng)計意義不大。本文將提出一種基于聯(lián)機分析處理(OLAP)技術(shù)的海量病人數(shù)據(jù)挖掘方法,使用這種方法可以快速高效地獲取檢索的結(jié)果,并且以一種新的多維度、可變換的方式來分析我們檢索的結(jié)果。在介紹海量病人數(shù)據(jù)挖掘方法之前,我們先舉一個簡單的例子:假如在我院現(xiàn)有HIS系統(tǒng)的基礎(chǔ)上,要得到關(guān)于某類疾病發(fā)病率的以下統(tǒng)計結(jié)果:(1)每年該疾病的發(fā)病率;(2)每季度該疾病的發(fā)病率;(3)該疾病患者的地域分布;(4)該疾病患者當(dāng)中,男女比例各占多少;(5)該疾病患者當(dāng)中,各年齡層當(dāng)中患病的比例是多少;(6)該疾病患者當(dāng)中,各年齡層患者的男女比例是多少。設(shè)想一下,如果我們使用常規(guī)的檢索方式去統(tǒng)計這些結(jié)果,往往都需要做好幾次查詢統(tǒng)計,而且目前一般的軟件都很難提供這種伸縮性很強的統(tǒng)計查詢工具或人機交互界面。即使是專業(yè)的數(shù)據(jù)庫管理員(DBA)也需要非常復(fù)雜的查詢函數(shù)才能得到這些統(tǒng)計結(jié)果,而且對于海量數(shù)據(jù)信息時,往往這些查詢函數(shù)效率極其低下。使用基于聯(lián)機分析處理(OLAP)技術(shù)的海量病人數(shù)據(jù)挖掘方法,可以很好地滿足諸如此類的科研統(tǒng)計需求。聯(lián)機分析處理(OLAP)能夠使分析人員快速獲取多維度檢索結(jié)果,而且對檢索結(jié)果可以從不同的維度或者不同的維度組合進行觀察和分析,從而獲得對數(shù)據(jù)更深入的了解?;诼?lián)機分析處理(OLAP)技術(shù)的海量病人數(shù)據(jù)挖掘方法是結(jié)合病人數(shù)據(jù)的特點及常見的科研統(tǒng)計需求,定義科研統(tǒng)計所需要的維度,將海量的病人數(shù)據(jù)構(gòu)建為病人數(shù)據(jù)挖掘倉庫,從而實現(xiàn)高效的科研統(tǒng)計分析服務(wù)。病人數(shù)據(jù)挖掘倉庫主要包含病人的就診信息表和多個統(tǒng)計量分布表。病人就診信息表包含了所有病人的就診信息,比如病人姓名、性別、年齡、家庭住址、就診日期、檢查科室、診斷結(jié)論等等。我們稱病人就診信息表為事實表(FactTableo每一個統(tǒng)計量,比如性別、年齡、就診日期等,我們稱之為維度(Dimension),一個或多個相關(guān)聯(lián)的維度構(gòu)成一個維度表,維度表中定義了所有可能的維度(或多個維度組合)的值,比如,性別維度表中包含了兩個值:男和女。通常,我們需要按照科研統(tǒng)計的需要構(gòu)建特定的維度。比如,在前面提到的關(guān)于某類疾病發(fā)病率的以下統(tǒng)計任務(wù)中,我們將需要定義以下維度(表1):基于聯(lián)機分析處理(OLAP)技術(shù)的海量病人數(shù)據(jù)挖掘首先根據(jù)事實表和定義的維度表,計算各種維度組合情況下的統(tǒng)計值,我們稱為度量表(Measureo這些度量值是通過對事實表中的記錄做聚集計算(Aggregation)而得來的,一般都是通過做累計記數(shù)(COUNT),當(dāng)然有時候也會使用求和fSUM),比如關(guān)于費用、劑量等信息的相關(guān)統(tǒng)計。生成這些度量信息之后,使用聯(lián)機分析處理(OLAP)定義的多維度分析操作方法鉆取(rollup和drilldown),切片(slice)、切塊(dice)、旋轉(zhuǎn)(pivot)等,完成對數(shù)據(jù)的分析、查詢和報表。常用的多維度分析方法是鉆取(rollup和drilldown),比如我們知道了某個疾病在各個年齡層中的發(fā)病率,那么通過drilldown操作添加一個性別維度,即可得到該疾病發(fā)在各年齡層中男、女發(fā)病率的比例。
海量病人數(shù)據(jù)挖掘的難度在于維度的定義,維度的定義直接影響度量表計算過程以及我們分析問題的角度。通常需要分析科研統(tǒng)計的需求,定義切合統(tǒng)計需求的維度。目前主流的商業(yè)數(shù)據(jù)庫中已經(jīng)提供了多維度數(shù)據(jù)挖掘的工具,比如SQLServer2005的AnalysisService,即提供了構(gòu)建數(shù)據(jù)倉庫和執(zhí)行多維度數(shù)據(jù)分析的功能。但是,正如前面所說的我們,需要結(jié)合病人信息的特點和科研統(tǒng)計的需求,定義我們需要的維度,從而構(gòu)建合理的病人數(shù)據(jù)挖掘倉庫。4結(jié)束語隨著醫(yī)療改革的穩(wěn)步推進和數(shù)字化醫(yī)療的發(fā)展,醫(yī)院的數(shù)據(jù)量會不斷增加,醫(yī)院的信息化建設(shè)會不斷成熟,更多醫(yī)療信息將會產(chǎn)生,既有來自醫(yī)院內(nèi)部信息,也有更多來自其他醫(yī)療機構(gòu)共享的信息。挖掘這些急劇增長的大量信息,不僅有利于個體病人的臨床診斷,也有利于對大局的把握和認(rèn)知,從而為我們的臨床研究、疾病預(yù)防和相關(guān)決策提供重要的依據(jù)。希望我們在建設(shè)數(shù)字化醫(yī)院的同時,不僅重視收集存儲各類臨床信息,也要重視對已有信息的分析和再認(rèn)識,通過數(shù)據(jù)挖掘發(fā)現(xiàn)其趨勢、規(guī)律和異常,為醫(yī)院建設(shè)及科研服務(wù)。
信息發(fā)布:廣州名易軟件有限公司 http://www.jetlc.com