2003年至2008年復(fù)合年增長率:8%迎接“后數(shù)據(jù)挖掘”時(shí)代
數(shù)據(jù)挖掘是預(yù)測(cè)分析技術(shù)成長的豐沃“土壤”。而在預(yù)測(cè)分析的帶動(dòng)之下,數(shù)據(jù)挖掘也開始走出以報(bào)表和查詢?yōu)橹鞯膽?yīng)用范疇,嘗試著從歷史數(shù)據(jù)中發(fā)現(xiàn)有關(guān)未來行為的線索。所以,今天的預(yù)測(cè)分析與數(shù)據(jù)挖掘存在著非常大的交集,它可以被看作是一種“后數(shù)據(jù)挖掘”時(shí)代的技術(shù)分支。
同時(shí),由于預(yù)測(cè)分析仍然處在成長期,其自身的邊界尚未完全明確。BusinessObjects中國區(qū)售前技術(shù)咨詢總監(jiān)魯百年博士就表示,目前我們很難把“預(yù)測(cè)”和“分析”剝離開,很多被劃定為預(yù)測(cè)的項(xiàng)目實(shí)際上只是進(jìn)行了預(yù)警操作,那些所謂的實(shí)時(shí)預(yù)測(cè)系統(tǒng)也基本上只具備了預(yù)警能力。不過,在未來,預(yù)測(cè)應(yīng)該會(huì)成為數(shù)據(jù)挖掘的一個(gè)獨(dú)立的組成部分。
由此可見,我們今天所享用的預(yù)測(cè)服務(wù)可能還不是純粹意義上的“預(yù)測(cè)”。但是,在多種技術(shù)的綜合作用下,預(yù)測(cè)分析通過不斷的“吐故納新”實(shí)現(xiàn)自我優(yōu)化。它對(duì)文本挖掘技術(shù)的采用就是一個(gè)很好的例證。
目前,已經(jīng)有用戶開始通過文本挖掘來提高其預(yù)測(cè)模型的準(zhǔn)確度。LoanPerformance就在原先貸款歷史、信用報(bào)告、人口統(tǒng)計(jì)學(xué)數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上,在計(jì)算模型中引入了呼叫中心人員與顧客交談的文本記錄信息。他們使用了IntelligentResults公司的工具來分析這些語言數(shù)據(jù),以確定某人是不是在說謊。而分析的重點(diǎn)在于尋找導(dǎo)致事件的原型。實(shí)踐證明,融合了文本信息的模型比標(biāo)準(zhǔn)模型的效果更好,它使得系統(tǒng)預(yù)測(cè)的準(zhǔn)確性比原始模型提高了18%。
J.D.PowerandAssociates最近也開始了文本挖掘技術(shù)的早期測(cè)試。他們正在研制一種名為ClearForest的工具,希望幫助用戶預(yù)測(cè)出比基于結(jié)構(gòu)化數(shù)據(jù)更實(shí)用的答案。SAS的EnterpriseMiner也可以根據(jù)呼叫中心對(duì)話中捕獲的文本數(shù)據(jù)進(jìn)行預(yù)測(cè)分析。
未來有多美?
成功的預(yù)測(cè)分析服務(wù)模式可以帶來巨大的回報(bào)。以國外某金融機(jī)構(gòu)為例,一個(gè)預(yù)測(cè)客戶信用風(fēng)險(xiǎn)的模型在6個(gè)月內(nèi)為該機(jī)構(gòu)節(jié)省2百萬美元,而系統(tǒng)的部署成本約為40萬美元。這種高回報(bào)導(dǎo)致了預(yù)測(cè)分析工具的銷售額大幅增長。據(jù)IDC預(yù)測(cè),預(yù)測(cè)分析工具的銷售額將在2008年時(shí)增加到30億美元,比2004年增長近40%。同時(shí)它將占據(jù)BI(商業(yè)智能)市場(chǎng)25%的份額。
如此巨大的發(fā)展前景勢(shì)必引發(fā)軟件廠商新一輪的市場(chǎng)追逐。而在這一領(lǐng)域,主要的產(chǎn)品類型可以通過功能進(jìn)行明確地劃分。目前SAS、SPSS等公司組成了專業(yè)型預(yù)測(cè)分析工具的陣營,他們所提供的產(chǎn)品具有較高的預(yù)測(cè)準(zhǔn)確性,但是應(yīng)用起來非常復(fù)雜,使用范圍有限,像SPSS主要就是面向教育、科技等專業(yè)人員的;而在應(yīng)用型預(yù)測(cè)分析工具方面,主要的成員Kxen、Unica、J.D.PowerandAssociates等,他們向用戶提供“傻瓜型”的預(yù)測(cè)工具,通常具備易用、高速等特點(diǎn)。
魯百年介紹,Kxen的抽樣水平非常高,擅長處理大型、復(fù)雜的數(shù)據(jù)結(jié)構(gòu),它在國內(nèi)的應(yīng)用比較廣泛,有8家電信運(yùn)營商正在使用這一產(chǎn)品。BusinessObjects也OEM了Kxen,希望通過這種產(chǎn)品綁定的方式幫助客戶實(shí)現(xiàn)客戶細(xì)分、預(yù)測(cè)等應(yīng)用。而這也是許多BI廠商的普遍做法。
在應(yīng)用方面,預(yù)測(cè)分析也表現(xiàn)出了驚人的行業(yè)滲透能力。除了在金融、電信等重點(diǎn)行業(yè)外,預(yù)測(cè)分析正在嘗試著幻化出更多的應(yīng)用形式。SAS大中華區(qū)解決方案總經(jīng)理曾濠生就表示,目前預(yù)測(cè)分析在零售行業(yè)的表現(xiàn)相當(dāng)活躍。據(jù)介紹,目前國內(nèi)很多大型超市都在采用基于時(shí)間序列法的購買模型,以此分析客戶的購買行為,制定吸引客戶消費(fèi)的優(yōu)惠政策。另外,海關(guān)、衛(wèi)生、公安等機(jī)構(gòu)也是預(yù)測(cè)分析的熱點(diǎn)應(yīng)用區(qū)域。而從目前客戶的需求狀況看來,與市場(chǎng)越接近、業(yè)務(wù)數(shù)據(jù)量越大的對(duì)象,與預(yù)測(cè)分析的匹配程度就越高。
兩個(gè)必要條件
技術(shù)的創(chuàng)新讓預(yù)測(cè)分析的結(jié)果不斷地向準(zhǔn)確的目標(biāo)靠近,不過目前用戶必須面對(duì)的問題是,在技術(shù)尚未完全成熟的條件下,如何通過應(yīng)用水平的提高來盡可能地保證預(yù)測(cè)的準(zhǔn)確程度。在預(yù)測(cè)分析的一些早期案例中,用戶經(jīng)常會(huì)發(fā)現(xiàn)用預(yù)測(cè)分析工具所得到的是一些不相關(guān)、幼稚甚至是錯(cuò)誤的結(jié)果。
比如,國內(nèi)某電力企業(yè),由于早期建模過程中的失誤,導(dǎo)致花費(fèi)大量資金所得出的結(jié)果根本無法成為決策參考。因此,專家建議,用戶在部署預(yù)測(cè)分析系統(tǒng)時(shí)要報(bào)以科學(xué)、謹(jǐn)慎的心態(tài),避免盲目行為。同時(shí),專家強(qiáng)調(diào),由于預(yù)測(cè)是基于大量、可靠的企業(yè)業(yè)務(wù)數(shù)據(jù)所做出的綜合判斷,所以強(qiáng)大的數(shù)據(jù)體系和具有多元化知識(shí)結(jié)構(gòu)的分析人才是成功實(shí)施預(yù)測(cè)分析項(xiàng)目的兩個(gè)必要條件。
曾濠生指出,準(zhǔn)確的預(yù)測(cè)需要大量、持續(xù)的操作、交易等類型的數(shù)據(jù)作為支撐,因此用戶必須擁有運(yùn)行順暢的業(yè)務(wù)數(shù)據(jù)流,基本的條件是企業(yè)已經(jīng)擁有了一個(gè)成熟的平臺(tái)。魯百年也表示,一般的分析需要1年的業(yè)務(wù)數(shù)據(jù)就可以了,而要做出預(yù)測(cè)需要4年的數(shù)據(jù)才行,如果考慮到數(shù)據(jù)周期的問題,最理想的歷史數(shù)據(jù)量是5年5個(gè)月。另一方面,人才問題也在逐漸得到企業(yè)用戶的重視。目前,一些企業(yè)為了提高預(yù)測(cè)的準(zhǔn)確性,已經(jīng)采用了由專業(yè)人員來審查、輸入變量的方法。曾濠生表示,預(yù)測(cè)分析人員不僅要具備深厚的統(tǒng)計(jì)學(xué)功底,還需要熟悉企業(yè)的業(yè)務(wù)應(yīng)用,這樣才能創(chuàng)建出更加合理的預(yù)測(cè)模型。魯百年指出,單一的知識(shí)結(jié)構(gòu)對(duì)預(yù)測(cè)來說太過單薄,對(duì)預(yù)測(cè)結(jié)果的解釋和分析將會(huì)考驗(yàn)分析人員的綜合素質(zhì)。
魯百年還強(qiáng)調(diào),預(yù)測(cè)模式需要一個(gè)反復(fù)驗(yàn)證的過程。所以在開始時(shí)預(yù)測(cè)出現(xiàn)偏差是正?,F(xiàn)象,用戶不必對(duì)此過于擔(dān)心,今后有很多種方法可以進(jìn)行校正??偟恼f來,模型運(yùn)行的時(shí)間越久,其預(yù)測(cè)的準(zhǔn)確性就越高。
來源:CCW
信息發(fā)布:廣州名易軟件有限公司 http://www.jetlc.com