數(shù)據(jù)抽取、轉(zhuǎn)換和加載工具。優(yōu)秀的ETL工具應該具有以下特性:
1、WorkflowManagement,JobExecutionandSchedulingManager。能方便地定義流程并自動化執(zhí)行ETL任務。
2、CentralizedMetadataRepositoryandManagement。集中存儲和管理符合業(yè)界標準的元數(shù)據(jù)。
3、DataProfileandValidation??梢詸z驗數(shù)據(jù)的質(zhì)量。
4、HighPerformance。在大負荷的任務執(zhí)行中仍然有良好的性能。
5、Scalable,PlatformIndependent。具有良好的彈性,支持多種操作系統(tǒng)和數(shù)據(jù)庫系統(tǒng),能操作多種異構(gòu)的數(shù)據(jù)源。
6、OpenArchitectureandAPI。具有開放的架構(gòu)和易于使用的接口。
目前較為知名的開源ETL工具有:1、KETL,由具有IBM和KPMG背景的KineticNetworks公司開發(fā),現(xiàn)在已經(jīng)有三年多的產(chǎn)品應用歷史,成功應用于一些產(chǎn)品中,在點擊流(ClickStream)分析應用中表現(xiàn)出色。KETL采用Plug-in的架構(gòu),使用Java開發(fā)。
2、KETTLE,為一個元數(shù)據(jù)驅(qū)動的ETL工具。已經(jīng)加入Pentaho。
3、CloverETL,為一個基于Java的ETLFramework,可以用來開發(fā)自己的ETL應用。
4、EnhydraOctopus,為一個基于Java的ETL工具,使用JDBC來連接各種數(shù)據(jù)源,易于使用和部署。曾有人應用于電信網(wǎng)絡資源分析系統(tǒng)中。
表工具優(yōu)秀的報表工具通常具有以下特性:1、支持多種數(shù)據(jù)源。
2、直觀的可視化設計器,簡單易用的報表定制功能。
3、方便的數(shù)據(jù)訪問和格式化,豐富的數(shù)據(jù)呈現(xiàn)方式。
4、符合數(shù)據(jù)呈現(xiàn)的通用標準,能和應用程序很好地進行結(jié)合。
5、易于擴展和部署。
目前較為知名的開源報表工具有:1、JasperReports,一個優(yōu)秀的Java報表工具,始于2001,現(xiàn)在JasperSoft公司持續(xù)開發(fā)和支持該工具。該工具類似于商業(yè)軟件CrystalReport,支持PDF、HTML、XLS、CSV和XML文件輸出格式,現(xiàn)在是Java開發(fā)者最常用的報表工具。
2、OpenReports,提供基于web的靈活報表解決方案,通過瀏覽器自動生成動態(tài)PDF,XLS,HTMLCSV和Chart報表,它是用Java開發(fā)的,使用JasperReports作為報表引擎,利用到的開源技術(shù)有Hibernate,Veloctiy,Webwork。
3、JFreeReport,現(xiàn)在是Pentaho的一部分,它是一個優(yōu)秀的用來生成報表的Java類庫。它為Java應用程序提供一個靈活的打印功能并支持輸出到打印機和PDF,Excel,HTML和XHTML,PlainText,XML和CSV文件中。
4、EclipseBIRT,是Eclipse下面的一個企業(yè)智能和報表工具,能為J2EE的WEB應用程序創(chuàng)建漂亮醒目的PDF或者HTML格式的報表,它提供了核心的報表功能。
OLAP工具聯(lián)機分析處理工具。目前開源的OLAP工具也分為MOLAP、ROLAP和HOLAP,優(yōu)秀的OLAP工具通常有以下特性:
1、良好的執(zhí)行性能,能快速地進行分析處理工作。
2、良好的適用性和可伸縮性。
3、開放式接口和豐富的API。
目前較為知名的開源OLAP工具有:1、Mondrian,是Pentaho的一部分,為一個用Java開發(fā)的OLAP服務器,實現(xiàn)了MDX語言、XML解析和JOLAP規(guī)范,可以不寫SQL就能分析存儲于SQL數(shù)據(jù)庫的龐大數(shù)據(jù)集,可以封裝JDBC數(shù)據(jù)源并把數(shù)據(jù)以多維的方式展現(xiàn)出來。
2、JPivot,是一個JSP自定制的標簽庫,可以繪制一個OLAP表格和圖表。用戶可以執(zhí)行典型的OLAP導航,如下鉆,切片和方塊。它使用Mondrian作為其OLAP服務器。它使用WCF(WebComponentFramework),基于XMLXSLT來渲染W(wǎng)ebUI組件。JPivot在元數(shù)據(jù)緩存方面的過于簡化的整體性初始化裝載的做法將限制它只能處理很小的立方體(Cube)。
數(shù)據(jù)庫開源的數(shù)據(jù)庫也有很多,大多數(shù)為關(guān)系型數(shù)據(jù)庫,少數(shù)為應用于數(shù)據(jù)倉庫環(huán)境做了專門的優(yōu)化工作。Bizgres以PostgreSQL為基礎進行了數(shù)據(jù)倉庫環(huán)境下的優(yōu)化,提高了分析查詢性能。
開源BI套件下面列出相對成熟和完整,并且有借鑒意義的開源BI套件。
Bizgres為GreenPlum公司主導的開源項目,和Sun公司達成合作關(guān)系。Bizgres為B
I應用而對PostgreSQL做了優(yōu)化,提高了大負荷的并行計算能力,在BI環(huán)境中,相對于普通的關(guān)系型數(shù)據(jù)庫具有卓越的數(shù)據(jù)處理性能。Bizgres的數(shù)據(jù)庫平臺可以和KETL和JasperReports進行整合,從而形成一個BI套件:
1、數(shù)據(jù)庫:BI專業(yè)數(shù)據(jù)庫Bizgres,或者大型應用中的高性能服務器BizgresMPP,能比普通關(guān)系數(shù)據(jù)庫快20倍
2、ETL工具:KETL
3、報表工具:JasperReports
Openi是一個Java開發(fā)的Web應用,能對OLAP服務器、關(guān)系數(shù)據(jù)庫和數(shù)據(jù)挖掘服務器進行分析和報表展示,非常易于使用和部署,界面美觀友好,后續(xù)還將支持數(shù)據(jù)挖掘和ETL等。Openi主要包括:
1、OLAP展示:JPivot
2、報表工具:JFreeChart
3、分析數(shù)據(jù)源連接器
Pentaho是一個以工作流為核心的、強調(diào)面向解決方案而非工具組件的BI套件,整合了多個開源項目,目標是和商業(yè)BI相抗衡。它包括:
1、工作流引擎:SharkandJaWE
2、數(shù)據(jù)庫:FirebirdRDBMS
3、集成管理和開發(fā)環(huán)境:Eclipse
4、報表工具:EclipseBIRT
5、ETL工具:EnhydraKettle
6、OLAPServer:Mondrian
7、OLAP展示:JPivot
8、數(shù)據(jù)挖掘組件:Weka
9、應用服務器和Portal服務器:JBoss
10、單點登陸服務及LDap認證:JOSSO
11、自定義腳本支持:MozillaRhinoJavascript腳本處理器
由上可見Pentaho是一個很完善的BI解決方案。Pentaho偏向于與業(yè)務流程相結(jié)合的BI解決方案,側(cè)重于大中型企業(yè)應用。
SpagoBISpagoBI集成了Mondrain和JProvit,能夠通過OpenLaszlo產(chǎn)生實時報表。SpagoBI使用java開發(fā),不依賴于具體的操作系統(tǒng),有很強的擴展能力。它主要包括:
1、報表工具:JasperReportsEclipseBIRTiReport
2、OLAPServer:Mondrian
3、OLAP展示:JPivot
4、數(shù)據(jù)挖掘組件:Weka
5、Map引擎:Geo
6、ETL:BIE
7、搜索引擎:Lucene
8、Dashboard:OpenLaszlo
9、PortalServer:JBossTomcatJOnAS
根據(jù)其Roadmap可以看出,SpagoBI將融入更多的BI功能,甚至BI之外的功能。(CIO時代論壇)
信息發(fā)布:廣州名易軟件有限公司 http://www.jetlc.com