大數(shù)據(jù)研究的出現(xiàn),為企業(yè)、研究機(jī)構(gòu)、政府決策提供了新的行之有效思路和手段,想要做好大數(shù)據(jù)的管理和分析,一些大數(shù)據(jù)開發(fā)工具的使用是必不可少的,以下是大數(shù)據(jù)開發(fā)過(guò)程中常用的工具:
1. Apache Hive
Hive是一個(gè)建立在Hadoop上的開源數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施,通過(guò)Hive可以很容易的進(jìn)行數(shù)據(jù)的ETL,對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,并對(duì)Hadoop上大數(shù)據(jù)文件進(jìn)行查詢和處理等。 Hive提供了一種簡(jiǎn)單的類似SQL的查詢語(yǔ)言—HiveQL,這為熟悉SQL語(yǔ)言的用戶查詢數(shù)據(jù)提供了方便。
2. Apache Spark
Apache Spark是Hadoop開源生態(tài)系統(tǒng)的新成員。它提供了一個(gè)比Hive更快的查詢引擎,因?yàn)樗蕾囉谧约旱臄?shù)據(jù)處理框架而不是依靠Hadoop的HDFS服務(wù)。同時(shí),它還用于事件流處理、實(shí)時(shí)查詢和機(jī)器學(xué)習(xí)等方面。
3. Jaspersoft BI 套件
Jaspersoft包是一個(gè)通過(guò)數(shù)據(jù)庫(kù)列生成報(bào)表的開源軟件。行業(yè)領(lǐng)導(dǎo)者發(fā)現(xiàn)Jaspersoft軟件是一流的, 許多企業(yè)已經(jīng)使用它來(lái)將SQL表轉(zhuǎn)化為pdf,,這使每個(gè)人都可以在會(huì)議上對(duì)其進(jìn)行審議。另外,JasperReports提供了一個(gè)連接配置單元來(lái)替代HBase。
4. Keen IO
Keen IO是個(gè)強(qiáng)大的移動(dòng)應(yīng)用分析工具。開發(fā)者只需要簡(jiǎn)單到一行代碼, 就可以跟蹤他們想要的關(guān)于他們應(yīng)用的任何信息。開發(fā)者接下來(lái)只需要做一些Dashboard或者查詢的工作就可以了。
5. Mortar Data
Mortar Data是專為開發(fā)者打造的Hadoop開發(fā)平臺(tái),它用Pig和Python的組合替代了MapReduce以便開發(fā)者能簡(jiǎn)單地編寫Hadoop管道(Pipeline)。
6. Placed Analytics
利用腳本語(yǔ)言以及API, PlacedAnalytics能夠提供針對(duì)移動(dòng)和網(wǎng)絡(luò)應(yīng)用的詳細(xì)用戶行為分析。包括, 用戶使用時(shí)間和地理位置信息。 這些可以幫助開發(fā)者的應(yīng)用更好地吸引廣告商, 也可以幫助開發(fā)者對(duì)自己的應(yīng)用進(jìn)行改善。
7. Ingres Corp
它擁有超過(guò)一萬(wàn)客戶而且正在擴(kuò)增。它通過(guò)Vectorwise以及對(duì)ParAccel實(shí)現(xiàn)了擴(kuò)展。這些發(fā)展分別導(dǎo)致了Actian Vector和Actian Matrix的創(chuàng)建。它有Apache,Cloudera,Hortonworks以及其他發(fā)行版本可供選擇。
8.Talend Open Studio
Talend是一個(gè)統(tǒng)一的平臺(tái),它通過(guò)提供一個(gè)統(tǒng)一的,跨企業(yè)邊界生命周期管理的環(huán)境,使數(shù)據(jù)管理和應(yīng)用更簡(jiǎn)單便捷。這種設(shè)計(jì)可以幫助企業(yè)構(gòu)建靈活、高性能的企業(yè)架構(gòu),在次架構(gòu)下,集成并啟用百分之百開源服務(wù)的分布式應(yīng)用程序變?yōu)榭赡堋?/p>
9. Cloudera
Cloudera正在努力為開源Hadoop,提供支持,Hadoop可以作為目標(biāo)數(shù)據(jù)倉(cāng)庫(kù),高效的數(shù)據(jù)平臺(tái),或現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的ETL來(lái)源。企業(yè)規(guī)模可以用作集成Hadoop與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。 Cloudera致力于成為數(shù)據(jù)管理的“重心”。
10. Pentaho Business Analytics
Pentaho的工具可以連接到NoSQL數(shù)據(jù)庫(kù),有很多內(nèi)置模塊,可以把它們拖放到一個(gè)圖片上, 然后將它們連接起來(lái)。
工具的熟練使用可以起到事半功倍的效果,以上僅僅是一些數(shù)據(jù)開發(fā)過(guò)程中常用的工具,對(duì)于大數(shù)據(jù)開發(fā)人員來(lái)說(shuō)是需要熟練掌握的,當(dāng)然,大數(shù)據(jù)開發(fā)過(guò)程中也會(huì)需要借助一些其他的工具,這就需要大數(shù)據(jù)開發(fā)人員具有發(fā)現(xiàn)和解決問(wèn)題的能力,以及養(yǎng)成善于積累的習(xí)慣!如果想學(xué)習(xí)大數(shù)據(jù)開發(fā)可以與老男孩教育聯(lián)系!