Precog大數(shù)據(jù)分析即服務

| 2022-09-08 admin

近日,Precog宣布了他們的大數(shù)據(jù)倉儲和分析服務,該服務負責處理數(shù)據(jù)的抓取、變換分析和可視化等過程,以及服務運行所基于的基礎架構。不過,這一服務也通過RESTful API預留了各種開放的訪問點,支持開發(fā)者和數(shù)據(jù)科學家控制整個過程。

Precog可以從各種數(shù)據(jù)源抓取輸入數(shù)據(jù),其中包括SQL數(shù)據(jù)庫、Amazon S3、Hadoop、MongoDB、客戶端Web應用和后端服務器等。RESTful API支持開發(fā)者從外部源(如Twitter或Facebook)、CSV文件或移動設備抓取數(shù)據(jù)。抓取的數(shù)據(jù)保存到一個叫做PrecogDB的定制數(shù)據(jù)庫中,而且我們還可以使用人群統(tǒng)計、態(tài)度、位置和其他信息使數(shù)據(jù)更為豐富。

之后,數(shù)據(jù)可以通過多種手段加以分析,比如通過一個API,或是利用客戶庫(JavaScript,PHP),或者使用Labcoat(一種支持使用Quirrel這種聲明式查詢語言進行數(shù)據(jù)分析的IDE)。開發(fā)者可以創(chuàng)建自己的數(shù)據(jù)抓取、強化和分析模塊,甚至可以將這些模塊拿到市場上銷售。

Precog能夠將整個過程運行在不同的云供應商之上——如Amazon EC2和SoftLayer——以便增加系統(tǒng)的彈性和正常運行時間。

在InfoQ進行的一次采訪中,Precog的CEO和創(chuàng)始人John A. De Goes解釋到:

“(系統(tǒng)的)架構與數(shù)據(jù)庫分析有些相似,比如都包括面向列的存儲;但是其區(qū)別在于,前者支持完全異構的、非規(guī)范化的數(shù)據(jù),通過對Quirrel的支持,相對于使用RDBMS進行分析,使用這種類似于“面向大數(shù)據(jù)的R”的語言,你能夠很方便地執(zhí)行很多更為高級的計算。”

PrecogDB是該平臺的核心,它是一種用Scala編寫的、面向列的數(shù)據(jù)庫,運行在JVM上,它也為數(shù)據(jù)捕獲和分析進行了優(yōu)化。據(jù)De Goes介紹,PrecogDB中可以保存“測量數(shù)據(jù),如點擊、購買、尺寸、Twitter數(shù)據(jù),或是收集自其他各種活動的日志信息”。他還補充 道,“Precog尚不能存儲大塊的非結構化數(shù)據(jù),盡管在生物信息學和其他一些領域的應用的確有這種需求。不過這一功能已經(jīng)在我們的路線圖上了。”

至于Quirrel——這種由Precog實現(xiàn)的統(tǒng)計查詢語言,De Goes談到:“Quirrel很多方面都與R編程語言比較相似。像R一樣,Quirrel也是為高級的分析與統(tǒng)計而設計的。但與R不同的 是,Quirrel并非圖靈完備的語言,它是純聲明式的,利用它更容易高效地在大規(guī)模集群的機器中分發(fā)Quirrel查詢(這也使Quirrel比R更容 易學習)。”

PrecogDB有一些“用于常見的分析與統(tǒng)計計算的內置例程”,它還提供了一個“細粒度的、基于能力的安全模型,支持來自移動設備或Web的應用程序通過RESTAPI直接訪問其功能”。

chaunceyhao