- 一:數(shù)據(jù)分析目的和分類
- 數(shù)據(jù)分析處理來自對某一興趣現(xiàn)象的觀察、測量或者實驗的信息,數(shù)據(jù)分析目的是從和主題相關的數(shù)據(jù)中提取盡可能多的信息,主要目標包括:
• 推測或解釋數(shù)據(jù)并確定如何使用數(shù)據(jù);
• 檢查數(shù)據(jù)是否合法;
• 給決策制定合理建議;
• 診斷或推斷錯誤原因;
• 預測未來將要發(fā)生的事情
由于統(tǒng)計數(shù)據(jù)的多樣性,數(shù)據(jù)分析的方法大不相同,可以將數(shù)據(jù)根據(jù)下述標準分為幾類:根據(jù)觀察和測量得到的定性或定量數(shù)據(jù),根據(jù)參數(shù)數(shù)量得到的一元或多元數(shù)據(jù),此外,有些工作對領域相關的算法進行了總結,Manimom等對數(shù)據(jù)挖掘算法進行了分類,將其分為描述性(deive)、預測性和驗證性(veryfying),Bhatt等則將多媒體分析方法劃分為特征提取、變形、表示和統(tǒng)計數(shù)據(jù)挖掘,然而并沒有對大數(shù)據(jù)處理方法進行分類的工作,Blackett等根據(jù)數(shù)據(jù)分析深度將數(shù)據(jù)分析分為三個層次:描述性(deive)分析,預測性分析和規(guī)則性(preive)分析。
- 描述性分析
基于歷史數(shù)據(jù)描述發(fā)生了什么,例如,利用回歸技術從數(shù)據(jù)集中發(fā)現(xiàn)簡單的趨勢,可視化技術用于更有意義地表示數(shù)據(jù),數(shù)據(jù)建模則以更有效的方式收集、存儲和刪減數(shù)據(jù),描述性分析通常應用在商業(yè)智能和可見性系統(tǒng)。
- 預測性分析
用于預測未來的概率和趨勢,例如,預測性模型使用線性和對數(shù)回歸等統(tǒng)計技術發(fā)現(xiàn)數(shù)據(jù)趨勢,預測未來的輸出結果,并使用數(shù)據(jù)挖掘技術提取數(shù)據(jù)模式(pattern)給出預見。
- 規(guī)則性分析
解決決策制定和提高分析效率,例如,仿真用于分析復雜系統(tǒng)以了解系統(tǒng)行為并發(fā)現(xiàn)問題,而優(yōu)化技術則在給定約束條件下給出最優(yōu)解決方案。
- 二、應用演化
數(shù)據(jù)驅動的應用在過去幾十年里已經出現(xiàn),例如,20世紀90年代在商業(yè)領域出現(xiàn)的商業(yè)智能,21世紀初期出現(xiàn)的基于數(shù)據(jù)挖掘的web搜索引擎,接下來將介紹在不同時期典型大數(shù)據(jù)領域中具有高影響力的大數(shù)據(jù)分析應用的發(fā)展。
- (1)商業(yè)應用演化
早期的商業(yè)數(shù)據(jù)是結構化的數(shù)據(jù),由企業(yè)或公司收集并存儲在關系數(shù)據(jù)庫管理系統(tǒng)中,這些系統(tǒng)應用的數(shù)據(jù)分析技術通常是直觀簡單的,Gartner總結了商業(yè)智能應用的常用方法,包括報表(reporting)、儀表盤(dashboard)、即時查詢(adhocquery)、基于搜索的商業(yè)智能、在線事務處理、交互可視化、計分卡、預測模型和數(shù)據(jù)挖掘。21世紀初期,互聯(lián)網和web使得企業(yè)將其業(yè)務上線,并能和客戶直接聯(lián)系,大量的產品和客戶信息如點擊流數(shù)據(jù)日志和用戶行為可以通過web收集,通過使用不同的文本和web挖掘技術,可以完成產品放置優(yōu)化,客戶事務分析,產品推薦和市場結構分析,據(jù)報道,2011年移動手機和平板電腦的數(shù)量首次超過了筆記本和PC機,移動手機和物聯(lián)網構建了具有位置感知、個人為中心和上下文感知的革新性應用。
- (2)網絡應用演化
早期的網絡提供電子郵件和網站服務,因此文本分析、數(shù)據(jù)挖掘和網頁分析技術被用于挖掘郵件內容、創(chuàng)建搜索引擎,網絡數(shù)據(jù)占據(jù)了全球數(shù)據(jù)的絕大部分,包含文本、圖像、視頻、照片和交互式內容等多種類型的數(shù)據(jù),隨后,用于半結構化和無結構數(shù)據(jù)的分析技術得到了發(fā)展,例如,圖像分析技術可以從照片中提取有意義的信息,多媒體分析技術可以使商業(yè)或軍事領域的視頻監(jiān)控系統(tǒng)自動化,2004年后,諸如論壇、博客、社交網站、多媒體分享站點等在線社交媒體的出現(xiàn)使得用戶能夠產生、上傳和共享豐富的用戶自主創(chuàng)造內容,從這些不同人們發(fā)布社交媒體內容中可以挖掘每天的熱門事件和社會政治觀點等,從而提供及時的反饋和意見。
- (3)科學應用演化
科學研究的許多領域中高生產量的傳感器和儀器將產生大量的數(shù)據(jù),如天文學、海洋學、基因學和環(huán)境研究等學科領域,美國NSF宣布對BIGDATA項目進行立項,促進數(shù)據(jù)分享和分析,有些科學研究學科以前已開發(fā)出對海量數(shù)據(jù)的分析平臺,并取得了有效地成果,例如在生物學科,iPlant利用信息基礎設施,物理計算資源和支持互操作的分析軟件等,向致力于豐富植物科學知識的研究者、教育者和學生提供數(shù)據(jù)服務,iPlant數(shù)據(jù)集是多樣性的數(shù)據(jù),包含權威的和供參考的數(shù)據(jù)、實驗數(shù)據(jù)、仿真建模數(shù)據(jù)、觀察數(shù)據(jù)和其他處理后的數(shù)據(jù)。
.
基于以上的分析,可以將數(shù)據(jù)分析的研究分為6個方向:結構化數(shù)據(jù)分析、文本分析、web數(shù)據(jù)分析、多媒體數(shù)據(jù)分析、社交網絡數(shù)據(jù)分析和移動數(shù)據(jù)分析,結構化數(shù)據(jù)分析是指傳統(tǒng)的數(shù)據(jù)分析,Web數(shù)據(jù)、多媒體數(shù)據(jù)、社交網絡數(shù)據(jù)和移動數(shù)據(jù),從數(shù)據(jù)形態(tài)上可能包括結構化數(shù)據(jù)的某些數(shù)據(jù)類型(如文本),但是在特定的應用領域里面,具有新的分析要求和特性。
- 三、常用分析方法
盡管目標和應用領域不同,一些常用的分析方法幾乎對所有的數(shù)據(jù)處理都有用,下面將討論三種類型的常用數(shù)據(jù)分析方法。
- 數(shù)據(jù)可視化
與信息繪圖學和信息可視化相關,數(shù)據(jù)可視化的目標是以圖形方式清晰有效地展示信息38),一般來說,圖表和地圖可以幫助人們快速理解信息,但是,當數(shù)據(jù)量增大到大數(shù)據(jù)的級別,傳統(tǒng)的電子表格等技術已無法處理海量數(shù)據(jù),大數(shù)據(jù)的可視化已成為一個活躍的研究領域,因為它能夠輔助算法設計和軟件開發(fā),F(xiàn)riedman和Frits分別從信息表示和計算機科學領域對數(shù)據(jù)可視化進行了探討。Tabusvis則是一個輕型的可視化系統(tǒng),提供對多維數(shù)據(jù)的靈活、可定制的數(shù)據(jù)可視化。
- 統(tǒng)計分析
基于統(tǒng)計理論,是應用數(shù)學的一個分支,在統(tǒng)計理論中,隨機性和不確定性由概率理論建模,統(tǒng)計分析技術可以分為描述性統(tǒng)計和推斷性統(tǒng)計,描述性統(tǒng)計技術對數(shù)據(jù)集進行摘要(summarization)或描述,而推斷性統(tǒng)計則能夠對過程進行推斷,更多的多元統(tǒng)計分析包括回歸、因子分析、聚類和判別分析。
- 數(shù)據(jù)挖掘
是發(fā)現(xiàn)大數(shù)據(jù)集中數(shù)據(jù)模式的計算過程,許多數(shù)據(jù)挖掘算法已經在人工智能、機器學習、模式識別、統(tǒng)計和數(shù)據(jù)庫領域得到了應用。此外,一些其他的先進技術如神經網絡和基因算法也被用于不同應用的數(shù)據(jù)挖據(jù)。有時候,幾乎可以認為很多方法間的界線逐漸淡化,例如數(shù)據(jù)挖掘、機器學習、模式識別、甚至視覺信息處理、媒體信息處理等等,此處以“數(shù)據(jù)挖掘”作為一個通稱。