大數(shù)據(jù)分析介紹
大數(shù)據(jù) 分析 介紹|
2022-09-02 admin
一、總結(jié)
一句話總結(jié):
大數(shù)據(jù)為機(jī)器學(xué)習(xí)、人工智能等提供了數(shù)據(jù)依據(jù)
1、數(shù)據(jù)清洗包括哪些方面?
去掉臟數(shù)據(jù)
使數(shù)據(jù)格式化
2、數(shù)據(jù)挖掘是什么?
高級(jí)的數(shù)據(jù)分析方法:數(shù)據(jù)挖掘是一種高級(jí)的數(shù)據(jù)分析方法,側(cè)重解決四類數(shù)據(jù)分析問題:分類、聚類、關(guān)聯(lián)和預(yù)測(cè)
尋找有價(jià)值信息:數(shù)據(jù)分析和數(shù)據(jù)挖掘的本質(zhì)是一樣的,都是從數(shù)據(jù)里面發(fā)現(xiàn)關(guān)于業(yè)務(wù)的知識(shí)。
3、常用的分布式方案有哪些?
分布式應(yīng)用和服務(wù):【將應(yīng)用和服務(wù)進(jìn)行分層和切割】,然后分別部署:比如分布式服務(wù)框架 Dubbo
分布式靜態(tài)資源:【靜態(tài)資源】:比如CDN
分布式數(shù)據(jù)和存儲(chǔ):【單臺(tái)計(jì)算機(jī)內(nèi)存空間不足】:比如Apache Hadoop HDFFS
分布式計(jì)算:【計(jì)算】:比如Apache Hadoop MapReduce
4、分布式和集群的區(qū)別?
分布式:多臺(tái)不同的服務(wù)器,【部署不同的服務(wù)模塊】
集群:多臺(tái)不同的服務(wù)器,【部署相同的應(yīng)用或服務(wù)模塊】
5、facebook是社交網(wǎng)站,那么評(píng)估機(jī)構(gòu)評(píng)估facebook的時(shí)候,主要評(píng)估的是其哪方面的價(jià)值?
是其社交網(wǎng)絡(luò)上的數(shù)據(jù)
6、云計(jì)算是什么?
硬件資源虛擬化
7、數(shù)據(jù)分析是什么?
發(fā)掘數(shù)據(jù)中的價(jià)值,發(fā)掘數(shù)據(jù)中的規(guī)律
8、如何采集用戶瀏覽網(wǎng)站的數(shù)據(jù)?
js埋點(diǎn):用js對(duì)用戶的行為(比如點(diǎn)擊啊,跳轉(zhuǎn)啊)進(jìn)行采集,不影響用戶的正常操作,
存儲(chǔ)的話可以用Nginx的自定義數(shù)據(jù)格式
9、采集到的用戶的瀏覽數(shù)據(jù),如何跨域發(fā)送到后臺(tái)?
讓數(shù)據(jù)偽裝成圖片:【比如京東就是這樣干的】:/log.gif?a=111&b=222
返回?cái)?shù)據(jù)的時(shí)候,偽裝成一個(gè)1*1像素的gif圖片
10、如何結(jié)合 Google Analytic 搭建一個(gè)自定義日志采集系統(tǒng)?
前端:確定要采集的數(shù)據(jù),以及采集的頁面,以及埋點(diǎn)的js
后端:收集、設(shè)計(jì)、編寫數(shù)據(jù)
11、采集的用戶的訪問數(shù)據(jù)例子及注意事項(xiàng)有哪些?
比如用戶ip,用戶所在的位置,用戶訪問時(shí)間,用戶的url等的
服務(wù)器參數(shù)獲?。河行┠軌蛲ㄟ^服務(wù)器直接獲取到:比如用戶的訪問時(shí)間,ip等
js獲?。河行┎荒芡ㄟ^服務(wù)器獲取到:可以考慮js,cookie等等,就是想辦法拿全用戶的數(shù)據(jù)