<thead id="a3rq2"></thead>

<abbr id="a3rq2"></abbr>

大數(shù)據(jù)分析介紹

大數(shù)據(jù) 分析介紹| 2022-09-02 admin

一、總結(jié)

一句話總結(jié)：

大數(shù)據(jù)為機(jī)器學(xué)習(xí)、人工智能等提供了數(shù)據(jù)依據(jù)

1、數(shù)據(jù)清洗包括哪些方面？

去掉臟數(shù)據(jù)

使數(shù)據(jù)格式化

2、數(shù)據(jù)挖掘是什么？

高級(jí)的數(shù)據(jù)分析方法：數(shù)據(jù)挖掘是一種高級(jí)的數(shù)據(jù)分析方法，側(cè)重解決四類數(shù)據(jù)分析問題：分類、聚類、關(guān)聯(lián)和預(yù)測(cè)

尋找有價(jià)值信息：數(shù)據(jù)分析和數(shù)據(jù)挖掘的本質(zhì)是一樣的，都是從數(shù)據(jù)里面發(fā)現(xiàn)關(guān)于業(yè)務(wù)的知識(shí)。

3、常用的分布式方案有哪些？

分布式應(yīng)用和服務(wù)：【將應(yīng)用和服務(wù)進(jìn)行分層和切割】，然后分別部署：比如分布式服務(wù)框架 Dubbo

分布式靜態(tài)資源：【靜態(tài)資源】：比如CDN

分布式數(shù)據(jù)和存儲(chǔ)：【單臺(tái)計(jì)算機(jī)內(nèi)存空間不足】：比如Apache Hadoop HDFFS

分布式計(jì)算：【計(jì)算】：比如Apache Hadoop MapReduce

4、分布式和集群的區(qū)別？

分布式：多臺(tái)不同的服務(wù)器，【部署不同的服務(wù)模塊】

集群：多臺(tái)不同的服務(wù)器，【部署相同的應(yīng)用或服務(wù)模塊】

5、facebook是社交網(wǎng)站，那么評(píng)估機(jī)構(gòu)評(píng)估facebook的時(shí)候，主要評(píng)估的是其哪方面的價(jià)值？

是其社交網(wǎng)絡(luò)上的數(shù)據(jù)

6、云計(jì)算是什么？

硬件資源虛擬化

7、數(shù)據(jù)分析是什么？

發(fā)掘數(shù)據(jù)中的價(jià)值，發(fā)掘數(shù)據(jù)中的規(guī)律

8、如何采集用戶瀏覽網(wǎng)站的數(shù)據(jù)？

js埋點(diǎn)：用js對(duì)用戶的行為(比如點(diǎn)擊啊，跳轉(zhuǎn)啊)進(jìn)行采集，不影響用戶的正常操作，

存儲(chǔ)的話可以用Nginx的自定義數(shù)據(jù)格式

9、采集到的用戶的瀏覽數(shù)據(jù)，如何跨域發(fā)送到后臺(tái)？

讓數(shù)據(jù)偽裝成圖片：【比如京東就是這樣干的】：/log.gif?a=111&b=222

返回?cái)?shù)據(jù)的時(shí)候，偽裝成一個(gè)1*1像素的gif圖片

10、如何結(jié)合 Google Analytic 搭建一個(gè)自定義日志采集系統(tǒng)？

前端：確定要采集的數(shù)據(jù)，以及采集的頁面，以及埋點(diǎn)的js

后端：收集、設(shè)計(jì)、編寫數(shù)據(jù)

11、采集的用戶的訪問數(shù)據(jù)例子及注意事項(xiàng)有哪些？

比如用戶ip，用戶所在的位置，用戶訪問時(shí)間，用戶的url等的

服務(wù)器參數(shù)獲?。河行┠軌蛲ㄟ^服務(wù)器直接獲取到：比如用戶的訪問時(shí)間，ip等

js獲?。河行┎荒芡ㄟ^服務(wù)器獲取到：可以考慮js，cookie等等，就是想辦法拿全用戶的數(shù)據(jù)

<input id="mscsq"></input>