文章目錄
- ??Volume??
- ??Variety??
- ??Value??
- ??Velocity??
- ??大數(shù)據(jù)的分類??
- ??大數(shù)據(jù)的應(yīng)用領(lǐng)域??
- ??大數(shù)據(jù)帶來的挑戰(zhàn)??
- ??大數(shù)據(jù)的意義??
- ??大數(shù)據(jù)分析??
- ??大數(shù)據(jù)分析的定義??
- ??大數(shù)據(jù)分析的能力體系??
- ??大數(shù)據(jù)產(chǎn)生的根源??
- ??大數(shù)據(jù)分析的技術(shù)基礎(chǔ)??
- ??大數(shù)據(jù)分析技術(shù)的發(fā)展階段??
- ??大數(shù)據(jù)分析的開源框架??
什么是大數(shù)據(jù)
大數(shù)據(jù)(Big Data),指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)的特征
大數(shù)據(jù)的主要特征我們可以用4個(gè)V來概括:
- Volume,大數(shù)據(jù)的體量非常巨大
- Variety,種類繁多,大數(shù)據(jù)的來源多種多樣
- Value,大數(shù)據(jù)的價(jià)值密度低
- Velocity,我們處理大數(shù)據(jù)的速度要足夠的快
Volume
- 根據(jù)IDC做出的估測(cè),數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),即兩年增長(zhǎng)一倍
- 人類在最近兩年產(chǎn)出的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量
- 人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB
- 歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=1024PB)
- 典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí)
- 一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí)
Variety
- 10%為結(jié)構(gòu)化數(shù)據(jù),通常存儲(chǔ)在數(shù)據(jù)庫中
- 90%為非結(jié)構(gòu)化數(shù)據(jù),格式多種多樣
Value
- 以視頻為例,一部1小時(shí)的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一二秒,價(jià)值密度低,商業(yè)價(jià)值高。
Velocity
- 從數(shù)據(jù)的生成到消費(fèi),時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少。
大數(shù)據(jù)的分類
大數(shù)據(jù)的應(yīng)用領(lǐng)域
大數(shù)據(jù)的應(yīng)用領(lǐng)域非常的廣泛,不論是零售、電商、金融等商業(yè)領(lǐng)域,還是制造、能源等工業(yè)領(lǐng)域,大數(shù)據(jù)在各行各業(yè)中都發(fā)揮著非常重要的作用:
大數(shù)據(jù)帶來的挑戰(zhàn)
- 數(shù)據(jù)規(guī)模太大,超出了我們的存儲(chǔ)能力,存儲(chǔ)面臨巨大考驗(yàn);
- 數(shù)據(jù)多樣性或異構(gòu)性;
- 數(shù)據(jù)量大,如何做到實(shí)時(shí)性需求?如果說相應(yīng)的速度太慢,會(huì)嚴(yán)重影響用戶的體驗(yàn),從而造成流失
- 數(shù)據(jù)的價(jià)值密度低,這要求我們需要分辨出那些是真正有意義數(shù)據(jù),盡可能的提高效率,去除冗余,使用最有價(jià)值的那部分?jǐn)?shù)據(jù)進(jìn)行分析
大數(shù)據(jù)的意義
大數(shù)據(jù)對(duì)于我們的社會(huì)會(huì)帶來很多變革,比如說商業(yè)的變革、管理的變革以及思維的變革。
- 大數(shù)據(jù) – 讓經(jīng)營及決策有據(jù)可依
大數(shù)據(jù)可以讓我們深入洞察客戶,實(shí)現(xiàn)個(gè)性化營銷和服務(wù);可以深入數(shù)據(jù)挖掘,實(shí)現(xiàn)預(yù)測(cè)性營銷;可以進(jìn)行全面的數(shù)據(jù)分析,使經(jīng)營決策更科學(xué)。
- 大數(shù)據(jù) – 讓社會(huì)管理更智慧
大數(shù)據(jù)使城市管理精細(xì)化智能化;使公共服務(wù)個(gè)性化智能化;使事件應(yīng)對(duì)更高效更智能。
- 大數(shù)據(jù)-改變著我們的思維
大數(shù)據(jù)分析
大數(shù)據(jù)分析的定義
數(shù)據(jù)分析是基于商業(yè)等目的,有目的地進(jìn)行收集、整理、加工和分析數(shù)據(jù),提煉有價(jià)值信息的過程。大數(shù)據(jù)分析即針對(duì)海量的、多樣化的數(shù)據(jù)集合的分析。
大數(shù)據(jù)分析的能力體系
大數(shù)據(jù)產(chǎn)生的根源
大數(shù)據(jù)分析的技術(shù)基礎(chǔ)
大數(shù)據(jù)分析技術(shù)的發(fā)展階段
大數(shù)據(jù)分析的開源框架
- 在存儲(chǔ)層, HDFS 已經(jīng)成為了大數(shù)據(jù)磁盤存儲(chǔ)的事實(shí)標(biāo)準(zhǔn),針對(duì)關(guān)系型以外的數(shù)據(jù)模型,開源社區(qū)形成了 K-V( key-value)、列式、文檔、圖這四類 NoSQL 數(shù)據(jù)庫體系, Redis、 HBase、 MongoDB、Neo4j 等數(shù)據(jù)庫是各個(gè)領(lǐng)域的領(lǐng)先者。
- 在·計(jì)算處理引擎方面, Spark已經(jīng)取代 MapReduce 成為了大數(shù)據(jù)平臺(tái)統(tǒng)一的計(jì)算平臺(tái),在實(shí)時(shí)計(jì)算領(lǐng)域 Flink 是 Spark Streaming 強(qiáng)力的競(jìng)爭(zhēng)者。
- 在數(shù)據(jù)查詢和分析領(lǐng)域,形成了豐富的 SQL on Hadoop 的解決方案, Hive、 HAWQ、Impala、 Presto、Spark SQL 等技術(shù)與傳統(tǒng)的大規(guī)模并行處理( massively parallel processor, MPP)數(shù)據(jù)庫競(jìng)爭(zhēng)激烈,目前 Hive 還是這個(gè)領(lǐng)域當(dāng)之無愧的王者。
- 在數(shù)據(jù)可視化領(lǐng)域,敏捷商業(yè)智能( business intelligence,BI)分析工具 Tableau、QlikView 通過簡(jiǎn)單的拖拽來實(shí)現(xiàn)數(shù)據(jù)的復(fù)雜展示,是目前最受歡迎的可視化展現(xiàn)方式。