阿里大數(shù)據(jù)分析概述

大數(shù)據(jù) 分析 阿里 概述 數(shù)據(jù)| 2022-09-05 admin

文章目錄

  • ??大數(shù)據(jù)分析的定義??
  • ??大數(shù)據(jù)分析的能力體系??
  • ??大數(shù)據(jù)產(chǎn)生的根源??
  • ??大數(shù)據(jù)分析的技術(shù)基礎(chǔ)??
  • ??大數(shù)據(jù)分析技術(shù)的發(fā)展階段??
  • ??大數(shù)據(jù)分析的開源框架??

       

    什么是大數(shù)據(jù)

    大數(shù)據(jù)(Big Data),指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

    大數(shù)據(jù)的特征

    大數(shù)據(jù)的主要特征我們可以用4個(gè)V來概括:

    • Volume,大數(shù)據(jù)的體量非常巨大
    • Variety,種類繁多,大數(shù)據(jù)的來源多種多樣
    • Value,大數(shù)據(jù)的價(jià)值密度低
    • Velocity,我們處理大數(shù)據(jù)的速度要足夠的快

    Volume

    • 根據(jù)IDC做出的估測(cè),數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),即兩年增長(zhǎng)一倍
    • 人類在最近兩年產(chǎn)出的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量
    • 人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB
    • 歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=1024PB)
    • 典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí)
    • 一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí)

    Variety

    • 10%為結(jié)構(gòu)化數(shù)據(jù),通常存儲(chǔ)在數(shù)據(jù)庫中
    • 90%為非結(jié)構(gòu)化數(shù)據(jù),格式多種多樣

    Value

    • 以視頻為例,一部1小時(shí)的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一二秒,價(jià)值密度低,商業(yè)價(jià)值高。

    Velocity

    • 從數(shù)據(jù)的生成到消費(fèi),時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少。

    大數(shù)據(jù)的分類

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_數(shù)據(jù)

    大數(shù)據(jù)的應(yīng)用領(lǐng)域

    大數(shù)據(jù)的應(yīng)用領(lǐng)域非常的廣泛,不論是零售、電商、金融等商業(yè)領(lǐng)域,還是制造、能源等工業(yè)領(lǐng)域,大數(shù)據(jù)在各行各業(yè)中都發(fā)揮著非常重要的作用:

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_機(jī)器學(xué)習(xí)_02

    大數(shù)據(jù)帶來的挑戰(zhàn)

    • 數(shù)據(jù)規(guī)模太大,超出了我們的存儲(chǔ)能力,存儲(chǔ)面臨巨大考驗(yàn);
    • 數(shù)據(jù)多樣性或異構(gòu)性;
    • 數(shù)據(jù)量大,如何做到實(shí)時(shí)性需求?如果說相應(yīng)的速度太慢,會(huì)嚴(yán)重影響用戶的體驗(yàn),從而造成流失
    • 數(shù)據(jù)的價(jià)值密度低,這要求我們需要分辨出那些是真正有意義數(shù)據(jù),盡可能的提高效率,去除冗余,使用最有價(jià)值的那部分?jǐn)?shù)據(jù)進(jìn)行分析

    大數(shù)據(jù)的意義

    大數(shù)據(jù)對(duì)于我們的社會(huì)會(huì)帶來很多變革,比如說商業(yè)的變革、管理的變革以及思維的變革。

    • 大數(shù)據(jù) – 讓經(jīng)營及決策有據(jù)可依

    大數(shù)據(jù)可以讓我們深入洞察客戶,實(shí)現(xiàn)個(gè)性化營銷和服務(wù);可以深入數(shù)據(jù)挖掘,實(shí)現(xiàn)預(yù)測(cè)性營銷;可以進(jìn)行全面的數(shù)據(jù)分析,使經(jīng)營決策更科學(xué)。

    • 大數(shù)據(jù) – 讓社會(huì)管理更智慧

    大數(shù)據(jù)使城市管理精細(xì)化智能化;使公共服務(wù)個(gè)性化智能化;使事件應(yīng)對(duì)更高效更智能。

    • 大數(shù)據(jù)-改變著我們的思維

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_數(shù)據(jù)_03

    大數(shù)據(jù)分析

    大數(shù)據(jù)分析的定義

    數(shù)據(jù)分析是基于商業(yè)等目的,有目的地進(jìn)行收集、整理、加工和分析數(shù)據(jù),提煉有價(jià)值信息的過程。大數(shù)據(jù)分析即針對(duì)海量的、多樣化的數(shù)據(jù)集合的分析。

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_大數(shù)據(jù)分析_04

    大數(shù)據(jù)分析的能力體系

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_大數(shù)據(jù)_05

    大數(shù)據(jù)產(chǎn)生的根源

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_數(shù)據(jù)_06

    大數(shù)據(jù)分析的技術(shù)基礎(chǔ)

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_大數(shù)據(jù)分析_07

    大數(shù)據(jù)分析技術(shù)的發(fā)展階段

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_機(jī)器學(xué)習(xí)_08

    大數(shù)據(jù)分析的開源框架

    • 存儲(chǔ)層, HDFS 已經(jīng)成為了大數(shù)據(jù)磁盤存儲(chǔ)的事實(shí)標(biāo)準(zhǔn),針對(duì)關(guān)系型以外的數(shù)據(jù)模型,開源社區(qū)形成了 K-V( key-value)、列式、文檔、圖這四類 NoSQL 數(shù)據(jù)庫體系, Redis、 HBase、 MongoDB、Neo4j 等數(shù)據(jù)庫是各個(gè)領(lǐng)域的領(lǐng)先者。
    • 在·計(jì)算處理引擎方面, Spark已經(jīng)取代 MapReduce 成為了大數(shù)據(jù)平臺(tái)統(tǒng)一的計(jì)算平臺(tái),在實(shí)時(shí)計(jì)算領(lǐng)域 Flink 是 Spark Streaming 強(qiáng)力的競(jìng)爭(zhēng)者。
    • 數(shù)據(jù)查詢和分析領(lǐng)域,形成了豐富的 SQL on Hadoop 的解決方案, Hive、 HAWQ、Impala、 Presto、Spark SQL 等技術(shù)與傳統(tǒng)的大規(guī)模并行處理( massively parallel processor, MPP)數(shù)據(jù)庫競(jìng)爭(zhēng)激烈,目前 Hive 還是這個(gè)領(lǐng)域當(dāng)之無愧的王者。
    • 數(shù)據(jù)可視化領(lǐng)域,敏捷商業(yè)智能( business intelligence,BI)分析工具 Tableau、QlikView 通過簡(jiǎn)單的拖拽來實(shí)現(xiàn)數(shù)據(jù)的復(fù)雜展示,是目前最受歡迎的可視化展現(xiàn)方式。