Spark快速大數(shù)據(jù)分析

| 2022-09-09 admin

一、Spark概述

Apache Spark是一種快速通用的集群計算系統(tǒng)。它提供使用Python、Java、Scala、SQL（應(yīng)對交互式查詢）的標準API來快速操控大規(guī)模數(shù)據(jù)集。它還支持一組豐富的高級工具，包括用于SQL和結(jié)構(gòu)化數(shù)據(jù)處理的Spark SQL，用于實時數(shù)據(jù)進行流式計算Spark Streaming，用于機器學(xué)習(xí)的MLlib和用于圖形處理的GraphX等。滿足各種不同應(yīng)用場景下的需求，儼然發(fā)展成了一種生態(tài)。

Spark的一個主要特點就是能夠在內(nèi)存中進行計算，因而更快。不過即使是必須在磁盤上進行的復(fù)雜計算，Spark 依然比MapReduce更加高效。

伴隨著人工智能與機器學(xué)習(xí)的快速發(fā)展，TensorFlow on Spark、Caffe on Spark也讓Spark變得更加火爆。

二、推薦一本書

《Spark快速大數(shù)據(jù)分析》是一本為Spark初學(xué)者準備的書，它沒有過多深入實現(xiàn)細節(jié)，而是更多關(guān)注上層用戶的具體用法。不過，本書絕不僅僅限于Spark的用法，它對Spark的核心概念和基本原理也有較為全面的介紹，讓讀者能夠知其然且知其所以然。

該書由Spark開發(fā)者及核心成員共同打造，講解了網(wǎng)絡(luò)大數(shù)據(jù)時代應(yīng)運而生的、能高效迅捷地分析處理數(shù)據(jù)的工具——Spark，它帶領(lǐng)讀者快速掌握用Spark收集、計算、簡化和保存海量數(shù)據(jù)的方法，學(xué)會交互、迭代和增量式分析，解決分區(qū)、數(shù)據(jù)本地化和自定義序列化等問題

Spark快速大數(shù)據(jù)分析

一、Spark概述

二、推薦一本書

二、推薦一本書