Spark快速大數(shù)據(jù)分析

| 2022-09-09 admin

一、Spark概述

Apache Spark是一種快速通用的集群計算系統(tǒng)。它提供使用Python、Java、Scala、SQL(應(yīng)對交互式查詢)的標準API來快速操控大規(guī)模數(shù)據(jù)集。它還支持一組豐富的高級工具,包括用于SQL和結(jié)構(gòu)化數(shù)據(jù)處理的Spark SQL,用于實時數(shù)據(jù)進行流式計算Spark Streaming,用于機器學(xué)習(xí)的MLlib和用于圖形處理的GraphX等。滿足各種不同應(yīng)用場景下的需求,儼然發(fā)展成了一種生態(tài)。

Spark的一個主要特點就是能夠在內(nèi)存中進行計算,因而更快。不過即使是必須在磁盤上進行的復(fù)雜計算,Spark 依然比MapReduce更加高效。

伴隨著人工智能與機器學(xué)習(xí)的快速發(fā)展,TensorFlow on Spark、Caffe on Spark也讓Spark變得更加火爆。

二、推薦一本書

《Spark快速大數(shù)據(jù)分析》是一本為Spark初學(xué)者準備的書,它沒有過多深入實現(xiàn)細節(jié),而是更多關(guān)注上層用戶的具體用法。不過,本書絕不僅僅限于Spark的用法,它對Spark的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。

該書由Spark開發(fā)者及核心成員共同打造,講解了網(wǎng)絡(luò)大數(shù)據(jù)時代應(yīng)運而生的、能高效迅捷地分析處理數(shù)據(jù)的工具——Spark,它帶領(lǐng)讀者快速掌握用Spark收集、計算、簡化和保存海量數(shù)據(jù)的方法,學(xué)會交互、迭代和增量式分析,解決分區(qū)、數(shù)據(jù)本地化和自定義序列化等問題