Spark The Definitive Guide Learning

《Spark: The Definitive Guide Big Data Processing Made Simple》学习心得,说翻译嘛也不算完全翻译吧,只能说以个人经验和理解重新叙述一遍。同步更新在掘金
Alternatives To Spark The Definitive Guide Learning
Project NameStarsDownloadsRepos Using ThisPackages Using ThisMost Recent CommitTotal ReleasesLatest ReleaseOpen IssuesLicenseLanguage
Pysparkling253715 months ago69January 10, 20219otherPython
A pure Python implementation of Apache Spark's RDD and DStream interfaces.
Spatialspark141
6 years ago1October 02, 20156apache-2.0Scala
Big Spatial Data Processing using Spark
Distributed Dataset107
3 years ago19bsd-3-clauseHaskell
A distributed data processing framework in Haskell.
Incubator Wayang98
2 days ago115apache-2.0Java
Apache Wayang(incubating) is the first cross-platform data processing system.
Pulsar Spark97
a day ago3June 10, 202218apache-2.0Scala
When Apache Pulsar meets Apache Spark
Prosto53
a year ago5November 21, 20215mitPython
Prosto is a data processing toolkit radically changing how data is processed by heavily relying on functions and operations with functions - an alternative to map-reduce and join-groupby
Data_processing_course53
4 months ago5otherPython
Some class materials for a data processing course using PySpark
Abacuza19
a year ago12apache-2.0JavaScript
Easing your on-premise Data Processing
Sparklanes16
13 years ago5January 31, 20192mitPython
A lightweight data processing framework for Apache Spark
Spark The Definitive Guide Learning14
4 years ago
《Spark: The Definitive Guide Big Data Processing Made Simple》学习心得,说翻译嘛也不算完全翻译吧,只能说以个人经验和理解重新叙述一遍。同步更新在掘金上,点链接可跳转
Alternatives To Spark The Definitive Guide Learning
Select To Compare


Alternative Project Comparisons
Readme

Spark-The-Definitive-Guide-Learning

《Spark: The Definitive Guide Big Data Processing Made Simple》学习记录

同步更新在掘金:《Spark 权威指南学习计划》

前言

本书出自OReilly的《Spark: The Definitive Guide Big Data Processing Made Simple》,由Matei Zaharia, Bill Chambers两位大佬所写,是2018年2月的第一版(我也不清楚有没有最新版,搜也没搜到第二版) Spark: The Definitive Guide 参考本书主页介绍,着眼于Spark 2.0的改进,探索Spark结构化API的基本操作和常用功能,以及用于构建端到端流应用程序的新型高级API Structured Streaming。学习监控,调优和调试Spark的基础知识,并探索机器学习技术和场景,以便使用Spark的可扩展机器学习库MLlib。

  • 轻松了解大数据和Spark
  • 通过工作示例了解DataFrames,SQL和Datasets-Spark的核心API
  • 深入了解Spark的低级API,RDD以及SQL和DataFrame的执行
  • 了解Spark如何在群集上运行
  • 调试,监视和调整Spark集群和应用程序
  • 了解结构流,Spark的流处理引擎的强大功能
  • 了解如何将MLlib应用于各种问题,包括分类或推荐

OReilly它家的书都是把代码和案例放在github上的,这本书也不例外,见此databricks/Spark-The-Definitive-Guid

实际上,这并非我初学Spark了,之前也有所涉猎,但想着能够深入学习,便计划写下文章加深自己理解,以及分享知识。

本书并非是对原作的翻译,好像目前国内也没有出版社翻译了这本书,仅仅是叙述自己读书的心得、想法,并结合自己之前所学加以新内容。

学习记录

计划

  • 计划第1、2、3章
    • 计划作废,和大多书一样前面内容都是总览性内容,实际性的东西也很杂,所以先放置待后期补上吧
  • 计划4、5、6章吧,(~5.26)
  • 计划7、8、9、10章 (~6.14)

书籍分为以下七大部分:

  • 大数据和Spark概述
    • Chapter 1 to 2:了解Apache Spark
    • Chapter 3:了解Spark的工具集
  • 结构化API——DataFrames, SQL, and Datasets
  • 底层API
    • Chapter 12:弹性分布式数据集(RDDs)
    • Chapter 13:高级的 RDDs
    • Chapter 14:分布式共享变量
  • 生产上的应用
    • Chapter 15:Spark 如何在集群上运行
    • Chapter 16:开发 Spark 应用程序
    • Chapter 17:部署 Spark
    • Chapter 18:监控和调试
    • Chapter 19:性能调优
  • Streaming流
    • Chapter 20:Stream 流处理基础
    • Chapter 21:结构化Streaming流的基础
    • Chapter 22:事件时间(Event-time)和状态处理
    • Chapter 23:生产中的结构化流处理
  • 高级数据分析和机器学习
    • Chapter 24:高级分析和机器学习预览
    • Chapter 25:预处理和特征工程
    • Chapter 26:分类
    • Chapter 27:回归
    • Chapter 28:Recommendation 推荐
    • Chapter 29:非监督性学习
    • Chapter 30:图分析
    • Chapter 31:深度学习
  • Spark 生态
    • Chapter 32:语言细节: Python (PySpark)和 r (SparkR 和 sparklyr)
    • Chapter 33:生态和社区

foot

收录于此:josonle/Spark-The-Definitive-Guide-Learning

更多推荐: Coding Now

学习记录的一些笔记,以及所看得一些电子书eBooks、视频资源和平常收纳的一些自己认为比较好的博客、网站、工具。涉及大数据几大组件、Python机器学习和数据分析、Linux、操作系统、算法、网络等

Popular Spark Projects
Popular Data Processing Projects
Popular Data Processing Categories

Get A Weekly Email With Trending Projects For These Categories
No Spam. Unsubscribe easily at any time.
Sql
Processing
Spark
Data Processing