Project Name | Stars | Downloads | Repos Using This | Packages Using This | Most Recent Commit | Total Releases | Latest Release | Open Issues | License | Language |
---|---|---|---|---|---|---|---|---|---|---|
Pysparkling | 253 | 7 | 1 | 5 months ago | 69 | January 10, 2021 | 9 | other | Python | |
A pure Python implementation of Apache Spark's RDD and DStream interfaces. | ||||||||||
Spatialspark | 141 | 6 years ago | 1 | October 02, 2015 | 6 | apache-2.0 | Scala | |||
Big Spatial Data Processing using Spark | ||||||||||
Distributed Dataset | 107 | 3 years ago | 19 | bsd-3-clause | Haskell | |||||
A distributed data processing framework in Haskell. | ||||||||||
Incubator Wayang | 98 | 2 days ago | 115 | apache-2.0 | Java | |||||
Apache Wayang(incubating) is the first cross-platform data processing system. | ||||||||||
Pulsar Spark | 97 | a day ago | 3 | June 10, 2022 | 18 | apache-2.0 | Scala | |||
When Apache Pulsar meets Apache Spark | ||||||||||
Prosto | 53 | a year ago | 5 | November 21, 2021 | 5 | mit | Python | |||
Prosto is a data processing toolkit radically changing how data is processed by heavily relying on functions and operations with functions - an alternative to map-reduce and join-groupby | ||||||||||
Data_processing_course | 53 | 4 months ago | 5 | other | Python | |||||
Some class materials for a data processing course using PySpark | ||||||||||
Abacuza | 19 | a year ago | 12 | apache-2.0 | JavaScript | |||||
Easing your on-premise Data Processing | ||||||||||
Sparklanes | 16 | 1 | 3 years ago | 5 | January 31, 2019 | 2 | mit | Python | ||
A lightweight data processing framework for Apache Spark | ||||||||||
Spark The Definitive Guide Learning | 14 | 4 years ago | ||||||||
《Spark: The Definitive Guide Big Data Processing Made Simple》学习心得,说翻译嘛也不算完全翻译吧,只能说以个人经验和理解重新叙述一遍。同步更新在掘金上,点链接可跳转 |
《Spark: The Definitive Guide Big Data Processing Made Simple》学习记录
同步更新在掘金:《Spark 权威指南学习计划》
本书出自OReilly的《Spark: The Definitive Guide Big Data Processing Made Simple》,由Matei Zaharia, Bill Chambers两位大佬所写,是2018年2月的第一版(我也不清楚有没有最新版,搜也没搜到第二版)
参考本书主页介绍,着眼于Spark 2.0的改进,探索Spark结构化API的基本操作和常用功能,以及用于构建端到端流应用程序的新型高级API Structured Streaming。学习监控,调优和调试Spark的基础知识,并探索机器学习技术和场景,以便使用Spark的可扩展机器学习库MLlib。
OReilly它家的书都是把代码和案例放在github上的,这本书也不例外,见此databricks/Spark-The-Definitive-Guid
实际上,这并非我初学Spark了,之前也有所涉猎,但想着能够深入学习,便计划写下文章加深自己理解,以及分享知识。
本书并非是对原作的翻译,好像目前国内也没有出版社翻译了这本书,仅仅是叙述自己读书的心得、想法,并结合自己之前所学加以新内容。
计划
- 计划第1、2、3章
- 计划作废,和大多书一样前面内容都是总览性内容,实际性的东西也很杂,所以先放置待后期补上吧
- 计划4、5、6章吧,(~5.26)
- 计划7、8、9、10章 (~6.14)
书籍分为以下七大部分:
收录于此:josonle/Spark-The-Definitive-Guide-Learning
更多推荐: Coding Now
学习记录的一些笔记,以及所看得一些电子书eBooks、视频资源和平常收纳的一些自己认为比较好的博客、网站、工具。涉及大数据几大组件、Python机器学习和数据分析、Linux、操作系统、算法、网络等