Awesome Open Source
Awesome Open Source

已经更新300+篇~ 关注公众号~

大数据成神之路目录

大数据开发基础篇

🎿Java基础 📝NIO 📖并发 🎸JVM 💵分布式 💾Zookeeper 👊RPC 🎨Netty 💻Linux
Java基础 NIO 并发容器 JVM 分布式 zookeeper RPC Netty Linux

大数据框架学习篇

Hadoop Hive Spark Flink HBase Kafka Zookeeper Flume Sqoop Azkaban

大数据开发实战进阶篇

这里的文章主要是我平时发表在公众号,博客等的文章,精心挑选,以飨读者。

Flink实战进阶 Spark实战进阶 Kafka实战进阶 OLAP实战进阶

大数据开发面试篇

面试系列合集 大数据算法

第一部分: 大数据开发基础篇

一、Java基础

二、NIO基础

三、Java并发容器

四、JVM深度解析和面试点

先来10篇基础热身
再来5篇详细解说

五、分布式理论基础和原理

六、大数据框架开发基础-Zookeeper

七、大数据框架开发基础-RPC

八、大数据框架基石之网路通信-Netty

第二部分:大数据框架学习篇

本部分引用作者heibaiying,大佬写的文章非常好,欢迎大家关注他的博客。我个人会持续补充更有深度和实战性的文章~

一、Hadoop

  1. 分布式文件存储系统 —— HDFS
  2. 分布式计算框架 —— MapReduce
  3. 集群资源管理器 —— YARN
  4. Hadoop 单机伪集群环境搭建
  5. Hadoop 集群环境搭建
  6. HDFS 常用 Shell 命令
  7. HDFS Java API 的使用
  8. 基于 Zookeeper 搭建 Hadoop 高可用集群
  9. Hadoop级简入门
  10. MapReduce编程模型和计算框架架构原理

二、Hive

  1. Hive 简介及核心概念
  2. Linux 环境下 Hive 的安装部署
  3. Hive CLI 和 Beeline 命令行的基本使用
  4. Hive 常用 DDL 操作
  5. Hive 分区表和分桶表
  6. Hive 视图和索引
  7. Hive常用 DML 操作
  8. Hive 数据查询详解

三、Spark

Spark Core :

  1. Spark 简介
  2. Spark 开发环境搭建
  3. 弹性式数据集 RDD
  4. RDD 常用算子详解
  5. Spark 运行模式与作业提交
  6. Spark 累加器与广播变量
  7. 基于 Zookeeper 搭建 Spark 高可用集群

Spark SQL :

  1. DateFrame 和 DataSet
  2. Structured API 的基本使用
  3. Spark SQL 外部数据源
  4. Spark SQL 常用聚合函数
  5. Spark SQL JOIN 操作

Spark Streaming :

  1. Spark Streaming 简介
  2. Spark Streaming 基本操作
  3. Spark Streaming 整合 Flume
  4. Spark Streaming 整合 Kafka

四、Flink

  1. Flink 核心概念综述
  2. Flink 开发环境搭建
  3. Flink Data Source
  4. Flink Data Transformation
  5. Flink Data Sink
  6. Flink 窗口模型
  7. Flink 状态管理与检查点机制
  8. Flink Standalone 集群部署

Flink当前最火的实时计算引擎-入门篇

Flink当前最火的实时计算引擎-放弃篇

五、HBase

  1. Hbase 简介
  2. HBase 系统架构及数据结构
  3. HBase 基本环境搭建 (Standalone /pseudo-distributed mode)
  4. HBase 集群环境搭建
  5. HBase 常用 Shell 命令
  6. HBase Java API
  7. Hbase 过滤器详解
  8. HBase 协处理器详解
  9. HBase 容灾与备份
  10. HBase的 SQL 中间层 —— Phoenix
  11. Spring/Spring Boot 整合 Mybatis + Phoenix

六、Kafka

Kafka基本原理 :

  1. Kafka 简介
  2. 基于 Zookeeper 搭建 Kafka 高可用集群
  3. Kafka 生产者详解
  4. Kafka 消费者详解
  5. 深入理解 Kafka 副本机制

分布式消息队列Kafka原理及与流式计算的集成 :

  1. Apache-Kafka简介
  2. Apache-Kafka核心概念
  3. Apache-Kafka安装和使用
  4. Apache-Kafka编程实战
  5. Apache-Kafka核心组件和流程(副本管理器)
  6. Apache-Kafka核心组件和流程-协调器
  7. Apache-Kafka核心组件和流程-控制器
  8. Apache-Kafka核心组件和流程-日志管理器

七、Zookeeper

  1. Zookeeper 简介及核心概念
  2. Zookeeper 单机环境和集群环境搭建
  3. Zookeeper 常用 Shell 命令
  4. Zookeeper Java 客户端 —— Apache Curator
  5. Zookeeper ACL 权限控制

八、Flume

  1. Flume 简介及基本使用
  2. Linux 环境下 Flume 的安装部署
  3. Flume 整合 Kafka

九、Sqoop

  1. Sqoop 简介与安装
  2. Sqoop 的基本使用

十、Azkaban

  1. Azkaban 简介
  2. Azkaban3.x 编译及部署
  3. Azkaban Flow 1.0 的使用
  4. Azkaban Flow 2.0 的使用

十一、大数据算法

大数据算法

大数据算法

第三部分:大数据开发实战进阶篇

一、Flink实战进阶文章合集

Flink实战合集

点我查看Flink实战合集

  1. 菜鸟供应链实时技术架构演进
  2. 趣头条实战-基于Flink+ClickHouse构建实时数据平台
  3. ApacheFlink新场景-OLAP引擎
  4. 说说Flink DataStream的八种物理分区逻辑
  5. State Processor API:如何读取,写入和修改 Flink 应用程序的状态
  6. Flink滑动窗口原理与细粒度滑动窗口的性能问题
  7. 基于Flink快速开发实时TopN
  8. 使用 Apache Flink 开发实时 ETL
  9. Flink Source/Sink探究与实践:RocketMQ数据写入HBase
  10. Spark/Flink广播实现作业配置动态更新
  11. Flink全链路延迟的测量方式
  12. Flink原理-Flink中的数据抽象及数据交换过程
  13. Flink SQL Window源码全解析
  14. Flink DataStream维度表Join的简单方案
  15. Apache Flink的内存管理
  16. Flink1.9整合Kafka实战
  17. Apache Flink在小米的发展和应用
  18. 基于Kafka+Flink+Redis的电商大屏实时计算案例
  19. Flink实战-壳找房基于Flink的实时平台建设
  20. 用Flink取代Spark Streaming!知乎实时数仓架构演进
  21. Flink实时数仓-美团点评实战
  22. 来将可留姓名?Flink最强学习资源合集!
  23. 数据不撒谎,Flink-Kafka性能压测全记录!
  24. 菜鸟在物流场景中基于Flink的流计算实践
  25. 基于Flink构建实时数据仓库
  26. Flink/Spark 如何实现动态更新作业配置

二、Spark实战进阶文章合集

Spark实战合集

点我查看Spark实战合集

  1. 如果你在准备面试,好好看看这130道题
  2. ORC文件存储格式的深入探究
  3. 基于SparkStreaming+Kafka+HBase实时点击流案例
  4. HyperLogLog函数在Spark中的高级应用
  5. 我们常说的海量小文件的根源是什么?
  6. Structured Streaming | Apache Spark中处理实时数据的声明式API
  7. Spark面对OOM问题的解决方法及优化总结
  8. Spark 动态资源分配(Dynamic Resource Allocation) 解析
  9. Apache Spark在海致大数据平台中的优化实践
  10. Spark/Flink广播实现作业配置动态更新
  11. Spark SQL读数据库时不支持某些数据类型的问题
  12. 这个面试问题很难么 | 如何处理大数据中的数据倾斜
  13. Spark难点 | Join的实现原理
  14. 面试注意点 | Spark&Flink的区别拾遗
  15. Spark Checkpoint的运行原理和源码实现
  16. 阿里云Spark Shuffle的优化
  17. 使用Kafka+Spark+Cassandra构建实时处理引擎
  18. 基于HBase和Spark构建企业级数据处理平台
  19. SparkSQL在字节跳动的应用实践和优化实战
  20. SparkRDD转DataSet/DataFrame的一个深坑
  21. Spark和Flink的状态管理State的区别和应用
  22. Kafka+Spark Streaming管理offset的几种方法
  23. 从 PageRank Example谈Spark应用程序调优
  24. Spark调优|SparkSQL参数调优
  25. Flink/Spark 如何实现动态更新作业配置
  26. Stream SQL的执行原理与Flink的实现
  27. Spark将Dataframe数据写入Hive分区表的方案
  28. Spark中几种ShuffleWriter的区别你都知道吗?
  29. SparkSQL的3种Join实现
  30. 周期性清除Spark Streaming流状态的方法
  31. Structured Streaming之状态存储解析
  32. Spark SQL重点知识总结
  33. SparkSQL极简入门
  34. Spark Shuffle在网易的优化
  35. 广告点击数实时统计:Spark StructuredStreaming + Redis Streams
  36. Spark内存调优
  37. Structured Streaming 实现思路与实现概述
  38. Spark之数据倾斜调优
  39. 你不得不知道的知识-零拷贝
  40. Spark Streaming消费Kafka数据的两种方案

三、Kafka实战进阶文章合集

Kafka实战合集

点我查看Kafka实战合集

四、数据仓库实战系列

数据仓库实战合集

点我查看数据仓库实战合集

五、OLAP实战文章系列

六、面试系列合集

面试系列合集


一、Hadoop

  1.Hadoop面试题总结(一)
  2.Hadoop面试题总结(二)——HDFS
  3.Hadoop面试题总结(三)——MapReduce
  4.Hadoop面试题总结(四)——YARN
  5.Hadoop面试题总结(五)——优化问题

二、Zookeeper

  1.Zookeeper面试题总结(一)

三、Hive

  1.Hive面试题总结(一)
  2.Hive面试题总结(二)

四、HBase

  1.HBase面试题总结(一)

五、Flume

  1.Flume面试题总结(一)

六、Kafka

  1.Kafka面试题总结(一)
  2.Kafka面试题总结(二)

七、Spark

  1.Spark面试题总结(一)
  2.Spark面试题总结(二)
  3.Spark面试题总结(三)
  4.Spark面试题总结(四)

Spark性能优化:
  5.Spark面试题总结(五)——几种常见的数据倾斜情况及调优方式
  6.Spark面试题总结(六)——Shuffle配置调优
  7.Spark面试题总结(七)——程序开发调优
  8.Spark面试题总结(八)——运行资源调优

本系列的大纲会根据实际情况进行调整,欢迎大家关注~

SSS、声明

文档中参考引用了大量网络上的博客和文章,大部分给出了出处,有些没写,如果造成了侵权行为,请您联系我,立即删除~

QQQ、扫我关注公众号

关注公众号:每天定时推送Hadoop/Spark/Flink等最新的大数据干货技术文章,学习资料下载等

KKK、如果对你有用,欢迎请我喝杯咖啡

备注Github,感谢您~

HHH、扫我加群

备注来自GitHub加群,小助手会拉你进大数据讨论组,一起学习交流,期待你的到来~

为什么有这个文档

  • 以前这里只是几个txt文档
  • 是我面试腾讯阿里美团等公司大数据开发工程师的过程中总结出来的大数据开发的必知必会的知识点~
  • 后续更新在微信公众号更新,欢迎关注~

言而总之

大数据成神之路 该系列文章将为希望从事大数据开发或者由后端转型为大数据开发的工程师们指出需要学习的知识点和路径,本系列文章同时致敬我曾经在网络上看到无数个Java和大数据系列文章,深受启发同时也收货很多。

欢迎关注公众号‘大数据技术与架构’或者搜索import_bigdata关注~


Get A Weekly Email With Trending Projects For These Topics
No Spam. Unsubscribe easily at any time.
kafka (395
spark (338
hadoop (129
zookeeper (114
bigdata (94
hive (58
flink (57
hbase (57
hdfs (40

Find Open Source By Browsing 7,000 Topics Across 59 Categories