Learn Hadoop And Spark Alternatives

Name: vivek2319/Learn-Hadoop-and-Spark
Brand: vivek2319/Learn-Hadoop-and-Spark
SKU: project/vivek2319/Learn-Hadoop-and-Spark
Rating: 4.43 (22 reviews)

This repository focuses on gathering and making a curated list resources to learn Hadoop for FREE.

Categories > Data Processing > Hadoop

Suggest Alternative

Stars

Alternatives

License

No license specified

Open Issues

Most Recent Commit

about 8 years ago

Programming Language

Python

Dependent Repos

Dependent Packages

Total Releases

Categories

Programming Languages > Python

Data Processing > Hadoop

Data Processing > Big Data

Data Processing > Hive

Data Storage > Hbase

Data Processing > Mapreduce

Data Processing > Apache Spark

Control Flow > Apache Kafka

Control Flow > Apache Storm

Repo

Alternatives To vivek2319/Learn-Hadoop-and-Spark

Project Name	Stars	Repos Using This	Packages Using This	Most Recent Commit	Total Releases	Latest Release	Open Issues	License	Language
apache/spark	37,661	2,394	939	over 2 years ago	46	May 09, 2021	186	apache-2.0	Scala
Apache Spark - A unified analytics engine for large-scale data processing
donnemartin/data-science-ipython-notebooks	25,668	0	0	over 2 years ago	0		34	other	Python
Data science Python notebooks: Deep learning (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, big data (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python essentials, AWS, and various command lines.
heibaiying/BigData-Notes	14,872	0	0	over 2 years ago	0		39		Java
大数据入门指南 :star:
andkret/Cookbook	12,557	0	0	over 2 years ago	0		111	apache-2.0
The Data Engineering Cookbook
trinodb/trino	9,118	0	29	over 2 years ago	83	November 30, 2023	2,496	apache-2.0	Java
Official repository of Trino, the distributed SQL query engine for big data, formerly known as PrestoSQL (https://trino.io)
wangzhiwubigdata/God-Of-BigData	8,483	0	0	almost 3 years ago	0		3
专注大数据学习面试，大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive...
h2oai/h2o-3	7,485	62	33	about 2 months ago	49	August 09, 2023	2,746	apache-2.0	Jupyter Notebook
H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Means, PCA, Generalized Additive Models (GAM), RuleFit, Support Vector Machine (SVM), Stacked Ensembles, Automatic Machine Learning (AutoML), etc.
apache/hive	5,222	0	0	over 2 years ago	0		89	apache-2.0	Java
Apache Hive
apache/ignite	4,626	15	3	over 2 years ago	36	May 04, 2023	729	apache-2.0	Java
Apache Ignite
apache/calcite	4,216	390	128	over 2 years ago	1,714	November 07, 2023	315	apache-2.0	Java
Apache Calcite

Alternatives To vivek2319/Learn-Hadoop-and-Spark

Select To Compare

apache/spark ⭐ 37,661

Apache Spark - A unified analytics engine for large-scale data processing

dependent packages 939 total releases 46 most recent commit over 2 years ago

donnemartin/data-science-ipython-notebooks ⭐ 25,668

Data science Python notebooks: Deep learning (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, big data (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python essentials, AWS, and various command lines.

dependent packages 0 total releases 0 most recent commit over 2 years ago

heibaiying/BigData-Notes ⭐ 14,872

大数据入门指南 :star:

dependent packages 0 total releases 0 most recent commit over 2 years ago

andkret/Cookbook ⭐ 12,557

The Data Engineering Cookbook

dependent packages 0 total releases 0 most recent commit over 2 years ago

trinodb/trino ⭐ 9,118

Official repository of Trino, the distributed SQL query engine for big data, formerly known as PrestoSQL (https://trino.io)

dependent packages 29 total releases 83 most recent commit over 2 years ago

wangzhiwubigdata/God-Of-BigData ⭐ 8,483

专注大数据学习面试，大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive...

dependent packages 0 total releases 0 most recent commit almost 3 years ago

h2oai/h2o-3 ⭐ 7,485

H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Means, PCA, Generalized Additive Models (GAM), RuleFit, Support Vector Machine (SVM), Stacked Ensembles, Automatic Machine Learning (AutoML), etc.

dependent packages 33 total releases 49 most recent commit about 2 months ago

apache/hive ⭐ 5,222

Apache Hive

dependent packages 0 total releases 0 most recent commit over 2 years ago

apache/ignite ⭐ 4,626

Apache Ignite

dependent packages 3 total releases 36 most recent commit over 2 years ago downloads badge

apache/calcite ⭐ 4,216

Apache Calcite

dependent packages 128 total releases 1,714 most recent commit over 2 years ago

Suggest An Alternative To Learn-Hadoop-and-Spark

Alternative Project Comparisons

vivek2319/Learn-Hadoop-and-Spark vs Spark

vivek2319/Learn-Hadoop-and-Spark vs Data Science Ipython Notebooks

vivek2319/Learn-Hadoop-and-Spark vs Bigdata Notes

vivek2319/Learn-Hadoop-and-Spark vs Cookbook

vivek2319/Learn-Hadoop-and-Spark vs Trino

vivek2319/Learn-Hadoop-and-Spark vs God Of Bigdata

vivek2319/Learn-Hadoop-and-Spark vs H2o 3

vivek2319/Learn-Hadoop-and-Spark vs Hive

vivek2319/Learn-Hadoop-and-Spark vs Ignite

vivek2319/Learn-Hadoop-and-Spark vs Calcite

Popular Hadoop Projects

dmlc/xgboost⭐ 25,253

Scalable, Portable and Distributed Gradient Boosting (GBDT, GBRT or GBM) Library, for Python, R, Java, Scala, C++ and more. Runs on single machine, Hadoop, Spark, Dask, Flink and DataFlow

spotify/luigi⭐ 17,046

Luigi is a Python module that helps you build complex pipelines of batch jobs. It handles dependency resolution, workflow management, visualization etc. It also comes with Hadoop support built in.

Tencent/APIJSON⭐ 16,277

🏆 零代码、全功能、强安全 ORM 库 🚀 后端接口和文档零代码，前端(客户端) 定制返回 JSON 的数据和结构。 🏆 A JSON Transmission Protocol and an ORM Library 🚀 provides APIs and Docs without writing any code.

deeplearning4j/deeplearning4j⭐ 14,235

Suite of tools for deploying and training deep learning models using the JVM. Highlights include model import for keras, tensorflow, and onnx/pytorch, a modular and tiny c++ library for running math code and a java based math library on top of the core c++ library. Also includes samediff: a pytorch/tensorflow like library for running deep learn...

apache/doris⭐ 10,666

Apache Doris is an easy-to-use, high performance and unified analytics database.

Popular Big Data Projects

binhnguyennus/awesome-scalability⭐ 50,409

The Patterns of Scalable, Reliable, and Performant Large-Scale Systems

ClickHouse/ClickHouse⭐ 32,770

ClickHouse® is a free analytics DBMS for big data

apache/flink⭐ 22,747

Apache Flink

taosdata/TDengine⭐ 22,519

TDengine is an open source, high-performance, cloud native time-series database optimized for Internet of Things (IoT), Connected Cars, Industrial IoT and DevOps.

n0shake/Public-APIs⭐ 20,548

📚 A public list of APIs from round the web.

Popular Data Processing Categories

Jupyter Notebook

Dataset

Sql

Validation

Pipeline

Translation

Data Science

Classification

Transaction

Scraper