Awesome Open Source

Programming Languages

Search results for kafka hadoop

145 search results found

Bigdata Notes ⭐ 14,872

大数据入门指南 ⭐

Cookbook ⭐ 12,557

The Data Engineering Cookbook

God Of Bigdata ⭐ 8,483

专注大数据学习面试，大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive.

Expert_readed_books ⭐ 2,692

2021年最新总结，推荐工程师合适读本，计算机科学，软件技术，创业，思想类，数学类，人物传记书籍

Bigdataguide ⭐ 2,355

大数据学习，从零开始学习大数据，包含大数据学习各阶段学习视频、面试资料

Devops Bash Tools ⭐ 2,224

1000+ DevOps Bash Scripts - AWS, GCP, Kubernetes, Docker, CI/CD, APIs, SQL, PostgreSQL, MySQL, Hive, Impala, Kafka, Hadoop, Jenkins, GitHub, GitLab, BitBucket, Azure DevOps, TeamCity, Spotify, MP3, LDAP, Code/Build Linting, pkg mgmt for Linux, Mac, Python, Perl, Ruby, NodeJS, Golang, Advanced dotfiles: .bashrc, .vimrc, .gitconfig, .screenrc, tmux..

Szt Bigdata ⭐ 2,055

深圳地铁大数据客流分析系统🚇🚄🌟

Flink Streaming Platform Web ⭐ 1,698

基于flink的实时流计算web平台

Movie_recommend ⭐ 1,441

基于Spark的电影推荐系统，包含爬虫项目、web网站、后台管理系统以及spark推荐系统

Bigdata Interview ⭐ 1,397

🎯 🌟[大数据面试题]分享自己在网络上收集的大数据相关的面试题以及自己的答案总结.目前包含Hadoop

Bigdata Growth ⭐ 1,256

大数据知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等。

Dockerfiles ⭐ 1,171

50+ DockerHub public images for Docker & Kubernetes - DevOps, CI/CD, GitHub Actions, CircleCI, Jenkins, TeamCity, Alpine, CentOS, Debian, Fedora, Ubuntu, Hadoop, Kafka, ZooKeeper, HBase, Cassandra, Solr, SolrCloud, Presto, Apache Drill, Nifi, Spark, Consul, Riak

Nagios Plugins ⭐ 1,119

450+ AWS, Hadoop, Cloud, Kafka, Docker, Elasticsearch, RabbitMQ, Redis, HBase, Solr, Cassandra, ZooKeeper, HDFS, Yarn, Hive, Presto, Drill, Impala, Consul, Spark, Jenkins, Travis CI, Git, MySQL, Linux, DNS, Whois, SSL Certs, Yum Security Updates, Kubernetes, Cloudera etc...

Data Engineering Interview Questions ⭐ 554

More than 2000+ Data engineer interview questions.

Kafka Connect Hdfs ⭐ 473

Kafka Connect HDFS connector

Venice, Derived Data Platform for Planet-Scale Workloads.

Gather Deployment ⭐ 347

Gathers Python deployment, infrastructure and practices.

Demo_11.11_storm Spark Hadoop ⭐ 257

hadoop_storm_spark结合实验的例子，模拟淘宝双11节，根据订单详细信息，汇总出总销售 --------大概流程------- 第一阶段（storm实时报表）第二阶段（离线报表）第三阶段（大规模订单即席查询,和多维度查询）第四阶段（数据挖掘和图计算）

Sparkstreaming ⭐ 253

Spark Streaming+Flume+Kafka+HBase+Hadoop+Zookeeper实现实时日志

Weathertop ⭐ 226

J2EE学习以及Linux组件学习的日常总结，适合想了解和温习基础知识的童鞋。目前计划包含的内容有设

Big Data ⭐ 190

一个开源、成体系的大数据学习教程。spark学习 hadoop hive hbase flink教程 linux 从入门到精通

Wifiprobeanalysis ⭐ 189

基于WIFI探针的商业大数据分析技术

Bigdata Hub ⭐ 187

数据建设与大数据技术知识体系，包含hadoop、hive、spark、flink主流框架和系列框架，

Recommendsys ⭐ 173

推荐项目（实时推荐和离线推荐）

Aliyun Emapreduce Datasources ⭐ 157

Extended datasource support for Spark/Hadoop on Aliyun E-MapReduce.

Bigdata Playground ⭐ 154

A complete example of a big data application using : Kubernetes (kops/aws), Apache Spark SQL/Streaming/MLib, Apache Flink, Scala, Python, Apache Kafka, Apache Hbase, Apache Parquet, Apache Avro, Apache Storm, Twitter Api, MongoDB, NodeJS, Angular, GraphQL

Eel Sdk ⭐ 140

Big Data Toolkit for the JVM

Logvision ⭐ 136

分布式实时日志分析与入侵检测系统

Bigdata Learning ⭐ 136

大数据学习记录

Xichuan_note ⭐ 114

xichuan的学习总结笔记,覆盖了java、spring、java其他常用框架,以及大数据相关组件

Logisland ⭐ 106

Scalable stream processing platform for advanced realtime analytics on top of Kafka and Spark. LogIsland also supports MQTT and Kafka Streams (Flink being in the roadmap). The platform does complex event processing and is suitable for time series analysis. A large set of valuable ready to use processors, data sources and sinks are available.

Kafka Connect Fs ⭐ 106

Kafka Connect FileSystem Connector

Safely archive data from Apache Kafka to S3 with no Hadoop dependencies :)

kafka-connect-s3 : Ingest data from Kafka to Object Stores(s3)

My Tutorial ⭐ 93

我想构建形成自己的知识的体系，工作职位是大数据，所以主要还是以大数据为主，从主流框架Hadoop，S 大数据开发是很繁琐的，正确的运行环境是成功的第一步，所以我尽量从搭建，部署，开发整个流程都做出来，单

Mirror of Linkedin's Camus

Kafka Hadoop Loader ⭐ 84

Hadoop Job for schemaless incremental loading of messages from Kafka topics onto hdfs with configurable output partitioning. 🚫

Management and automation platform for Stateful Distributed Systems

Kangaroo ⭐ 75

Hadoop utilities for Kafka, S3, and more

Euphoria ⭐ 74

Euphoria is an open source Java API for creating unified big-data processing flows. It provides an engine independent programming model which can express both batch and stream transformations.

本项目已废弃，笔记收藏整理参考：

Kafka_spark_hbase_demo ⭐ 72

kafka spark hbase 日志统计

Platys Modern Data Platform ⭐ 58

Support for generating modern platforms dynamically with services such as Kafka, Spark, Streamsets, HDFS, ....

Awesome Data Engineering Content ⭐ 57

Sharing interesting and noteworthy Data Engineering content

Titandataoperationsystem ⭐ 57

最好的大数据项目。《Titan数据运营系统》，本项目是一个全栈闭环系统，我们有用作数据可视化的web Echart等；

Pybigdata ⭐ 56

使用 python 操作大数据的各种组件

Bigdataparty ⭐ 54

大数据组件 All-in-One 的 Dockerfile

Today I Learned

Teraslice ⭐ 50

Scalable data processing pipelines in JavaScript

Movie Recommender Demo ⭐ 50

This project walks through how you can create recommendations using Apache Spark machine learning. There are a number of jupyter notebooks that you can run on IBM Data Science Experience, and there a live demo of a movie recommendation web application you can interact with. The demo also uses IBM Message Hub (kafka) to push application events to topic where they are consumed by a spark streaming job running on IBM BigInsights (hadoop).

Ansible Cloudera Hadoop ⭐ 46

ansible playbook to deploy cloudera hadoop components to the cluster

Hadoop Unit ⭐ 45

Hadoop-Unit is a project which allow testing projects which need hadoop ecosysteme like kafka, solr, hdfs, hive, hbase, ...

Fraud Detection Tutorial ⭐ 44

Big Data Parent ⭐ 39

大数据体系，存储，计算，相关组件，分析引擎等

Xxhadoop ⭐ 37

Data Analysis Using Hadoop/Spark/Storm/ElasticSearch/MachineLearning etc. This is My Daily Notes/Code/Demo. Don't fork, Just star !

Bigdata Getting Started ⭐ 37

大数据相关框架实战项目(Hadoop, Spark, Storm, Flink)

Paraflow ⭐ 36

A real-time analytical system for ID-associated data

Engineeringteam ⭐ 32

와이빅타 엔지니어링팀의 자료를 정리해두는 곳입니다.

Jmxtrans Lib ⭐ 32

JMXTrans configuration for hadoop/cassandra/zookeeper

Dockerfiles ⭐ 31

Multi docker container images for main Big Data Tools. (Hadoop, Spark, Kafka, HBase, Cassandra, Zookeeper, Zeppelin, Drill, Flink, Hive, Hue, Mesos, ... )

Hadoop Docker ⭐ 31

Neverwinterdp_legacy ⭐ 31

NeverwinterDP - The Data Pipeline for Hadoop and Data Systems

Buildoop ⭐ 29

Hadoop Ecosystem Builder: Build, package, test and deploy your Hadoop ecosystem project.

Df_data_service ⭐ 29

DataFibers Data Service

Data_science_fun_pack ⭐ 28

Meta-repository of big data tools -- source and essential plugins for hadoop, pig, wukong, storm, kafka etc.

Bigdata Doc ⭐ 25

大数据学习笔记，学习路线，技术案例整理。

Iot Truck Streaming ⭐ 25

WASP is a framework to build complex real time big data applications. It relies on a kind of Kappa/Lambda architecture mainly leveraging Kafka and Spark. If you need to ingest huge amount of heterogeneous data and analyze them through complex pipelines, this is the framework for you.

Open source data infrastructure platform. Designed for developers, built for speed.

Fastdata Cluster ⭐ 22

Fast Data Cluster (Apache Cassandra, Kafka, Spark, Flink, YARN and HDFS with Vagrant and VirtualBox)

Nifi Sandbox ⭐ 20

Sandbox for Apache nifi

Workflowgs ⭐ 20

Archive and manage your Sony RAW images

Idocuments ⭐ 20

收集与 Java 开发相关的文档，包括基础系统服务（大数据、流计算、NoSQL 等）、专业名词、jar 包、开发工具等文档，持续更新……

Kafka Operator ⭐ 20

Stackable Operator for Apache Kafka

Jun_bigdata ⭐ 18

jun_bigdata大数据平台服务框架。实现了Kafka实时数据过滤、清洗、转换、消费，实现了Sp SQL对Redis、MongoDB等非关系型数据库的数据的读写；集成了规则引擎，可基于规则引擎实现客

Data Pipeline Project ⭐ 18

Data pipeline project

Bigdata Book ⭐ 18

上百本大数据电子书，附带下载链接，包括计算机基础，Java，hadoop，spark，flink，k

Bigdata Practice ⭐ 18

🤘 常用大数据工具学习实战，包含Hadoop、HBase、Kafka、ClickHouse、Hive、R

Divolte Examples ⭐ 17

Usage examples for Divolte collector

Qs Hadoop ⭐ 17

大数据生态圈学习

Jmx_exporter Cloudera Hadoop ⭐ 17

Prometheus jmx_exporter configurations for Cloudera Hadoop

Bigdata Tech Index ⭐ 16

Big Data Technology Index

小白大数据学习笔记 ⭐

Log_analysis ⭐ 15

Practical Log Analysis

Hadoop Docker Lite ⭐ 15

Docker build project to setup a lightweight hadoop cluster containing hadoop, pig, zookeeper, hbase, phoenix, storm, kafka, kafka manager

Docker Hadoop ⭐ 14

一键搭建zookeeper/hadoop/hive/hbase/sqoop/kafka/spark/

Bigdata Learning ⭐ 14

大数据学习，主要涉及Kafka、ZooKeeper、Hive、HBase、Spark

Aiqiyi Sparkstreaming ⭐ 14

SparkStreaming爱奇艺实时流统计及可视化展示

Hello Kafka Stream Testing ⭐ 13

The most simple way to test Kafka based applications or micro-services e.g. Read/Write during HBase/Hadoop or other Data Ingestion Pipe Lines

Cdc Kafka Hadoop ⭐ 13

MySQL to NoSQL real time dataflow

Datafabric_splunk ⭐ 13

Bigdata News ⭐ 12

基于Spark2.2新闻网大数据实时系统项目

Sdc Api Tool ⭐ 12

A set of utilities to help with management of Streamsets pipelines.

Hyperiot Services ⭐ 12

HyperIoT Platform Backend Services

Yangdocker ⭐ 12

自助搭建的 hadoop + spark + kafka + zookeeper + storm + hbase + hive + flume 集群，一主两从。

Pinot 是一个实时分布式的 OLAP 数据存储和分析系统。LinkedIn 使用它实现低延迟可伸缩的实时分析。Pinot 从离线数据源（包括 Hadoop 和各类文件）和在线数据源（如 Kafka）中攫取数据进行分析。Pinot 被设计是可以进行水平扩展的

Nyc_taxi_pipeline ⭐ 12

Design/Implement stream/batch architecture on NYC taxi data | #DE

Camus Compressor ⭐ 12

Camus Compressor merges files created by Camus and saves them in a compressed format.

Bigdataguide ⭐ 11

秋招自学上岸，自学太难了，想总结一份详细的大数据开发资料，包括基础 | 架构 | 源码，让更多自学的伙伴少走弯路。有相关问题可以添加公众号：大数据老刘，联系老刘！

Related Searches

Java Kafka (3,237)

Java Hadoop (2,117)

Kafka Zookeeper (1,229)

Docker Kafka (1,191)

Spark Hadoop (1,188)

Python Kafka (1,133)

Hadoop Hdfs (1,082)

Spark Kafka (979)

Scala Kafka (969)

Golang Kafka (919)

1-100 of 145 search results

Privacy | About | Terms | Follow Us On Twitter

Copyright 2018-2024 Awesome Open Source. All rights reserved.