Deequ Alternatives

Name: awslabs/deequ
Brand: awslabs/deequ
SKU: project/awslabs/deequ
Rating: 4.94 (3044 reviews)

Deequ is a library built on top of Apache Spark for defining \"unit tests for data\", which measure data quality in large datasets.

Categories > Data Processing > Dataset

Suggest Alternative

Stars

3,044

Alternatives

License

apache-2.0

Open Issues

141

Most Recent Commit

over 2 years ago

Programming Language

Scala

Dependent Repos

Dependent Packages

Total Releases

Latest Release

November 09, 2023

Categories

Data Processing > Dataset

Programming Languages > Scala

Operations > Metrics

Data Processing > Spark

Software Quality > Unit Testing

Data Processing > Apache Spark

Repo

Alternatives To awslabs/deequ

Project Name	Stars	Repos Using This	Packages Using This	Most Recent Commit	Total Releases	Latest Release	Open Issues	License	Language
awslabs/deequ	3,044	0	6	over 2 years ago	37	November 09, 2023	141	apache-2.0	Scala
Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets.
datastax/spark-cassandra-connector	1,929	109	22	over 2 years ago	81	April 08, 2021	25	apache-2.0	Scala
DataStax Connector for Apache Spark to Apache Cassandra
uber/petastorm	1,693	0	8	over 2 years ago	86	February 03, 2023	174	apache-2.0	Python
Petastorm library enables single machine or distributed training and evaluation of deep learning models from datasets in Apache Parquet format. It supports ML frameworks such as Tensorflow, Pytorch, and PySpark and can be used from pure Python code.
jadianes/spark-py-notebooks	1,515	0	0	over 3 years ago	0		9	other	Jupyter Notebook
Apache Spark & Python (pySpark) tutorials for Big Data Analysis and Machine Learning as IPython / Jupyter notebooks
microsoft/Mobius	940	6	0	over 3 years ago	22	January 29, 2017	88	mit	C#
C# and F# language binding and extensions to Apache Spark
jadianes/spark-movie-lens	757	0	0	about 5 years ago	0		10	other	Jupyter Notebook
An on-line movie recommender using Spark, Python Flask, and the MovieLens dataset
cdapio/cdap	735	0	56	over 2 years ago	23	September 01, 2023	98	other	Java
An open source framework for building data analytic applications.
csuldw/MachineLearning	684	0	0	over 6 years ago	0		1		Python
Machine learning resources，including algorithm, paper, dataset, example and so on.
achuthasubhash/Complete-Life-Cycle-of-a-Data-Science-Project	499	0	0	over 2 years ago	0		4	mit
Complete-Life-Cycle-of-a-Data-Science-Project
whylabs/whylogs-java	179	0	2	almost 5 years ago	5	November 01, 2020	2	apache-2.0	Java
Profile and monitor your ML data pipeline end-to-end

Alternatives To awslabs/deequ

Select To Compare

awslabs/deequ ⭐ 3,044

Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets.

dependent packages 6 total releases 37 most recent commit over 2 years ago

datastax/spark-cassandra-connector ⭐ 1,929

DataStax Connector for Apache Spark to Apache Cassandra

dependent packages 22 total releases 81 most recent commit over 2 years ago

uber/petastorm ⭐ 1,693

Petastorm library enables single machine or distributed training and evaluation of deep learning models from datasets in Apache Parquet format. It supports ML frameworks such as Tensorflow, Pytorch, and PySpark and can be used from pure Python code.

dependent packages 8 total releases 86 most recent commit over 2 years ago downloads badge

jadianes/spark-py-notebooks ⭐ 1,515

Apache Spark & Python (pySpark) tutorials for Big Data Analysis and Machine Learning as IPython / Jupyter notebooks

dependent packages 0 total releases 0 most recent commit over 3 years ago

microsoft/Mobius ⭐ 940

C# and F# language binding and extensions to Apache Spark

dependent packages 0 total releases 22 most recent commit over 3 years ago downloads badge

jadianes/spark-movie-lens ⭐ 757

An on-line movie recommender using Spark, Python Flask, and the MovieLens dataset

dependent packages 0 total releases 0 most recent commit about 5 years ago

cdapio/cdap ⭐ 735

An open source framework for building data analytic applications.

dependent packages 56 total releases 23 most recent commit over 2 years ago

csuldw/MachineLearning ⭐ 684

Machine learning resources，including algorithm, paper, dataset, example and so on.

dependent packages 0 total releases 0 most recent commit over 6 years ago

achuthasubhash/Complete-Life-Cycle-of-a-Data-Science-Project ⭐ 499

Complete-Life-Cycle-of-a-Data-Science-Project

dependent packages 0 total releases 0 most recent commit over 2 years ago

whylabs/whylogs-java ⭐ 179

Profile and monitor your ML data pipeline end-to-end

dependent packages 2 total releases 5 most recent commit almost 5 years ago

Suggest An Alternative To deequ

Alternative Project Comparisons

awslabs/deequ vs Deequ

awslabs/deequ vs Spark Cassandra Connector

awslabs/deequ vs Petastorm

awslabs/deequ vs Spark Py Notebooks

awslabs/deequ vs Mobius

awslabs/deequ vs Spark Movie Lens

awslabs/deequ vs Cdap

awslabs/deequ vs Machinelearning

awslabs/deequ vs Complete Life Cycle Of A Data Science Project

awslabs/deequ vs Whylogs Java

Popular Spark Projects

apache/spark⭐ 37,661

Apache Spark - A unified analytics engine for large-scale data processing

donnemartin/data-science-ipython-notebooks⭐ 25,668

Data science Python notebooks: Deep learning (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, big data (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python essentials, AWS, and various command lines.

getredash/redash⭐ 24,479

Make Your Company Data Driven. Connect to any data source, easily visualize, dashboard and share your data.

yeasy/docker_practice⭐ 23,279

Learn and understand Docker&Container technologies, with real DevOps practice!

DataTalksClub/data-engineering-zoomcamp⭐ 19,461

Free Data Engineering course!

Popular Dataset Projects

public-apis/public-apis⭐ 276,890

A collective list of free APIs

awesomedata/awesome-public-datasets⭐ 57,596

A topic-centric list of HQ open datasets.

apache/superset⭐ 56,358

Apache Superset is a Data Visualization and Data Exploration Platform

aymericdamien/TensorFlow-Examples⭐ 43,109

TensorFlow Tutorial and Examples for Beginners (support TF v1 & v2)

HumanSignal/label-studio⭐ 27,816

Label Studio is a multi-type data labeling and annotation tool with standardized output format

Popular Data Processing Categories

Jupyter Notebook

Dataset

Sql

Validation

Pipeline

Translation

Data Science

Classification

Transaction

Scraper