Splink Alternatives

Name: moj-analytical-services/splink
Brand: moj-analytical-services/splink
SKU: project/moj-analytical-services/splink
Rating: 4.76 (939 reviews)

Fast, accurate and scalable probabilistic data linkage with support for multiple SQL backends

Categories > Data Processing > Data Science

Suggest Alternative

Stars

939

Alternatives

License

mit

Open Issues

167

Most Recent Commit

over 2 years ago

Programming Language

Python

Monthly Downloads

Dependent Repos

Dependent Packages

Total Releases

119

Latest Release

November 14, 2023

Categories

Programming Languages > Python

Data Processing > Data Science

Data Processing > Spark

Data Processing > Apache Spark

Data Processing > Deduplication

Data Processing > Fuzzy Matching

Data Processing > Record Linkage

Site

Repo

Alternatives To moj-analytical-services/splink

Project Name	Stars	Repos Using This	Packages Using This	Most Recent Commit	Total Releases	Latest Release	Open Issues	License	Language
donnemartin/data-science-ipython-notebooks	25,668	0	0	over 2 years ago	0		34	other	Python
Data science Python notebooks: Deep learning (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, big data (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python essentials, AWS, and various command lines.
FavioVazquez/ds-cheatsheets	11,535	0	0	over 3 years ago	0		7	mit
List of Data Science Cheatsheets to rule the world
dagster-io/dagster	9,467	2	133	over 2 years ago	585	December 07, 2023	2,343	apache-2.0	Python
An orchestration platform for the development, production, and observation of data assets.
h2oai/h2o-3	7,485	62	33	about 1 month ago	49	August 09, 2023	2,746	apache-2.0	Jupyter Notebook
H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Means, PCA, Generalized Additive Models (GAM), RuleFit, Support Vector Machine (SVM), Stacked Ensembles, Automatic Machine Learning (AutoML), etc.
mage-ai/mage-ai	6,324	0	0	over 2 years ago	314	December 06, 2023	189	apache-2.0	Python
🧙 The modern replacement for Airflow. Build, run, and manage data pipelines for integrating and transforming data.
microsoft/SynapseML	4,914	0	6	over 2 years ago	12	November 27, 2023	335	mit	Scala
Simple and Distributed Machine Learning
databricks/koalas	3,291	1	16	over 2 years ago	47	October 19, 2021	112	apache-2.0	Python
Koalas: pandas API on Apache Spark
spark-notebook/spark-notebook	3,147	0	0	about 3 years ago	0		207	apache-2.0	JavaScript
Interactive and Reactive Data Science using Scala and Spark.
szilard/benchm-ml	1,839	0	0	over 3 years ago	0		11	mit	R
A minimal benchmark for scalability, speed and accuracy of commonly used open source implementations (R packages, Python scikit-learn, H2O, xgboost, Spark MLlib etc.) of the top machine learning algorithms for binary classification (random forests, gradient boosted trees, deep neural networks etc.).
hi-primus/optimus	1,540	0	0	over 1 year ago	32	June 19, 2022	29	apache-2.0	Python
:truck: Agile Data Preparation Workflows made easy with Pandas, Dask, cuDF, Dask-cuDF, Vaex and PySpark

Alternatives To moj-analytical-services/splink

Select To Compare

donnemartin/data-science-ipython-notebooks ⭐ 25,668

Data science Python notebooks: Deep learning (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, big data (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python essentials, AWS, and various command lines.

dependent packages 0 total releases 0 most recent commit over 2 years ago

FavioVazquez/ds-cheatsheets ⭐ 11,535

List of Data Science Cheatsheets to rule the world

dependent packages 0 total releases 0 most recent commit over 3 years ago

dagster-io/dagster ⭐ 9,467

An orchestration platform for the development, production, and observation of data assets.

dependent packages 133 total releases 585 most recent commit over 2 years ago downloads badge

h2oai/h2o-3 ⭐ 7,485

H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Means, PCA, Generalized Additive Models (GAM), RuleFit, Support Vector Machine (SVM), Stacked Ensembles, Automatic Machine Learning (AutoML), etc.

dependent packages 33 total releases 49 most recent commit about 1 month ago

mage-ai/mage-ai ⭐ 6,324

🧙 The modern replacement for Airflow. Build, run, and manage data pipelines for integrating and transforming data.

dependent packages 0 total releases 314 most recent commit over 2 years ago downloads badge

microsoft/SynapseML ⭐ 4,914

Simple and Distributed Machine Learning

dependent packages 6 total releases 12 most recent commit over 2 years ago

databricks/koalas ⭐ 3,291

Koalas: pandas API on Apache Spark

dependent packages 16 total releases 47 most recent commit over 2 years ago downloads badge

spark-notebook/spark-notebook ⭐ 3,147

Interactive and Reactive Data Science using Scala and Spark.

dependent packages 0 total releases 0 most recent commit about 3 years ago

szilard/benchm-ml ⭐ 1,839

A minimal benchmark for scalability, speed and accuracy of commonly used open source implementations (R packages, Python scikit-learn, H2O, xgboost, Spark MLlib etc.) of the top machine learning algorithms for binary classification (random forests, gradient boosted trees, deep neural networks etc.).

dependent packages 0 total releases 0 most recent commit over 3 years ago

hi-primus/optimus ⭐ 1,540

:truck: Agile Data Preparation Workflows made easy with Pandas, Dask, cuDF, Dask-cuDF, Vaex and PySpark

dependent packages 0 total releases 32 most recent commit over 1 year ago downloads badge

Suggest An Alternative To splink

Alternative Project Comparisons

moj-analytical-services/splink vs Data Science Ipython Notebooks

moj-analytical-services/splink vs Ds Cheatsheets

moj-analytical-services/splink vs Dagster

moj-analytical-services/splink vs H2o 3

moj-analytical-services/splink vs Mage Ai

moj-analytical-services/splink vs Synapseml

moj-analytical-services/splink vs Koalas

moj-analytical-services/splink vs Spark Notebook

moj-analytical-services/splink vs Benchm Ml

moj-analytical-services/splink vs Optimus

Popular Data Science Projects

microsoft/ML-For-Beginners⭐ 63,698

12 weeks, 26 lessons, 52 quizzes, classic Machine Learning for all

keras-team/keras⭐ 60,198

Deep Learning for humans

scikit-learn/scikit-learn⭐ 57,160

scikit-learn: machine learning in Python

apache/superset⭐ 56,358

Apache Superset is a Data Visualization and Data Exploration Platform

pandas-dev/pandas⭐ 41,008

Flexible and powerful data analysis / manipulation library for Python, providing labeled data structures similar to R data.frame objects, statistical functions, and much more

Popular Spark Projects

apache/spark⭐ 37,661

Apache Spark - A unified analytics engine for large-scale data processing

getredash/redash⭐ 24,479

Make Your Company Data Driven. Connect to any data source, easily visualize, dashboard and share your data.

yeasy/docker_practice⭐ 23,279

Learn and understand Docker&Container technologies, with real DevOps practice!

DataTalksClub/data-engineering-zoomcamp⭐ 19,461

Free Data Engineering course!

heibaiying/BigData-Notes⭐ 14,872

大数据入门指南 :star:

Popular Data Processing Categories

Jupyter Notebook

Dataset

Sql

Validation

Pipeline

Translation

Data Science

Classification

Transaction

Scraper