Project Name	Stars	Repos Using This	Packages Using This	Most Recent Commit	Total Releases	Latest Release	Open Issues	License	Language
Sentencepiece	8,851	120	787	3 months ago	34	May 02, 2023	32	apache-2.0	C++
Unsupervised text tokenizer for Neural Network-based text generation.
Tokenizers	8,056		362	3 months ago	85	November 14, 2023	233	apache-2.0	Rust
💥 Fast State-of-the-Art Tokenizers optimized for Research and Production
Gpt2 Chinese	7,249			4 months ago			105	mit	Python
Chinese version of GPT2 training code, using BERT tokenizer.
Hazm	1,104	17	13	12 days ago	20	October 01, 2023	12	mit	Python
Persian NLP Toolkit
Natasha	1,085	3	9	7 months ago	19	July 24, 2023	24	mit	Python
Solves basic Russian NLP tasks, API for lower level Natasha projects
Kobert	1,035			a year ago			5	apache-2.0	Jupyter Notebook
Korean BERT pre-trained cased (KoBERT)
Nlp With Ruby	1,002			10 months ago			5	cc0-1.0	Ruby
Curated List: Practical Natural Language Processing done in Ruby
Soynlp	801	4	9	2 years ago	33	August 25, 2019	54	other	Python
한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다.
Ekphrasis	583	7		2 years ago	54	May 17, 2022	18	mit	Python
Ekphrasis is a text processing tool, geared towards text from social networks, such as Twitter or Facebook. Ekphrasis performs tokenization, word normalization, word segmentation (for splitting hashtags) and spell correction, using word statistics from 2 big corpora (english Wikipedia, twitter - 330mil english tweets).
Open Korean Text	552	6	6	a year ago	14	August 07, 2018	13	apache-2.0	Scala
Open Korean Text Processor - An Open-source Korean Text Processor

Alternatives To Greynirserver

Select To Compare

Sentencepiece ⭐ 8,851

Unsupervised text tokenizer for Neural Network-based text generation.

dependent packages 787total releases 34most recent commit 3 months ago

Tokenizers ⭐ 8,056

💥 Fast State-of-the-Art Tokenizers optimized for Research and Production

dependent packages 362total releases 85most recent commit 3 months ago

Gpt2 Chinese ⭐ 7,249

Chinese version of GPT2 training code, using BERT tokenizer.

most recent commit 4 months ago

Hazm ⭐ 1,104

Persian NLP Toolkit

dependent packages 13total releases 20most recent commit 12 days ago

Natasha ⭐ 1,085

Solves basic Russian NLP tasks, API for lower level Natasha projects

dependent packages 9total releases 19most recent commit 7 months ago

Kobert ⭐ 1,035

Korean BERT pre-trained cased (KoBERT)

most recent commit a year ago

Nlp With Ruby ⭐ 1,002

Curated List: Practical Natural Language Processing done in Ruby

most recent commit 10 months ago

Soynlp ⭐ 801

한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다.

dependent packages 9total releases 33most recent commit 2 years ago

Ekphrasis ⭐ 583

Ekphrasis is a text processing tool, geared towards text from social networks, such as Twitter or Facebook. Ekphrasis performs tokenization, word normalization, word segmentation (for splitting hashtags) and spell correction, using word statistics from 2 big corpora (english Wikipedia, twitter - 330mil english tweets).

total releases 54most recent commit 2 years ago

Open Korean Text ⭐ 552

Open Korean Text Processor - An Open-source Korean Text Processor

dependent packages 6total releases 14most recent commit a year ago

Suggest An Alternative To GreynirServer

Alternative Project Comparisons

Greynirserver vs Sentencepiece

Greynirserver vs Tokenizers

Greynirserver vs Gpt2 Chinese

Greynirserver vs Hazm

Greynirserver vs Natasha

Greynirserver vs Kobert

Greynirserver vs Nlp With Ruby

Greynirserver vs Soynlp

Greynirserver vs Ekphrasis

Greynirserver vs Open Korean Text

Popular Natural Language Processing Projects

Transformers ⭐ 124,049

🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.

dependent packages 2,484total releases 125latest release November 15, 2023most recent commit 16 days ago

D2l Zh ⭐ 56,684

《动手学深度学习》：面向中文读者、能运行、可讨论。中英文版被70多个国家的500多所大学用于教学。

dependent packages 1total releases 51latest release August 18, 2023most recent commit a month ago

Ailearning ⭐ 37,934

AiLearning：数据分析+机器学习实战+线性代数+PyTorch+NLTK+TF2

dependent packages 2total releases 8latest release March 20, 2022most recent commit 2 months ago

Bert ⭐ 36,099

TensorFlow code and pre-trained models for BERT

dependent packages 10total releases 5latest release August 11, 2020most recent commit 6 months ago

Made With Ml ⭐ 35,496

Learn how to design, develop, deploy and iterate on production-grade ML applications.

total releases 5latest release May 15, 2019most recent commit 5 months ago

Popular Tokenizer Projects

Php Token Stream ⭐ 6,457

Wrapper around PHP's tokenizer extension.

dependent packages 188total releases 36latest release November 30, 2020most recent commit 3 years ago

packagist phpunit/php-token-stream} Downloads

Tokenizer ⭐ 5,084

A small library for converting tokenized PHP source code into XML (and potentially other formats)

dependent packages 11total releases 8latest release November 20, 2023most recent commit 5 months ago

File Type ⭐ 3,366

Detect the file type of a Buffer/Uint8Array/ArrayBuffer

dependent packages 1,894total releases 141latest release November 11, 2023most recent commit 4 months ago

Tntsearch ⭐ 3,004

A fully featured full text search engine written in PHP

dependent packages 27total releases 63latest release July 19, 2023most recent commit 4 months ago

Chevrotain ⭐ 2,381

Parser Building Toolkit for JavaScript

dependent packages 272total releases 170latest release August 14, 2023most recent commit 18 days ago

Popular Machine Learning Categories

Natural Language Processing

Neural Network

Neural

Computer Vision

Convolutional Neural Networks

Opencv