Funnlp

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱 语料/数据集、变量命名神器、分词语料库+代码、任务型对话英文数据集、ASR 语音数据集 + 基于深度学习的中文语音识别系统、笑声检测器、Microsoft多语言数字/单位/如日期时间识别包、中 中文模型、Common Voice语音识别数据集新版、神经网络关系抽取、基于bert的命名实体识别、关键词(Keyphras 从“人声语音”及其“语言文本”产生音素级别时间对齐标注的工具、AmpliGraph: 知识图谱表示学习(Python)库:知识图谱概念链接预测、Scattertext 文本可视化(python)、语言/知识表示工具:BERT & ERNIE、中文对比英文自然语言处理NLP的区别综述、Synonyms中文近义词工具包、Harves 仅支持英文、人民日报语料处理工具集、一些关于自然语言的基本模型、基于14W歌曲知识库的问答尝试--功 bilstm模型的相似句子判定模型并提供训练数据集和测试数据集、用Transformer编解码模型实 News文章标题自动生成评论、用BERT进行序列标记和文本分类的模板代码、LitBank:NLP数据 LAMA语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统 PDF 或者 PPT、自然语言生成SQL语句(英文)、中文NLP数据增强(EDA)工具、英文NLP数据增强工具 、基于医药知识图谱的智能问答系统、京东商品知识图谱、基于mongodb存储的军事领域知识图谱问答项目 qingyun 训练出来的中文聊天机器人、中文聊天机器人seqGAN、省市区镇行政区划数据带拼音标注、教育行业新闻语 中文语音识别-提供预训练模型-高识别率、Python音频数据增广库、中文全词覆盖BERT及两份阅读理 知识图谱构建工具包、诗歌质量评价/细粒度情感诗歌语料库、快速转化「中文数字」和「阿拉伯数字」、百度知 加速版的jieba、正则表达式教程、中文阅读理解数据集、基于BERT等最新语言模型的抽取式摘要提取、 0.2.0:纯Python版自然语言处理包、NeuralNLP-NeuralClassifier:腾 vs. BertNER、新闻事件线索抽取、2019年百度的三元组抽取比赛:“科学空间队”源码、基于依存句法的 - 机器学习(Machine Learning)NLP面试中常考到的知识点和代码实现、nlp4han:中文自然语言处理工具集(断句 - 基于CNN+Bi-LSTM+Attention 的自动对对联系统、抽象知识图谱、MiningZhiDaoQACorpus - 580万百度知道问答数据挖掘项目、brat rapid annotation tool: 序列标注工具、大规模中文知识图谱数据:1.4亿实体、数据增强在机器翻译及其他nlp任务中的应用及效果 、 Graphbrain:AI开源软件库和科研工具,目的是促进自动意义提取和文本理解以及知识的探索和推断 OCR 文字识别 、从包含表格的扫描图片中识别表格和文字、语声迁移、Python口语自然语言处理工具集(英文)、 similarity:相似度计算工具包,java编写、海量中文预训练ALBERT模型 、Transformers 2.0 、基于大规模音频数据集Audioset的音频增强 、Poplar:网页版自然语言标注工具、图片文字去除,可用于漫画翻译 、186种语言的数字叫法库、Amazon发布基于知识的人-人开放领域对话数据集 、中文文本纠错模块代码、繁简体转换 、 Python实现的多种文本可读性评价指标、类似于人名/地名/组织机构名的命名体识别数据集 、东南大学《知识图谱》研究生课程(资料)、. 英文拼写检查库 、 wwsearch是企业微信后台自研的全文检索引擎、CHAMELEON:深度学习新闻推荐系统元架构 、 8篇论文梳理BERT相关模型进展与反思、DocSearch:免费文档搜索引擎、 LIDA:轻量交互式对话标注工具 、aili - the fastest in-memory index in the East 东半球最快并发索引 、知识图谱车音工作项目、自然语言生成资源大全 、中日韩分词库mecab的Python接口库、中文文本摘要/关键词提取、汉字字符特征提取器 (featurizer),提取汉字的特征(发音特征、字形特征)用做深度学习的特征、中文生成任务基准测 、中文缩写数据集、中文任务基准测评 - 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜、PySS3:面向可解释 、中文NLP数据集列表、COPE - 格律诗编辑程序、doccano:基于网页的开源协同多语言文本标注工具 、PreNLP:自然语言预处理库、简单的简历解析器,用来从简历中提取关键信息、用于中文闲聊的GPT2 、词语拼音数据、高效模糊搜索工具、NLP数据增广资源集、微软对话机器人框架 、 GitHub Typo Corpus:大规模GitHub多语言拼写错误/语法错误数据集、TextCluster:短文本聚类预 Short text cluster、面向语音识别的中文文本规范化、BLINK:最先进的实体链接库、BertPunc:基于 医学文本挖掘与信息提取 、 NLP任务示例项目代码集、 python拼写检查库、chatbot-list - 行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍、语音质量评价指标(MOSNet, BSSEval, STOI, PESQ, SRMR)、 用138GB语料训练的法文RoBERTa预训练语言模型 、BERT-NER-Pytorch:三种不同模式的BERT中文NER实验、无道词典 - 有道词典的命令行版本,支持英汉互查和在线查询、2019年NLP亮点回顾、 Chinese medical dialogue data 中文医疗对话数据集 、最好的汉字数字(中文数字)-阿拉伯数字转换工具、 基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧、awesome-nlp-sentim - 情感分析、情绪原因识别、评价对象和评价词抽取、LineFlow:面向所有深度学习框架的NLP数据高效 、MedQuAD:(英文)医学问答数据集、将自然语言数字串解析转换为整数和浮点数、Transfer Learning in Natural Language Processing (NLP) 、面向语音识别的中文/英文发音辞典、Tokenizers:注重性能与多功能性的最先进分词器、CLUE 细粒度命名实体识别 Fine Grained Named Entity Recognition、 基于BERT的中文命名实体识别、中文谣言数据库、NLP数据集/基准任务大列表、nlp相关的一些论文及 包括主题模型、词向量(Word Embedding)、命名实体识别(NER)、文本分类(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)计算等,涉及到各种与nlp相关的算法,基于keras和tensorflow 、Python文本挖掘/NLP实战示例、 Blackstone:面向非结构化法律文本的spaCy pipeline和NLP模型通过同义词替换实现文本“变脸” 、中文 预训练 ELECTREA 模型: 基于对抗学习 pretrain Chinese Model 、albert-chinese-ner - 用预训练语言模型ALBERT做中文NER 、基于GPT2的特定主题文本生成/文本增广、开源预训练语言模型合集、多语言句向量包、编码、标记和实现 英文脏话大列表 、attnvis:GPT2、BERT等transformer语言模型注意力交互可视化、CoVoST: - 以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能、用unet实现对文档表格的自动检测,表格重建、NLP事件提取文献资源列表 、 金融领域自然语言处理研究资源大列表、CLUEDatasetSearch - 中英文NLP数据集:搜索所有中文NLP数据集,附常用英文NLP数据集 、medical_NER - 中文医学知识图谱命名实体识别 、(哈佛)讲因果推理的免费书、知识图谱相关学习资料/数据集/工具资源大列表、Forte:灵活强大的自 、Python字符串相似性算法库、PyLaia:面向手写文档分析的深度学习工具包、TextFoole

NLP

The Most Powerful NLP-Weapon Arsenal

NLP: NLP

NLPgithub

star⭐️

watchfork❤️❤️❤️

🍆 🍒 🍐 🍊                   🌻 🍓 🍈 🍅 🍍                    
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* NLP
*
*
*
*
*
*
*
* NLP
* NLP
* NLP
*
*

Name Description
wainshine/Chinese-Names-Corpus
Chinese-Word-Vectors github repo
, PTT, , , ,, link
json github
2dva
3GHTMLJSONnameaccountIDtitlecontent github
github
LeaderboardState-of-the-art github
/(ASR) github
LitBankNLP 100 github
ULMFiT github
github
github
github
5809385800 github
851620135M github
github repo
nlp17GB+9MB2-3 Gbit/s github
700,000 couplets, 70 github
github
42GBJD(CSDD) github
70 link
github
4 Homepage
github
fake news corpus github
/ github
github
github
-()--baseline-- github
github
CLUEDatasetSearch NLPNLPNLP github
github
139M + paper and code
/ github
NLP github
// github
&&& github
OpenCLaP github
BERT DRCDSQuAD
CMRC 2018:SQuAD
github
Dakshina / github
OPUS-100 (100) github
github
github
() github
NLP/ github
LitBankNLP 100 github
70 github
- github
COLDDateset paper

Name Description
textfilter observerss/textfilter
-> cocoNLP
: ; : ;: /n /n /vn github
() () () kfcd/chaizi
:0.400704566541
: 0.37006739587
rainarch/SentiBridge
dongxiexidian/Chinese
python-pinyin mozillazg/python-pinyin
zhtools skydark/nstools
say wo i ni # tinyfool/ChineseWithEnglish
chinese_dictionary guotong1988/chinese_dictionary
wordninja wordninja
data
THU IT link
856, 280,20W13 github
+ - pea6
Bi-LSTM + CRF+ keras link
Universal Transformer + CRF link
java version
chinese-xinhua api github
SpaCy Parser, NER, packagespacyspacy github
github
Synonyms github
HarvestText -- github
word2word -62/3,564 github
github
github
103976 sqlcsvExcel github
github
github
186 github
github
(featurizer) github
char_featurizer - github
mecabPython github
g2pC github
ssc, Sound Shape Code - version 1
version 2
blog/introduction
/ github
Tokenizer github
Tokenizers github
github
token2indexPyTorch/Tensorflow github
github
NLP github
68916 github

&

Name Description
BMList github
bert link
bertslides link
github
bert tutorial github
bert pytorch github
bert pytorch github
BERTBERT github
bertELMO github
BERT Pre-trained models and downstream applications github
/BERT & ERNIE github
Kashgarigpt-2 github
Facebook LAMA Transformer-XL/BERT/ELMo/GPT github
GPT2 github
XLMFacebook github
ALBERT github
Transformers 20 TensorFlow 20 PyTorch (BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet) 8/33/102 github
8BERT github
RoBERTa 138GBRoBERTa link
ELECTREA pretrain Chinese Model github
albert-chinese-ner ALBERTNER github
github
ELECTRA github
Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)() github
TensorFlow Hub 40+() link
UER BERTGPTELMO github
github
github
Language Model as a Service (LMaaS) github
GPT-NeoX-20B 200 github
CSL 396,209 CSL NLP github
github

Name Description
python package cocoNLP java version
python version
pytorch github
bert pytorch github
(Keyphrase) pke github
BLINK github
BERT/CRF github
LatticeLSTM github
python github
TensorFlowBERT - Entity and Relation Extraction Based on TensorFlow and BERT TensorFlowBERT2019Schema based Knowledge Extraction, SKE 2019 github
NeuroNER vs BertNER github
BERT github
github
bert tensorflow github
bert-Kashgari keras Kashgari github
cocoNLP rake github
Microsoft// github
github
NER github
github
github
chinese_keyphrase_extractor (CKPE) A tool for chinese keyphrase extraction github
github
BERT-NER-PytorchBERTNER github

Name Description
XLORE link
github
github
repogithub
github
AmpliGraph (Python) github
github
github
Zincbase github
github
github
() github
github
github
132 link
(COKG-19) link
github
50 github
14 github
Jiagu BiLSTM github
medical_NER - github
// github
LibKGE github
mongodb 81005800jiebademo github
github
github
github
BLINK github
/ github
dstlr github
BERT github
COVID-19 github
github
DGL-KE github
method data
link

Name Description
Texar Toolkit for Text Generation and Beyond github
Ehud Reiter link NLG
github
link
github
github
BLEURT link
link
70
TransformerHacker News github
SQL github
github
github
GPT2/ github
github
TextFooler/ github
SimBERT UniLMBERT github
GPT-2 github
github
github

Name Description
/ github
github
TextTeaser github
BERT github
Python link
(Colab)( github

Name Description
github
robot qingyun qingyun github
github
qa Amodel-for-Retrivalchatbot - Chinese Retreival chatbot git
ConvLab github
rasa github
-() github
github
MiningZhiDaoQACorpus 580580 github
GPT2GPT2-chitchat github
(LeaderboardsDatasetsPapers) github
github
chatbot-list github
Chinese medical dialogue data github
110400 github
CrossWOZ paper & data
github
2020(DSTC9 2020) github
QuoraT5(Paraphrase) github
GoogleTaskmaster-2 github
Haystack(QA) github
github
Amazon- github
webqadureaderAlbert Large QA github
CommonsenseQAQA link
MedQuAD() github
AlbertElectra github
14W github

Name Description
github
github
python github
GitHub Typo CorpusGitHub/ github
BertPuncBERT github
github
Chinese Spell Checking (CSC) and Grammatical Error Correction (GEC) github
link

Name Description
1 github
Chinese-CLIP CLIP & github

Name Description
ASR + github
THCHS30 data_thchs30tgz-OpenSLR
data_thchs30tgz
test-noisetgz-OpenSLRtest-noisetgz
resourcetgz-OpenSLR
resourcetgz
Free ST Chinese Mandarin Corpus
Free ST Chinese Mandarin Corpus
AIShell-1 -OpenSLR
AIShell-1
Primewords Chinese Corpus Set 1-OpenSLR
Primewords Chinese Corpus Set 1
github
Common Voice 42,0001,400github link
speech-aligner github
ASR/ github
github
masr github
github
(MOSNet, BSSEval, STOI, PESQ, SRMR) github
/ github
CoVoSTFacebook- 11() github
ParakeetPaddlePaddle- github
(Java) github
CoVoSTFacebook- github
TensorFlow 2 github
Python github
ViSQOL github
zhrtvc github
aukit github
phkit github
zhvoice 832009001300 github
audio github
github
Python github
Audioset github
github

Name Description
LayoutLM-v3 github
PyLaia github
github
DocSearch github
fdfgen pdf link
pdfx pdf link
invoice2data pdf invoice2data
pdf github
PDFMiner PDFMinerPDFPDF(HTML)PDF link
PyPDF2 PyPDF 2python PDFPDFPDFPDF link
PyPDF2 PyPDF 2python PDFPDFPDFPDF link
ReportLab ReportLabPDF PDFPython5LinuxWikipedia/ link
SIMPdfPythonPDF github
pdf-diff PDFdiff pdf github

Name Description
unet github
pdftabextract OCR link
tabula-py pdfpandasdataframejavapython
camelot pdf link
pdfplumber pdf
PubLayNet link
github
BERT github


GAN github
carefree-learn(PyTorch) (AutoML) github
github
PDF github
TaBERT paper
Awesome-Table-Recognition github

Name Description
QAMatchZoo github
github
similarity java, github
Hownet gihtub
Python github
Siamese bilstm, 10 github

Name Description
NLPEDA github
NLP github
github
nlp link
NLP github

Name Description
email python package cocoNLP
phone_number python package cocoNLP
IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])
IDs = re.findall(IDCards_pattern, text, flags=0)
IP (25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d)
QQ [1-9]([0-9]{5,11})
[0-9-()]{7,18}
[A-Za-z0-9_-\u4e00-\u9fa5]+
+ github
github

Name Description
github
/BERT/ link
Deepmatch github
wwsearch github
aili - the fastest in-memory index in the East github
RapidFuzz a fast string matching library for Python and C++, which is using the string similarity calculations from FuzzyWuzzy github

Name Description
github
/BERT/ link
Deepmatch github
allennlp github

Name Description
github
awesome-nlp-sentiment-analysis github
github

Name Description
github
NLP github
PyTorchBERT(ACE 2005 corpus) github
github

Name Description
github
NLLB 200+NLLB link
Easy-Translate Facebook/Meta AI M2M100NLLB200200+ github

Name Description
()- github
github
github

Name Description
github
baidu ink code a0qq

Name Description
TextCluster Short text cluster github

Name Description
NeuralNLP-NeuralClassifier github

Name Description
GraphbrainAI github
() pdf

Name Description
github

Name Description
TextAttack github
OpenBackdoor: OpenBackdoorPythonPyTorch github

Name Description
Scattertext (python) github
whatlies spacy
PySS3AISS3 github
3D github
attnvisGPT2BERTtransformer github
Texthero github

Name Description
NLP github
brat rapid annotation tool link
Poplar github
LIDA github
doccano github
Datasaurai link

Name Description
langid 97 https://github.com/saffsd/langid.py
langdetect https://code.google.com/archive/p/language-detection/

Name Description
jieba jieba
hanlp hanlp
nlp4han (//////NER/N/HMM/// github
link
PytorchBert github
nlp4han //////NER/N/HMM/// github
github
BERT github
jieba_fast jieba github
StanfordNLP Python link
Python() github
PreNLP github
nlp (Word Embedding)(NER)(Text Classificatin)(Text Generation)(Text Similarity)nlpkerastensorflow github
Python/NLP github
Fortepipeline github
stanzaNLP github
Fancy-NLP github
NLP github
DSSMpipeline github
Texthero github
nlpgnn github
Macadam Tensorflow(Keras)bert4keras github
LineFlowNLP github
ArabicaPython github
Python SMSBoom github

Name Description
phunterlau/wangfeng-rnn
github
NLP github
github link
github
CoupletAI - CNN+Bi-LSTM+Attention github
github
14W github
COPE - github
Paper2GUI AIAPP18+AIOCR github
github paper
Python homepage gitee

Name Description
link
link
link
link
link
link
link
link
3D link
link
link
cs224n link pytorch link
github
Natural Language Processingby Jacob Eisenstein github
ML-NLP (Machine Learning)NLP github
NLP github
2019NLP download
nlp-recipes-- github
github
Transfer Learning in Natural Language Processing (NLP) youtube
link github

Name Description
NLPTOP github
2019(7) github

Name Description
BDCI2019 github
github
github
-() github
github

Name Description
NLP github
spaCy github
python github
github repogithub
Chinese medical dialogue data github
110400 github
COVID-19 github
github

Name Description
BlackstonespaCy pipelineNLP github
github
-() github
856, 280,20W13 github

Name Description
Dalle-mini DALLE github

Name Description
phone ls0f/phone
phone AfterShip/phone
ngender observerss/ngender
NLP link
PDF PPT github
comparxiv arXiv pypi
CHAMELEON github
github
Python github
Related Searches