Project Name | Stars | Downloads | Repos Using This | Packages Using This | Most Recent Commit | Total Releases | Latest Release | Open Issues | License | Language |
---|---|---|---|---|---|---|---|---|---|---|
Nlp_chinese_corpus | 7,386 | 4 months ago | 19 | mit | ||||||
大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP | ||||||||||
Asrt_speechrecognition | 6,236 | a month ago | 1 | October 23, 2020 | 94 | gpl-3.0 | Python | |||
A Deep-Learning-Based Chinese Speech Recognition System 基于深度学习的中文语音识别系统 | ||||||||||
Pycorrector | 4,045 | 1 | 2 days ago | 26 | June 17, 2022 | 24 | apache-2.0 | Python | ||
pycorrector is a toolkit for text error correction. 文本纠错,Kenlm,ConvSeq2Seq,BERT,MacBERT,ELECTRA,ERNIE,Transformer,T5等模型实现,开箱即用。 | ||||||||||
Chinese Names Corpus | 3,411 | 4 months ago | 6 | apache-2.0 | ||||||
中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。 | ||||||||||
Clue | 2,954 | 4 months ago | 71 | Python | ||||||
中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard | ||||||||||
Cluedatasetsearch | 2,778 | 4 months ago | 6 | Python | ||||||
搜索所有中文NLP数据集,附常用英文NLP数据集 | ||||||||||
Uer Py | 2,458 | 17 days ago | 124 | apache-2.0 | Python | |||||
Open Source Pre-training Model Framework in PyTorch & Pre-trained Model Zoo | ||||||||||
Weibo_terminater | 2,265 | 3 years ago | 9 | Python | ||||||
Final Weibo Crawler Scrap Anything From Weibo, comments, weibo contents, followers, anything. The Terminator | ||||||||||
Gpt2 Ml | 1,613 | 5 days ago | 22 | apache-2.0 | Python | |||||
GPT2 for Multiple Languages, including pretrained models. GPT2 多语言支持, 15亿参数中文预训练模型 | ||||||||||
Rasa_nlu_chi | 1,416 | 2 days ago | 79 | apache-2.0 | Python | |||||
Turn Chinese natural language into structured data 中文自然语言理解 |
通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型。
更多细节请参考我们的技术报告 https://arxiv.org/pdf/2003.01355
Google原始中文词表和我们发布的小词表的统计信息如下:
Token Type | CLUE | |
---|---|---|
Simplified Chinese | 11378 | 5689 |
Traditional Chinese | 3264 | ✗ |
English | 3529 | 1320 |
Japanese | 573 | ✗ |
Korean | 84 | ✗ |
Emoji | 56 | ✗ |
Numbers | 1179 | 140 |
Special Tokens | 106 | 106 |
Other Tokens | 959 | 766 |
Total | 21128 | 8021 |
使用小数据集在BERT-base上的效果对比:
Model | Vocab | Data | Steps | AFQMC | TNEWS' | IFLYTEK' | CMNLI | AVG |
---|---|---|---|---|---|---|---|---|
BERT-base | Wiki (1 GB) | 125K | 69.93% | 54.77% | 57.54% | 75.64% | 64.47% | |
BERT-base | C5 (1 GB) | 125K | 69.63% | 55.72% | 58.87% | 75.75% | 64.99% | |
BERT-base | CLUE | C5 (1 GB) | 125K | 69.00% | 55.04% | 59.07% | 75.84% | 64.74% |
BERT-base mm | C5 (1 GB) | 125K | 69.57% | 55.17% | 59.69% | 75.86% | 65.07% | |
BERT-base | C5 (1 GB) | 375K | 69.85% | 55.97% | 59.62% | 76.41% | 65.46% | |
BERT-base | CLUE | C5 (1 GB) | 375K | 69.93% | 56.38% | 59.35% | 76.58% | 65.56% |
BERT-base | C5 (3 GB) | 375K | 70.22% | 56.41% | 59.58% | 76.70% | 65.73% | |
BERT-base | CLUE | C5 (3 GB) | 375K | 69.49% | 55.97% | 60.12% | 77.66% | 65.81% |
更多实验结果和分析可以参考:CLUEPretrainedModels
申请方式: 将使用语料研究目的和用途,计划、研究机构和申请者介绍,发送到邮箱,并承诺不向第三方提供。
邮箱: [email protected],标题是:CLUECorpus2020 200G语料库
可用于语言建模、预训练或生成型任务等,数据量超过14G,近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目
当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。
包含如下子语料库(总共14G语料):
1、新闻语料 news2016zh_corpus: 8G语料,分成两个上下两部分,总共有2000个小文件。 密码:mzlk
2、社区互动-语料 webText2019zh_corpus:3G语料,包含3G文本,总共有900多个小文件。 密码:qvlq
3、维基百科-语料 wiki2019zh_corpus:1.1G左右文本,包含300左右小文件。 密码:xv7e
4、评论数据-语料 comments2019zh_corpus:2.3G左右文本,共784个小文件,包括点评评论547个、亚马逊评论227个,合并ChineseNLPCorpus的多个评论数据,清洗、格式转换、拆分成小文件。 密码:gc3m
可以提交issue,加入讨论群(QQ:836811304)
或发送邮件 [email protected]
Research supported with Cloud TPUs from Google's TensorFlow Research Cloud (TFRC)
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
CLUE是一个致力于中文自然语言处理的开源组织,如果您觉得我们的工作对您的学习或者业务等有帮助,希望能得到您的赞助,以便我们后续为大家提供更多更有用的开源工作,让我们一起为中文自然语言处理的发展和进步,尽一份力~
请备注捐赠者机构和姓名,非常感谢!
支付宝 | 微信 |
---|---|
![]() |
![]() |