Awesome Open Source
Awesome Open Source

公司名语料库(Company-Names-Corpus)

业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。

萌名手机网页测试版:https://www.yimingzi.com/ ,欢迎体验。

不定期更新。只删词,不加词。

可用于中文分词、机构名识别。


公司名语料库(Company-Names-Corpus)

数据大小:480万。

语料来源:多个词典汇总。

数据清洗:已清洗,但仍存有大量badcase。


机构名语料库(Organization-Names-Corpus)

数据大小:110万。

语料来源:多个词典汇总。

数据清洗:已清洗,但仍存有大量badcase。


公司简称、品牌词等(Company-Shorter-Form)

数据大小:28万。

语料来源:多个词典汇总。

数据清洗:已清洗,但仍存有大量badcase。


为什么是压缩包:

未压缩的文件有200多M,压缩后只有30M左右,我网速不好,就先压为敬。


请勿提交涉政issue:

惹不起呀,谢谢~

语料中还存有的,会在后续的更新中逐步删除掉。


Stargazers over time

Stargazers over time


更新时间:

删除了3000余非公司名。 -2018.10.31

新增了10万公司简称、品牌词。 -2018.12.30

新增了28万公司简称、品牌词。 -2019.03.23

删除了2万余质量不高的公司名、机构名。 -2019.04.15

删除了3000余非公司名。 -2019.07.27

删除了2万余质量不高的公司名、机构名。 -2019.12.25

删除了2万余质量不高的公司名、机构名。 -2020.12.13


@萌名NameMoe 整理

2020.12.13


Get A Weekly Email With Trending Projects For These Topics
No Spam. Unsubscribe easily at any time.
dataset (375
ner (103
corpus (53
dict (23

Find Open Source By Browsing 7,000 Topics Across 59 Categories