中文拼写纠错(CSC)任务各个数据集汇总与简介
各数据集句子统计情况
Wang271K | CSCD-IME(All) | CSCD-IME(Train) | CSCD-IME(Dev) | CSCD-IME(Test) | CSCD-IME(造的) | |
---|---|---|---|---|---|---|
句子数量 | 271329 | 40000 | 30000 | 5000 | 5000 | 2,029,942 |
正确句子数量 | 320 | 21594 | 16211 | 2686 | 2697 | 265,316 |
错误句子数量 | 271009 | 18406 | 13789 | 2314 | 2303 | 1,764,626 |
最大句子长度 | 140 | 127 | 127 | 127 | 123 | 127 |
最小句子长度 | 4 | 11 | 11 | 11 | 11 | 1 |
平均句子长度 | 42.55 | 57.43 | 27.39 | 57.45 | 57.63 | 30.82 |
错字数量 | 381962 | 20225 | 15143 | 2554 | 2528 | 2,934,108 |
平均每句错字数量 | 1.4 | 0.5 | 0.5 | 0.5 | 0.5 | 1.44 |
平均多少字一错字 | 30 | 113.58 | 113.7 | 112.47 | 114 | 21.3 |
含“他她它”错字的句子数量 | 2428 | 56 | 37 | 8 | 11 | 3586 |
含“的地得”错字的句子数量 | 2721 | 384 | 290 | 40 | 54 | 39395 |
“他她它”错字数数量 | 2447 | 59 | 39 | 9 | 11 | 3597 |
“的地得”错字数量 | 2773 | 399 | 301 | 42 | 56 | 39569 |
连续错字情况 | 1: 346467 2: 17327 3: 387 |
1: 39925 2: 918 3: 15 4: 2 5: 1 |
1: 29967 2: 669 3: 12 4: 2 5: 1 |
1: 4989 2: 124 3: 1 |
1: 4969 2: 125 3: 2 |
1: 1,866,997 2: 603,174 3: 29,794 4: 8380 5: 494 ... |
SIGHAN(All Train) | SIGHAN15(Train) | SIGHAN14(Train) | SIGHAN13(Train) | SIGHAN15(Test) | SIGHAN14(Test) | SIGHAN13(Test) | |
---|---|---|---|---|---|---|---|
句子数量 | 6476 | 2339 | 3437 | 700 | 1100 | 1062 | 1000 |
正确句子数量 | 554 | 83 | 111 | 360 | 559 | 542 | 29 |
错误句子数量 | 5922 | 2256 | 3326 | 340 | 541 | 520 | 971 |
最大句子长度 | 258 | 171 | 258 | 112 | 108 | 150 | 158 |
最小句子长度 | 3 | 5 | 3 | 7 | 5 | 6 | 17 |
平均句子长度 | 42 | 31.25 | 49.37 | 41.54 | 30.6 | 50 | 74.3 |
错字数量 | 6666 | 2542 | 3781 | 343 | 703 | 771 | 1224 |
平均每句错字数量 | 1 | 1 | 1.1 | 0.49 | 0.64 | 0.726 | 1.224 |
平均多少字一错字 | 40.78 | 28.76 | 44.88 | 84.78 | 47.9 | 68.8 | 60.7 |
含“他她它”错字的句子数量 | 154 | 26 | 128 | 0 | 10 | 27 | 1 |
含“的地得”错字的句子数量 | 602 | 201 | 396 | 5 | 49 | 87 | 10 |
“他她它”错字数数量 | 157 | 26 | 131 | 0 | 11 | 31 | 1 |
“的地得”错字数量 | 608 | 201 | 402 | 5 | 49 | 94 | 11 |
连续错字情况 | 1: 6223 2: 453 3: 25 4: 4 |
1: 2197 2: 194 3: 8 4: 4 |
1: 3325 2: 258 3: 17 |
1: 701 2: 1 |
1: 1139 2: 58 4: 1 3: 1 |
1: 1193 2: 47 3: 6 4: 2 |
1: 1249 2: 2 |
多领域CSC数据集
EC_Law | EC_Med | EC_Odw | lemon_car | lemon_enc | lemon_gam | lemon_mec | lemon_new | lemon_nov | lemon_cot | |
---|---|---|---|---|---|---|---|---|---|---|
句子数量 | 2460 | 3500 | 2228 | 3245+165 | 3272+162 | 393+7 | 1942+148 | 5887+5 | 6000 | 993+33 |
正确句子数量 | 1146 | 1801 | 971 | 1668 | 1682 | 245 | 1037 | 2946 | 2986 | 552 |
错误句子数量 | 1314 | 1699 | 1257 | 1577 | 1590 | 148 | 905 | 2941 | 3014 | 441 |
最大句子长度 | 120 | 127 | 161 | 198 | 3204 | 107 | 72 | 56 | 346 | 70 |
最小句子长度 | 12 | 11 | 1 | 8 | 4 | 5 | 20 | 3 | 2 | 20 |
平均句子长度 | 30.5 | 50.1 | 41.1 | 43.4 | 40.0 | 31.5 | 39.2 | 25.2 | 36.2 | 40.1 |
错字数量 | 2071 | 2616 | 1985 | 1910 | 1786 | 164 | 1032 | 3260 | 3415 | 486 |
平均每句错字数量 | 0.84 | 0.75 | 0.89 | 0.59 | 0.55 | 0.42 | 0.53 | 0.55 | 0.57 | 0.49 |
平均多少字一错字 | 36.2 | 67.1 | 46.2 | 73.8 | 73.2 | 75.5 | 73.7 | 45.4 | 63.7 | 82.0 |
含“他她它”错字的句子数量 | 1 | 0 | 1 | 7 | 6 | 2 | 2 | 0 | 16 | 0 |
含“的地得”错字的句子数量 | 7 | 5 | 10 | 58 | 45 | 14 | 39 | 0 | 43 | 11 |
“他她它”错字数数量 | 1 | 0 | 1 | 8 | 6 | 2 | 2 | 0 | 16 | 0 |
“的地得”错字数量 | 7 | 5 | 11 | 60 | 47 | 17 | 42 | 0 | 43 | 11 |
有些数据集中存在异常样本(src和tgt长度不一致),因此使用+X的方式表示
医疗领域数据集
多领域CSC数据集
MCSC_Train | MCSC_Dev | MCSC_Test | |
---|---|---|---|
句子数量 | 157193+1 | 19652 | 19650 |
正确句子数量 | 78592 | 9826 | 9825 |
错误句子数量 | 78601 | 9826 | 9825 |
最大句子长度 | 52 | 42 | 45 |
最小句子长度 | 2 | 2 | 2 |
平均句子长度 | 10.9 | 10.9 | 10.9 |
错字数量 | 146503 | 18357 | 18286 |
平均每句错字数量 | 0.93 | 0.93 | 0.93 |
平均多少字一错字 | 11.7 | 11.7 | 11.7 |
含“他她它”错字的句子数量 | 64 | 8 | 4 |
含“的地得”错字的句子数量 | 156 | 16 | 14 |
“他她它”错字数数量 | 64 | 8 | 4 |
“的地得”错字数量 | 156 | 16 | 14 |
各数据集简介
CSCD-IME 数据集总结
论文地址: https://arxiv.org/pdf/2211.08788.pdf
论文代码: https://github.com/nghuyong/cscd-ime
论文代码有两个作用: 1. 用于生成违数据集 2. 对预测结果进行评价
作者知乎: https://zhuanlan.zhihu.com/p/586333153
数据集年份:2022-11
CSCD-IME全称:Chinese Spelling Correction Dataset for errors generated by pinyin IME
CSCD-IME数据集总结:
- 数据集只关注“拼音输入法”导致的错误
- 数据来源:经过认证的新闻媒体机构在微博上发布的博文(例如人民日报)
- 训练集:3w,验证集5k,测试集3k。均为人工标注
- 模拟“拼音输入法”导致的错误,构建了200w个违数据集。
- 该数据集会包含更多的“词”错误,例如:“鸡你太美”->“鸡你钛镁”,整个“钛镁”都是错的,这也符合实际情况,但这种纠错更难。
数据集链接:百度网盘 ,
数据集文件夹介绍:
``` --cscd-ime --data --cscd-ime --dev.tsv # 验证集,5k条数据 --test.tsv # 测试集,5k条数据 --train.tsv # 训练集,3w条数据 --all.tsv # 全集,3w+5k+5k=4w条数据 --lcsts-ime-2m --lcsts-ime-2m.tsv # 200w条违数据 --resource # 生成违数据时要用的文件 --char_4_gram.bin --pinyin_distance_matrix.pkl --predicts --bert_cscd.tsv # bert的预测结果 --bert_cscd_report.txt # bert预测报告 ```
Wang271K 数据集总结
论文地址: https://aclanthology.org/D18-1273/
论文代码: https://github.com/wdimmy/Automatic-Corpus-Generation
论文代码的作用:
- 用于生成违数据集
数据集年份:2018-10
Wang271K数据集总结:
- 该数据集主要用于训练模型,通常不作为测试集使用。
- 根据“形近似”和“音近似”两个方面替换一部分字符
- “形近似”错字构造方式:文本转图片->对部分字图片加噪音->使用OCR识别->得到形近似错字。
- “音近似”错字构造方式:句子转语音->语音转句子。
- 句子来源:人民日报网站
SIGHAN
数据集年份:2013,2014,2015
SIGHAN数据集总结:
- 外国人学中文时写的句子,内容偏生活
SIGHAN测试集的缺点:
- 不符合实际应用场景。因为是老外学中文写的语句,所以和实际中文拼写纠错的场景不一致。
- 语句不通顺,毕竟不是中国人写的。
- 大量的错误数据。对,即使是测试集,也有大量的错误数据。比如漏字、多字和错字的情况。
- 大量的重复数据。总共就1100句,很多句子都是相同的错误,比如“奴(女)生”就在好几句出现了。
- 测试集过少
- 从繁体翻译过来后,很多词汇或字不符合大陆习惯。
ECSpell(多领域)
论文地址:https://arxiv.org/pdf/2203.10929.pdf
论文代码:https://github.com/Aopolin-Lv/ECSpell
论文年份:2022-03
数据集地址:https://github.com/Aopolin-Lv/ECSpell/tree/main/Data
该作者提出了不同领域的CSC数据集,分布如下:
- EC_Law:法律领域
- EC_Med:医疗领域(medical treatment)
- EC_Odw:官方文章写作(official document writing)
LEMON(多领域)
论文地址:https://arxiv.org/pdf/2305.17721.pdf
论文代码:https://github.com/gingasan/lemon
论文年份:2023-05
数据集链接:https://github.com/gingasan/lemon/tree/main/lemon_v2
该论文提出了6个领域的数据集:
- lemon_car:汽车
- lemon_enc:百科(encyclopedia)
- lemon_gam:游戏(game)
- lemon_mec:医疗照护(emdical care)
- lemon_new:新闻(news)
- lemon_nov:小说(novel)
- lemon_cot:合同(contract)
MCSC
论文地址:https://arxiv.org/pdf/2210.11720.pdf
论文代码:https://github.com/yzhihao/MCSCSet
论文年份:2022-10
数据集链接:https://github.com/yzhihao/MCSCSet/tree/main/data/mcsc_benchmark_dataset
数据集特点:
- 医疗领域数据集
- 全是医学专家的人工标记
- 数据来源为腾讯医典
- 主要是一些医疗问题,例如“糖尿病如何治疗?”