中文拼写纠错(CSC)任务各个数据集汇总与简介

各数据集句子统计情况

Wang271K CSCD-IME(All) CSCD-IME(Train) CSCD-IME(Dev) CSCD-IME(Test) CSCD-IME(造的)
句子数量 271329 40000 30000 5000 5000 2,029,942
正确句子数量 320 21594 16211 2686 2697 265,316
错误句子数量 271009 18406 13789 2314 2303 1,764,626
最大句子长度 140 127 127 127 123 127
最小句子长度 4 11 11 11 11 1
平均句子长度 42.55 57.43 27.39 57.45 57.63 30.82
错字数量 381962 20225 15143 2554 2528 2,934,108
平均每句错字数量 1.4 0.5 0.5 0.5 0.5 1.44
平均多少字一错字 30 113.58 113.7 112.47 114 21.3
含“他她它”错字的句子数量 2428 56 37 8 11 3586
含“的地得”错字的句子数量 2721 384 290 40 54 39395
“他她它”错字数数量 2447 59 39 9 11 3597
“的地得”错字数量 2773 399 301 42 56 39569
连续错字情况 1: 346467
2: 17327
3: 387
1: 39925
2: 918
3: 15
4: 2
5: 1
1: 29967
2: 669
3: 12
4: 2
5: 1
1: 4989
2: 124
3: 1
1: 4969
2: 125
3: 2
1: 1,866,997
2: 603,174
3: 29,794
4: 8380
5: 494
...
SIGHAN(All Train) SIGHAN15(Train) SIGHAN14(Train) SIGHAN13(Train) SIGHAN15(Test) SIGHAN14(Test) SIGHAN13(Test)
句子数量 6476 2339 3437 700 1100 1062 1000
正确句子数量 554 83 111 360 559 542 29
错误句子数量 5922 2256 3326 340 541 520 971
最大句子长度 258 171 258 112 108 150 158
最小句子长度 3 5 3 7 5 6 17
平均句子长度 42 31.25 49.37 41.54 30.6 50 74.3
错字数量 6666 2542 3781 343 703 771 1224
平均每句错字数量 1 1 1.1 0.49 0.64 0.726 1.224
平均多少字一错字 40.78 28.76 44.88 84.78 47.9 68.8 60.7
含“他她它”错字的句子数量 154 26 128 0 10 27 1
含“的地得”错字的句子数量 602 201 396 5 49 87 10
“他她它”错字数数量 157 26 131 0 11 31 1
“的地得”错字数量 608 201 402 5 49 94 11
连续错字情况 1: 6223
2: 453
3: 25
4: 4
1: 2197
2: 194
3: 8
4: 4
1: 3325
2: 258
3: 17
1: 701
2: 1
1: 1139
2: 58
4: 1
3: 1
1: 1193
2: 47
3: 6
4: 2
1: 1249
2: 2

多领域CSC数据集

EC_Law EC_Med EC_Odw lemon_car lemon_enc lemon_gam lemon_mec lemon_new lemon_nov lemon_cot
句子数量 2460 3500 2228 3245+165 3272+162 393+7 1942+148 5887+5 6000 993+33
正确句子数量 1146 1801 971 1668 1682 245 1037 2946 2986 552
错误句子数量 1314 1699 1257 1577 1590 148 905 2941 3014 441
最大句子长度 120 127 161 198 3204 107 72 56 346 70
最小句子长度 12 11 1 8 4 5 20 3 2 20
平均句子长度 30.5 50.1 41.1 43.4 40.0 31.5 39.2 25.2 36.2 40.1
错字数量 2071 2616 1985 1910 1786 164 1032 3260 3415 486
平均每句错字数量 0.84 0.75 0.89 0.59 0.55 0.42 0.53 0.55 0.57 0.49
平均多少字一错字 36.2 67.1 46.2 73.8 73.2 75.5 73.7 45.4 63.7 82.0
含“他她它”错字的句子数量 1 0 1 7 6 2 2 0 16 0
含“的地得”错字的句子数量 7 5 10 58 45 14 39 0 43 11
“他她它”错字数数量 1 0 1 8 6 2 2 0 16 0
“的地得”错字数量 7 5 11 60 47 17 42 0 43 11

有些数据集中存在异常样本(src和tgt长度不一致),因此使用+X的方式表示


医疗领域数据集

多领域CSC数据集

MCSC_Train MCSC_Dev MCSC_Test
句子数量 157193+1 19652 19650
正确句子数量 78592 9826 9825
错误句子数量 78601 9826 9825
最大句子长度 52 42 45
最小句子长度 2 2 2
平均句子长度 10.9 10.9 10.9
错字数量 146503 18357 18286
平均每句错字数量 0.93 0.93 0.93
平均多少字一错字 11.7 11.7 11.7
含“他她它”错字的句子数量 64 8 4
含“的地得”错字的句子数量 156 16 14
“他她它”错字数数量 64 8 4
“的地得”错字数量 156 16 14

各数据集简介

CSCD-IME 数据集总结

论文地址: https://arxiv.org/pdf/2211.08788.pdf

论文代码: https://github.com/nghuyong/cscd-ime

论文代码有两个作用: 1. 用于生成违数据集 2. 对预测结果进行评价

作者知乎: https://zhuanlan.zhihu.com/p/586333153

数据集年份:2022-11

CSCD-IME全称:Chinese Spelling Correction Dataset for errors generated by pinyin IME

CSCD-IME数据集总结:

  1. 数据集只关注“拼音输入法”导致的错误
  2. 数据来源:经过认证的新闻媒体机构在微博上发布的博文(例如人民日报)
  3. 训练集:3w,验证集5k,测试集3k。均为人工标注
  4. 模拟“拼音输入法”导致的错误,构建了200w个违数据集。
  5. 该数据集会包含更多的“词”错误,例如:“鸡你太美”->“鸡你钛镁”,整个“钛镁”都是错的,这也符合实际情况,但这种纠错更难。

数据集链接:百度网盘

数据集文件夹介绍:

```
--cscd-ime
  --data
    --cscd-ime
      --dev.tsv # 验证集,5k条数据
      --test.tsv    # 测试集,5k条数据
      --train.tsv   # 训练集,3w条数据
      --all.tsv  # 全集,3w+5k+5k=4w条数据
    --lcsts-ime-2m
      --lcsts-ime-2m.tsv    # 200w条违数据
    --resource  # 生成违数据时要用的文件
      --char_4_gram.bin
      --pinyin_distance_matrix.pkl
    --predicts
      --bert_cscd.tsv  # bert的预测结果
      --bert_cscd_report.txt    # bert预测报告
```

Wang271K 数据集总结

论文地址: https://aclanthology.org/D18-1273/

论文代码: https://github.com/wdimmy/Automatic-Corpus-Generation

论文代码的作用:

  1. 用于生成违数据集

数据集年份:2018-10

Wang271K数据集总结:

  1. 该数据集主要用于训练模型,通常不作为测试集使用。
  2. 根据“形近似”和“音近似”两个方面替换一部分字符
  3. “形近似”错字构造方式:文本转图片->对部分字图片加噪音->使用OCR识别->得到形近似错字。
  4. “音近似”错字构造方式:句子转语音->语音转句子。
  5. 句子来源:人民日报网站

SIGHAN

数据集年份:2013,2014,2015

SIGHAN数据集总结:

  1. 外国人学中文时写的句子,内容偏生活

SIGHAN测试集的缺点:

  1. 不符合实际应用场景。因为是老外学中文写的语句,所以和实际中文拼写纠错的场景不一致。
  2. 语句不通顺,毕竟不是中国人写的。
  3. 大量的错误数据。对,即使是测试集,也有大量的错误数据。比如漏字、多字和错字的情况。
  4. 大量的重复数据。总共就1100句,很多句子都是相同的错误,比如“奴(女)生”就在好几句出现了。
  5. 测试集过少
  6. 从繁体翻译过来后,很多词汇或字不符合大陆习惯。

ECSpell(多领域)

论文地址:https://arxiv.org/pdf/2203.10929.pdf

论文代码:https://github.com/Aopolin-Lv/ECSpell

论文年份:2022-03

数据集地址:https://github.com/Aopolin-Lv/ECSpell/tree/main/Data

该作者提出了不同领域的CSC数据集,分布如下:

  • EC_Law:法律领域
  • EC_Med:医疗领域(medical treatment)
  • EC_Odw:官方文章写作(official document writing)

LEMON(多领域)

论文地址:https://arxiv.org/pdf/2305.17721.pdf

论文代码:https://github.com/gingasan/lemon

论文年份:2023-05

数据集链接:https://github.com/gingasan/lemon/tree/main/lemon_v2

该论文提出了6个领域的数据集:

  • lemon_car:汽车
  • lemon_enc:百科(encyclopedia)
  • lemon_gam:游戏(game)
  • lemon_mec:医疗照护(emdical care)
  • lemon_new:新闻(news)
  • lemon_nov:小说(novel)
  • lemon_cot:合同(contract)

MCSC

论文地址:https://arxiv.org/pdf/2210.11720.pdf

论文代码:https://github.com/yzhihao/MCSCSet

论文年份:2022-10

数据集链接:https://github.com/yzhihao/MCSCSet/tree/main/data/mcsc_benchmark_dataset

数据集特点:

  1. 医疗领域数据集
  2. 全是医学专家的人工标记
  3. 数据来源为腾讯医典
  4. 主要是一些医疗问题,例如“糖尿病如何治疗?”
Next Post Previous Post
No Comment
Add Comment
comment url