错别字

"错别字"

Posted by zwt on September 27, 2020

错别字任务

通常又以下的错误类型,但在不同的任务中,不是每个都会出现。比如我们要处理的语音识别领域主要涉及到的就是下面的前两种错误:

1
2
3
4
5
6
7
8
谐音字词,如 配副眼睛-配副眼镜
混淆音字词,如 流浪织女-牛郎织女
字词顺序颠倒,如 伍迪艾伦-艾伦伍迪
字词补全,如 爱有天意-假如爱有天意
形似字错误,如 高梁-高粱
中文拼音全拼,如 xingfu-幸福
中文拼音缩写,如 sz-深圳
语法错误,如 想象难以-难以想象

输入法场景出现前4种的概率大一点,搜索引擎的话就需要考虑所有的类型。

工作流程

主要就是上面的异常检测、候选召回、排序三个部分。当然也有端到端的解决方法。 异常检测

1
2
通过词表,不在词表中就认为有错
通过语言模型来检测错误位置

召回:

1
各种召回策略来得到候选词

排序

1
针对候选词进行排序,选取top

参考

  1. pycorrector
  2. Query纠错算法