哈工大讯飞联合实验室发布飞鹰智能文本校对系统1.0

哈工大讯飞联合实验室发布飞鹰智能文本校对系统1.0

哈工大讯飞联合实验室(HFL)发布飞鹰智能文本校对系统(简称:飞鹰校对)1.0。系统针对中文文本的校对需求,提供拼写纠错、语法纠错、标点纠错及敏感词检测等功能,现已开放通用领域以及司法、教育等专用领域的智能文本校对服务。欢迎大家体验。PC端请访问:http://check.hfl-rc.com/

简介

随着计算机和信息技术的迅猛发展,文本校对的工作量不断增加,人工校对已无法适应迅速增长的校对需求。哈工大讯飞联合实验室基于深厚的自然语言处理技术基础,长期以来在中文文本校对上进行深入研究,研发出飞鹰智能文本校对系统。飞鹰校对涵盖文本校对的拼写纠错、语法纠错、标点纠错及敏感词检测等不同校对模块,各项功能均达到业界领先水平。系统可针对不同领域的文本校对需求,为行业客户提供定制化的解决方案,现已支持通用领域、司法领域和教育领域,在后续将进一步开放更多其他领域的文本校对服务。

  • 通用领域:可为用户校对新闻、自媒体、论文等不同类型文本,提供通用的校对服务,避免拼写、语法、标点等错误。

  • 司法领域:在裁判文书、询问笔录等司法专用领域都有广阔的应用空间,有效利用可提高公检法司的司法权威。

  • 教育领域:现已应用在小学作文批改任务中,大大减轻了老师的作业批改压力。

系统功能

飞鹰校对包括别字、别词组成的拼写纠错,冗余、缺失、乱序、搭配组成的语法纠错,以及标点、成语、古诗词、实体、敏感词、领导人职称等其他纠错模块。

  • 拼写:我在程度的街头走一走。(程度 → 成都)
  • 冗余:有完整规划但并建设不到位。(去掉“并”)
  • 缺失:文稿中仍会遗许多错误,需要我们仔细检查。(遗 → 遗留)
  • 乱序:今天天气很错不,我们可以一起去出游。(错不 → 不错)
  • 标点:现就开展治理工作有关事项通知如下,:(连续使用标点)

系统的主要流程包括预处理、文本校对、后处理三个环节。首先在预处理环节,系统主要对用户输入的待处理的文本进行读取、清洗、基础分析。经过预处理之后,系统对文本进行拼写、语法、标点等并行化校对。在后处理环节,系统将各个模块的校对结果进行中控融合,并根据领域特点进行定制化过滤,最后进行可视化展示。此外系统可根据用户提交的反馈,持续迭代优化文本校对的效果。

image.png

系统核心技术

飞鹰智能文本校对系统由哈工大讯飞联合实验室基于深度学习自然语言处理技术研发打造。在文本校对中,根据不同的任务类型,系统会适配不同的预训练模型(如BERT-base,BERT-wwm等)。实验表明,哈工大讯飞联合实验室推出的BERT-wwm等一系列中文预训练模型可以在文本校对中取得更加优秀的效果。此外,系统可针对不同的领域对模型进行调整适配,当前已适配司法、教育、海关等领域。模型预测时,系统不断优化模型参数以提升校对效果,并使用并行化预测手段优化校对效率。最后模型利用音近、形近进行结果选择,使用实体识别、语言模型等方式对结果进行进一步排序过滤,得到最终的校对结果。

image.png

系统效果

整体校对效果
飞鹰校对各个模块在司法领域、海关领域和教育领域上的文本校对已达到业内领先水平,在多个领域上都已经可以很好地满足应用需求,达到可实用的水准。

image.png

拼写纠错效果

飞鹰校对在国际中文拼写检测数据集(SIGHAN 2013/2014/2015)上的拼写纠错效果(检出F1值)已处于行业领先地位,可以很好地解决字、词的误用问题。

image.png

语法纠错效果

在墨尔本举行的ACL 2018中文语法错误自动检测大赛(CGED)中,哈工大讯飞联合实验室获得全部四项指标中语病类型、定位、修改三项指标的第一名,语病识别指标第二名,综合排名位列第一,显著超越了其他所有参赛队伍。比赛结束至今,我们又持续在中文语法纠错任务上进行进一步地深入研究,效果又有了大幅提升,语法纠错效果指标(F1值)相对提升15%左右。

image.png

系统展示

PC端:http://check.hfl-rc.com/

拼写纠错

语法纠错

微信小程序

image.png

未来工作

未来我们将针对不同领域的校对需求,逐步开放更多领域的校对服务,并解锁更多的文本校对技能,敬请期待。欢迎公众通过哈工大讯飞联合实验室微信公众号留言或将邮件发至gangyue@iflytek.com提出宝贵意见或建议。

本文转载自 哈工大讯飞联合实验室 公众号
传送门

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×