1.1 趋势和需求
抗疫期间,“湖北省张家界市”“四川省重庆市江津区”等低级错误屡屡出现在官媒、公文中,失之毫厘,差之千里,中央纪委国家监委网站为此发表了批评文章《公文出错事非小》。文风里面有作风,其背后是政府公信力和企业经营水平,正所谓:肩上有责任,笔下有乾坤!
在机关和企业中,估计很多笔杆子都有这样的经历,辛苦加了几个夜班写成的文稿,自信满满地交给领导审阅,谁知上来就被圈上了几个错字、病句和误用的标点符号,细一看还有逻辑不通的情况。如果这些错误没有及时发现和修订,相关文件发布后将产生严重的不良影响。
如何避免出现这种尴尬状况、保证文件质量?可谓写作开流、修改正本、校对净后,校对是对写作、修改的补充和完善,是文书相关工作中必不可少的一环。
1.2 产品简介
京华智能校对机器人(以下简称校对机器人)是一款针对文书的内容和形式进行纠错的应用软件。它主要是帮助党政机关、企事业单位办公人员在文书写作、核稿等过程中快速地发现和订正错误,降低文书错误量,提高文书质量。
校对机器人纠错支持漏字、多字、拼写错误、内容重复、领导称谓及排位不当、标点符号使用不当、文书语义错误、病句等几大类几十种错误。
校对机器人具有自我学习能力,采用了机器学习技术,针对用户不断输入的语料进行定期训练和更新纠错模型,保证持续和稳定的提升纠错精准度。
校对机器人可以具有独立系统、嵌入办公套件(金山WPS、永中Office、微软Office、网页编辑器等)、与OA集成等多元使用场景。
1.3 产品架构
(手机端用户请用双指缩放)
2.1 纠错支持几十种错误
(手机端用户请用双指缩放)
2.1.1 字词错误
(手机端用户请用双指缩放)
③ 拼写错误
在日常写作中,由于输入法的影响或者对词语使用的方式不对,可能导致输入的拼音或者笔画不正确,使得最终写入的文字不正确。例如:
例子1:第一批自治区统愁支持工业震兴资金调整说明。(统愁-->统筹)
例子2:现组织开展2021年自治区本机西部陆海新通道建设资金项目计划申报工作。(本机-->本级)
例子3:移民安置和后期扶持政策实施监督检査涉及同一年度内在同一县(市、区)的。(检査-->检查)
④ 字词位置互换
在修改内容时,操作失误导致两个字或两个词位置相互调换。例如:
例子1:强增成员对社内事务的关注度、参与度。(强增-->增强)
例子2:整合利用各类识知产权在线资源。(识知-->知识)
例子3:产业项目要进业产园区。(业产-->产业)
⑤ 缺少数词
缺少数词是指在描述数量的文本中缺少数字内容。例如:
例子1:含家国有企业。(含X家)
例子2:我国节水灌溉面积达到亩。(达到X亩)
例子3:在庆祝中国共产党成立年大会上重要讲话精神。(成立X年)
例子4:开展农民教育培训人次以上。(培训X人次)
⑥ 敏感词
当文章中误使用了带有政治敏感倾向或不健康色彩的词语时,系统将进行提示。
常见政治敏感词有“一党专制”“台独”“藏独”“疆独”等。
2.1.2 内容重复
(手机端用户请用双指缩放)
例子4:我国重要的国际商贸中心、南方国际航运中心、对外交往中心、综合交通枢纽和南方国际航运中心。(并列词“南方国际航运中心”重复)
2.1.3 领导称谓及排位错误
(手机端用户请用双指缩放)
校对机器人自动分析文本内容,识别文本中领导姓名、称谓以及领导名单排列顺序,并与正确的领导称谓和排位进行比对,识别称谓和排位错误信息,给出正确的称谓和排位信息。例子如下:
例子1:到2027年,跻身核电标准化强国前列,依据习近平书记有关指示要求,在国际核电标准化领域发挥引领作用。(建议:习近平的可能称谓有总书记、军委主席、常委)
例子2:在习近平、李克强、赵乐际、王沪宁领导下,充分总结、凝练我国核电工程技术经验、科研成果的基础上,提升我国核电标准的自主化程度。(建议:习近平、李克强、王沪宁、赵乐际)
2.1.4 标点符号使用不当
(手机端用户请用双指缩放)
① 标点符号没有配对
需要成对使用的符号:<> 《》 () 〔〕 [] 【】 {} “” ‘’
例子1:该村年人均收入增长了50﹪,达到1200元人民币。《参考消息》1998.7.25)(括号没有配对正确)
② 并列内容之间符号错用
例子1:各中小学要积极贯彻落实《中华人民共和国预防未成年人犯罪法》、《中华人民共和国义务教育法》及相关要求。(书名号之间不用加顿号)
例子2:公安部门要加强校园“警务室”、“护学岗”、“安全网”建设,落实护校制度。(双引号之间不用加顿号)
③ 标点符号多余
例子1:国务院办公厅关于加强核电标准化工作的指导意见。。(句号重复)
例子2:《!国务院办公厅关于加强核电标准化工作的指导意见》(“《!”不能连用)
④ 发文字号的年份代码符号错误
发文字号组成规则:<发文机关代字>〔年份〕<份号>号,错例如下:
例子1:粤府办(2020)14号。(“(2020)”改成“〔2020〕”)
例子2:粤府办[2020]14号。(“[2020]”改成“〔2020〕”)
例子3:粤府办【2020】14号。(“【2020】”改成“〔2020〕”)
⑤ 缺少双引号
例子1:我区于2019年已整合水电气等企业资源,在各设区市政务服务中心开办“水电气”联办窗口。(“水电气”前后双引号要一致)
⑥ 引文缺少括号
如果引用文件名称后面附带了对应的文件号,要求用中文括号把文件号括起来。
例子1:我区积极落实《国务院关于在市场监管领域全面推行部门联合“双随机、一公开”监管的意见》国发〔2019〕5号。(国发〔2019〕5号-->(国发〔2019〕5号))
例子2:根据《国务院关于调整进口设备税收政策的通知》国发〔1997〕37号,以下简称“国发37号文”及相关规定。(国发〔2019〕5号,以下简称“国发37号文”-->(国发〔2019〕5号,以下简称“国发37号文”))
2.1.5 文书语义错误
(手机端用户请用双指缩放)
根据文书写作、文书处理业务约定,针对一些常见的公文语义错误进行识别和纠正,其中包括:
① 引文名与文件编号不一致
例子1:我区认真贯彻落实国务院办公厅《关于全面开展工程建设项目审批制度改革实施意见》(国办发〔2019〕11号)文件精神。(关于全面开展工程建设项目审批制度改革实施意见-->关于全面开展工程建设项目审批制度改革的实施意见)
② 完整句子中间包含空格
例子1:认真贯彻落实国务院办公厅《关于全面 开展工程建设项目审批制度改革实施意见》(国办发〔2019〕11号)文件精神。
例子2:认真贯彻落实国务 院办公厅《关于全面开展工程建设项目审批制度改革实施意见》(国办发〔2019〕11号)文件精神。
③ 标注简称不规范
人们常把一些形式上长而繁的名称或习用的短语用缩略形式替代,这些缩略形式就是标注简称,比如“党委”“政协”“奥运会”“彩电”“春晚”等。以下标注简称是错误的:
(手机端用户请用双指缩放)
④ 附件说明与附件列表不一致
公文中附件说明是指公文正文尾部的“附件:”段落内容,例子如下:
附件:1.XX省人民政府办公厅关于报送贯彻实施《优化营商环境条例》有关情况的报告的函(代拟稿)
2.XX省贯彻实施《优化营商环境条例》有关情况报告
3.评估发现的主要问题完成情况和整改措施
附件列表是指公文处理子系统中公文处理电子单的附件清单。附件说明与附件列表不一致包括附件缺失、附件多余、标题不一致。
⑤ 公文头与处理表不一致
公文头是指一份公文的原数据,包括标题、发文字号、签发人、密级、保密期限、主送机关、抄送机关、紧急程度、成文日期等,处理表是指公文处理子系统中的公文审批表单。两者不一致是指:a、处理表中存在字段有值,而公文头不存在或为空;b、处理表和公文头都存在对应的字段,但是他们的值不相同。
错误样例如下:

(手机端用户请用双指缩放)
⑥ 经典句子引用偏差
经典句子是指经常被他人引用的、不能改写的句子,通常指名言金句、文件中一些重要不能错误的句子(称为重要句子)、古诗词、谚语等。
人们在引用经典句子时,漏字、多字、改写、换位会导致内容与经典句子实际内容不一致,例如:
(手机端用户请用双指缩放)
⑦ 行政区域错误
行政区域错误通常指描述地域、地点的内容中出现市与省不匹配、区县与市不匹配、区县与省份不匹配等现象。例如:
例子1:关于做好湖北省张家界市来宁人员信息核查和健康管理的通知(湖北省-->湖南省)
例子2:金华市富阳区财政局行政信息公开事项统计表(金华市-->杭州市)
例子3:广东省富阳区财政局行政信息公开事项统计表(广东省-->浙江省)
⑧ 公文标题成分缺失
公文标题不规范是指公文标题的各个组成元素缺失、元素重复、元素内容不符合规定等,其中包括:
(手机端用户请用双指缩放)
2.1.6 病句
(手机端用户请用双指缩放)
针对病句纠错,校对机器人主要支持以下两个方面:
① 词语搭配不合理
句子中主语和谓语之间、动词和宾语之间、附加成分与中心词之间搭配不当。例如:
例子1:我们要减少小学生学习负担。(...减轻...负担...)
例子2:人民的生活水平普遍增加了。(...水平...提高...)
例子3:要努力实现这一伟大的任务。(...完成...任务...)
例子4:要加强自身改革和建设的步伐。(...加快...步伐...)
② 成分赘余
句子结构已完整,句意已明确,但添加了一些不必要的词语,就会导致句子成分多余。例如:
例子1:报刊杂志,十分罕见,公开宣称,致信给。(词语冗余)
例子2:来自(从...来)于,这其中,并非(并不是)是。(虚词冗余)
例子3:目前的当务之急、口若悬河地说个不停。(成语冗余)
2.2 具有高精度识别率
识别率是智能校对的关键指标之一,它的高低决定了校对效果。目前校对相关的指标有:
(手机端用户请用双指缩放)
2.3 具有自我学习能力
校对机器人之所以“智能”,是因为它具备自我学习能力,其中包括:
① 自动采集语料
在校对服务过程中,系统自动收录校对目标的文本内容,自动标注,形成正确语料库。同时也收集用户忽略错误的语料数据,降低误识别率。
② 机器学习训练
基于自动采集语料和人工增加的语料数据,采用n-gram模型定期进行训练,构建校对模型数据,把新知识融入到校对模型中,从而提高校对识别率。
(手机端用户请用双指缩放)
2.4 多元化使用场景
为了更方便用户使用校对功能,校对机器人支持多元化使用场景:
① 嵌入到文档或网页编辑器
直接嵌入到金山WPS、永中Office、微软Word等文字编辑器中,实现“边写边校对”,如下图:
校对机器人嵌入到文档编辑器中
直接嵌入到网页编辑器中,实现“边写边校对”,如下图:
校对机器人嵌入到网页编辑器中
② 校对机器人(独立应用系统)
提供一个独立的校对应用系统,支持批量上传DOC、DOCX、PDF、OFD、HTML、TXT等文档,系统自动校对并生成校对报告。如下图:
校对机器人独立系统 智能校对报告
③ 使用接口集成到第三方系统
提供服务接口,与OA等第三方系统对接,在第三方系统直接使用校对功能。与OA对接效果如下图:
校对机器人嵌入到OA系统中
3.1 服务器需要什么样的配置?
校对机器人采用了大数据和人工智能技术,对算力要求比较高。
① 运行服务器一台(5个并发),建议配置:32G以上内存、16核以上CPU。
② 机器学习服务器一台,建议配置:64G以上内存、16核以上CPU。
建议选择鲲鹏32核CPU、256G内存。
3.2 必须要部署机器学习平台吗?
校对机器人平时不停学习党政官网上公开的文献、政策、讲话、法规等,校对识别率可以达到90%。如识别率要求达到95%,那就需要对用户内部数据进行机器学习,即需要部署机器学习平台。
3.3 运维服务有哪些内容?
随着社会的变化发展,公文内容不断更新,持续出现新词、新表述。因此,校对机器人需要定期补充和更新校对相关知识,具体包括:
① 更新词库数据:人名、机构名、术语等词汇。
② 更新领导称谓及排位:领导岗位变动引起的领导称谓及排位数据变动。
③ 模型定期训练:更新公网采集的语料,融合用户内部最新语料,进行机器学习,构建新模型。