人工翻译与与机器翻译中,比较文件,而不是句子

      浏览:

人工翻译与机器翻译的争论可以追溯到20世纪50年代,甚至可能更早,这既令人着迷也很累人。 过去两年中神经机器翻译的快速发展引发了讨论的重新崛起,甚至导致像微软这样的大型科技公司发布研究论文,其中大胆(如果不是误导性)的标题如“在自动汉语到英语新闻翻译中实现人性平等” “。

当然,微软的作者确实缓和了他们的说法。根据他们的论文,如果来自机器翻译系统的候选翻译测试集的人类质量得分与相应人类翻译的得分之间没有统计上显着的差异,则实现人均等值。

换句话说,如果双语人工评估员将人类和机器翻译的质量判断为相等(分数差异在统计上无关紧要),那么“机器已达到人类平价”。

进入L?ubli,Sennrich和Volk

现在,一组研究人员认为,许多研究人员和行业专家一直在从错误的角度来看问题。

在一篇题为“机器翻译是否实现人类平等?文档级评估案例,“爱丁堡大学博士候选人SamuelL?ubli和共同作者,爱丁堡大学信息学院助理教授Rico Sennrich博士和计算语言学研究所Martin Volk博士苏黎世大学认为,研究应该关注文档层面的背景,而不是在句子层面比较输出。

作者使用专业的人工翻译来评估微软在机器翻译会议(WMT)2017中英文新闻任务中使用的NMT引擎的性能。此外,他们还使用成对排名(人与机器翻译的并排比较),同时在计算翻译充分性和流利性时也考虑文档级上下文。

根据他们的定义,微软的人类平价声称持有水,但仅仅是因为他们使用了当前的MT研究标准,根据L?ubli的论文,这些标准已经不适合有效地评估NMT。

L?ubli,Sennrich和Volk的方法纠正了微软研究论文中使用的评估的一些问题。

“了解NMT的优点和缺点,我们很难想象[微软的]系统真的达到了专业人工翻译的质量,”L?ubli通过电子邮件告诉Slator。

他解释说,微软在他们的方法学中遵循了当前的研究标准,通常情况下,“评估者从任何测试文件中逐个看到单个句子,按随机顺序排列 - 并将评分从0到100评定为充分和流畅性。 ”

然而,在这个过程中,L?ubli表示评估人员“不可能”检测到某些翻译错误,因此他们无法正确考虑这些错误。

他指出了微软过程中的一些主要问题,其中包括:

评估员是双语人群,不一定是专业翻译。

人工翻译与与机器翻译中,比较文件,而不是句子

评估员只评估充分性,而不是流利性。

评估员“从不直接比较人与机器的翻译。”他们分别看了一下并分配了分数。

为了解决直接比较问题,L?ubli说“我们在实验中使用了成对排名。评估者总是同时看到某个源文本的人工和机器翻译,并选择了两者中较好的一个。“

“让我向你保证,MT社区并不认为NMT已达到专业翻译水平,”他总结道。

不是微软的错

L?ubli,Sennrich和Volk的结果指出了一些有趣的事情。

一个主要的发现是,当提供整个文档的上下文而不仅仅是单个句子时,专业人工翻译强烈倾向于人类翻译与NMT输出相比。

此外,相同的专业评估人员更喜欢人类翻译的流利程度。然而,无论在句子水平上是否充分,都没有统计学上显着的偏好。

文档级上下文目前是NMT研究的优先事项。这是Slator的NMT 2018年报告中讨论的下一个主要问题之一,受访的主题专家强调,其中包括L?ubli和Sennrich。

“这不是他们的错,”L?ubli告诉Slator,指的是微软,“他们使用的程序是MT社区的标准做法。”

“微软不应该为他们的系统评估负责。它遵循社区中的“最佳实践”,基于评估句子,而不是整个文档,我们认为MT现在达到了“最佳实践”需要改变的质量水平:我们应该使用完整的文档来判断MT质量,“ 他说。

事实上,在他们的论文结论中,作者写道:“如果我们接受我们的解释,即人类翻译在我们测试的数据集中确实具有更高的质量,那么这表明当前机器翻译评估的最佳实践失败了。”

然而,在他的电子邮件中,L?ubli确实补充说,微软的团队可以更好地处理这个头衔。“他们的论文题目有点大胆,”他说,“它本应该是这样的:双语非专业人士给出了由我们的系统产生的孤立句子和专业译员相似的分数。”

NMT评估需要改变

在他们的论文结论中,L?ubli,Sennrich和Volk解释说,NMT目前处于流利程度,BLEU(双语评估替补)基于单一模型翻译得分,甚至评估非专业人类翻译句子级输出不再足够。

“随着机器翻译质量的提高,翻译将难以在质量方面进行区分 ,并且可能是时候转向文档级评估,这为 评估者提供了更多理解原始文本及其翻译的背景,”该论文的结论阅读。它进一步解释说,文档级评估显示在句子级评估中否则“不可见”的翻译错误。

我们认为MT现在达到了这种“最佳实践”需要改变的质量水平:我们应该使用完整的文件来判断MT的质量。

当提出MT研究的突破时,L?ubli建议谨慎。“传播关于人类平等的谣言对于研究和实践都是危险的:如果资助机构认为问题”已经解决“并且翻译经理不再愿意让专业人员修改MT输出,他们可能不想再为MT研究提供资金一点都不,“他说。

L?ubli的团队并不是第一个指出当前MT研究社区标准需要改变的人。

在Slator的2018年NMT报告中,专家指出了目前BLEU评分标准的局限性,并提供了一些更好的选择。在他自己的研究论文中,ADAPT数字内容技术中心副主任Andy Way教授表示,“基于n-gram的指标如BLEU不足以真实地证明NMT相对于基于短语的,统计学和混合的好处] MT。“

Way在其论文中写道:“如果NMT确实成为该领域所期望的最先进的新技术,人们可以预期,更精确地调整到这种范式的更多新评估指标将很快出现。”


参考资料

热门标签

更多 >