人工智能驱动下的众包翻译技术架构展望_瑞科上

      浏览:

人工智能驱动下的众包翻译技巧架构展望_瑞科上海翻译公司

  择要:众包翻译作为数字化、全球化期间出生的一种全新线上翻译协作形式,正在互联网、人工智能技巧的鞭策下迅猛发展。它超过国度与地区之鸿沟,无效整合群众聪明与社会零碎资源,增进翻译产业化、社会化的同时晋升其服从。近年来,众包翻译正在社会、语言、政治、伦理等范畴影响深远,从翻译伦理、翻译界说、翻译评价、翻译技巧等多个维度应战了传统翻译形式。本文联合 AI 时代背景,商量众包对传统翻译理论跟实际带来的打击,从译前、译中、译后三个阶段,以架构图的情势系统地勾画了人工智能技巧与众包翻译无机联合的能够方法及潜伏机缘,并盘绕每一个技巧切入点剖析其具体实施战略,以期对翻译跨学科研讨作出无益摸索。


  关键词:众包翻译;人工智能;认知科学;翻译模子
  中图分类号:H059 文献标识码:A 文章编号:1000-873X (2019) 04-0126-09


  正在信息互联期间, 翻译已不只限于传统意义上的语内翻译、语际翻译、符际翻译等,数字化扩展了翻译内在跟外延,即 GILT= Globalisation(全球化)+ Internationalisation(国际化)+Localisation(本地化)+Translation(翻译)。正如 Cronin(2013)所展现的:“翻译正阅历一场革命性巨变。数字技巧与互联网对翻译的影响连续、普遍且深刻。从自动在线翻译效劳到众包翻译的鼓起,和智能手机上翻译应用程序的提高,翻译厘革无处不在。”①毋庸置疑, 信息科学、 人工智能(Artificial Intelligence,AI) 与翻译联合, 曾经对语言、社会、文明等发生深远影响。众包(crowdsourcing) 是网上协作翻译(Online Collaborative Translation)的一种情势,是数字化期间最新,也是覆盖面最广、开展最快的翻译形式。众包翻译作为超过鸿沟的收集协作翻译形式,极大影响了翻译伦理、翻译界说、翻译评价等多个方面。近年来,正在深度学习、年夜数据、高性能计较的协同鞭策下,人工智能技巧取得了长足进步。神经网络机器翻译(neuralmachine translation,NMT)成为技巧主流,翻译质量逐年晋升。2018 年,微软研究院 AI 课题组机器翻译团队正在国际数据散 WMT-17 的新闻数据散 newstest2017 上初次逾越了人类专业 火 仄(Hassan et al.,2018)。WMT 是机器翻译范畴国际顶级评测角逐之一,其数据散为机器翻译研讨范畴公认的主流数据散。此中,newstest2017 新闻报道测试集由产业界跟学术界的合作伙伴共同开发,包罗来自新闻评论语料库、联合国平行语料库、CWMT 语料库的合计远 2500 万测试句对。微软正在此数据集上取得的结果关于人工智能技巧正在翻译范畴的使用存在标记意思。AI 期间的到来将深刻转变人类的生涯与事情方法,众包翻译协作形式亦不再限于人与人的领域,更将延长至人与机械,以至机械与机械的维度。本文将正在那一靠山下商量众包翻译以后所面对的应战,并对将来与 AI 能够联合的技巧架构停止展望。


  一、众包与 AI 对传统翻译理论跟实际的应战
  “众包”一词由美国记者 Howe 正在《连线》(Wired)杂志起首提出,他将其界说为“传统上交给指定代办署理的事情使命,以强迫情势外包给非特定的、平常是群众收集群体去做。可采取群众出产的情势,也常由团体担纲”(Howe,2006)②。众包翻译由非职业舌人群体实现,最典范的案例就是对 Facebook跟 Wikipedia 的翻译。众包翻译形式的呈现,惹起对翻译质量、公道酬劳、译者位置等翻译伦理问题的探讨。与此同时,人工智能技巧作为现今一项要害生产力因素,正不休天驱动着各行各业生产方式跟生产关系的重构。
  众包与 AI 相结合,将对传统翻译实际跟理论造成极大打击。其一,正在翻译的界说方面,正在今世翻译实际中,翻译被视作寒暄、认知、文本天生进程(Hurtado Albir,2017),这个进程可以是社会性的(Wolf,2010)、文明性的(Bassnet & Lefevere,1990)、 技 术 性 的(Jiménez-Crespo,2013)或包容性的(Shao,2010;2017)。只管这些传统界说已很好显现了典范视阈下的翻译,但众包与 AI 期间的到来引入了三个新的特色:碎片性、数据性跟智能性。
  便碎片性而言,语言学派的翻译观平常认为,正在微观层面上的文本处理对发生联贯且跟尾优越的方针文本至关重要,它能保障翻译质量,且能到达预期寒暄目标。然而,众包翻译将寰球使命分化为浩繁微型使命,随后由大批翻译爱好者去实现,要求源文本本身可以被分化为多个团圆微型使命,交由分歧译者负担,这类微型使命处置惩罚方式能够会缺乏连贯性、气势派头一致性和微观上的掌握,从而倾覆了传统语言学派翻译观。便数据性而言,年夜数据已成为驱动现代文明开展的一种策略资源,它存在大批、多维度、齐备性跟及时性等特色。依靠海量语料年夜数据(特殊是双语 / 多语平行语料)的翻译研讨跟使用逐步形成趋向。这些数据正在维度上包括:文本、语音、图象 / 视频(例如手语、肢体语言、脸色语言)等。正在齐备性上笼罩:分歧语种、分歧专业范畴、分歧地区、分歧人群等。正在及时性上不断更新迭代,将新的观点、新的语言(如:互联网语言、程序设计语言等)融入此中。正在可以预感的将来,年夜数据的利用将成为翻译的一个紧张属性。
  便智能性而言,年夜数据、高性能计较、深度学习的联合为 AI 开展注入了亘古未有的活气,鞭策着全部社会各行业的进级与厘革。AI 范畴的各个研讨分支:机器翻译、语音辨认、字符识别、语音分解、手语辨认、姿态辨认、脸色辨认等正慢慢使用于翻译行业。字符识别→机器翻译→译后编纂→人工审校的形式大幅度晋升了笔译行业的出产服从。语音辨认→机器翻译→语音分解的形式起头胜任一些简略的笔译使命。谷歌、百度、腾讯等许多科技公司也推出基于手机摄影→字符识别→机器翻译形式的 APP 使用,资助人们正在日常生活中实现便利的翻译。智能技巧将加倍深化天渗透到分歧翻译使用场景中,正在晋升工作效率、降低劳动强度、改善服务体验、范例行业标准等许多方面对翻译停止重塑。
  其二,就源文本托付方法而言,Bowker(2006:180)认为:“若要翻译文本的悉数信息,译者平常需超过句的鸿沟,是以翻译影象所利用的以句为单元的方式能够不利于全文本动静的无效翻译”③。然而,众包翻译为了将源文本托付社区译者,须要将其拆分为更小单元。两种最罕见的环境以下:一是,一本书的若干章节,经由过程某种方法由社区译者认领,译者应用传统方法或古代方法处置惩罚。二是,一本书正在众包平台上,经由过程众包平台后盾文本管理系统将篇章拆分为段落或许句子,由社区用户认领,或许体系推举给程度相称的注册用户做翻译,至于是不是利用翻译影象(Translation Memory,TM)技巧,由译者决意。另外,跟着机器翻译技术水平的不休晋升,是不是采取机器翻译对源文本停止预处理,再将机翻成果与源文本推送给译者参考以提高效率、降低劳动强度,是翻译理论层面需思量的问题。
  其三,正在数字化跟 AI 期间,源文本与方针文本皆能够以多种形式显现。文本不只包括文字,并且借可由非语言情势造成,如图形、图象、动画、格局标识表记标帜符排版、视觉,多媒体元素(cf. Remael,2010)和数字文本 互 动 性(cf. Jiménez-Crespo,2013)。 例如,Nord 将文本界说为“正在寒暄互动中利用的寒暄旌旗灯号的总和”(1991:14)。是以,文本不只可用语言手腕抒发,也是一种可以经由过程行动跟非语言手腕相结合实现的寒暄行动(同上:15)。 同 理,G?pferich 把科技翻译中的文本界说为“由语言或图形语言组成的联贯整体”(1995:57)。众包翻译涵盖了从将使命缩小到处置惩罚孤立句子的语言条理,到让使命“所得即所见”(YGWYS)情况中方针文本的多模态性(Jiménez-Crespo,2017:168)。采取众包形式的译后编纂网站曾经比力多,例如微软协作翻译框架(Aikawa et al.,2012)、Smartling 收集协作翻译平台④、多邻国(Duolingo)语言学习平台⑤、Amara开源及时协同字幕翻译平台⑥(又称字幕在线编辑器)等。
  其四,便文本的动态性而言,正在传统译论中,文本是不变且完全的翻译单元,只依据详细翻译举止的要求而转变。正在众包跟协作翻译形式中,文本内容能够会时常更新( 例 如, 著 名 硬 件 开 收 仄 台 GitHub ⑦ 上的大批开源软件库的开辟教程、使用程序接口皆随软件库版本的不休迭代而快捷更新,Wikipedia 上的各类词条也有近似环境),平常以碎片化、分批次、微使命的方法传送、翻译、托付、验收,是以基于众包的收集协作翻译形式与传统翻译形式有所不同,众包依据微型使命(micro-task)的需要,将源文本停止需要的宰割与分化,而源文本本身能够静态天不断更新。


  两、AI 技巧付与众包翻译的机缘展望
  1950 年英国数学家艾伦 · 麦席森 · 图灵(Alan Mathison Turing) 提出有名的图灵测试(Turing,1950)假想之后,机械是不是可能仿照人类智能这一问题遭到愈来愈多学者存眷。1956 年 8 月,正在美国汉诺斯小镇的达特茅斯学院会聚了约翰 · 麦卡锡(John McCarthy)、马文 · 明斯基(Marvin Minsky,人工智能与认知科学专家 )、 克劳 德· 香农(Claude Shannon, 信息论创始人 )、 艾伦·纽厄尔(Allen Newell,计算机科学家)、赫伯特 · 西蒙(Herbert Simon,诺贝尔经济学奖得主)约 20 位科学家,配合商量用机械去仿照人类学习和其他方面的智能,并正式提出人工智能(Artificial Intelligence)的观点(McCarthy et al.,2006)。随后的远 60 年间,人工智能技巧连续开展, 新的思惟不断涌现(cf. Russell & Norvig,2016)。1956 年至 70 年月中后期代表性研讨包罗:命题逻辑、谓词逻辑、启发式搜刮等,研究者从早期抱有过于悲观的预期到渐渐认识到理想问题的复杂性跟多样性;随后的 80 年月早期,人工智能技巧起头步入工业应用领域,专家系统、常识工程、医疗诊断等为该阶段的次要代表;80 年月末期呈现了一个长久的神经网络研讨高潮,今后人工智能起头盘绕计算机视觉、自然语言明白、认 知 科 学、 机 器 学 习、机器人学(Robotics)等自力开展。2012 年 Hinton 研讨团队提出了深度神经网络模子 AlexNet(Krizhevsky et al.,2012), 将 ImageNet LSVRC-2010 图片辨认测 试 top-1、top-5 错误率从之前最好纪录47.1%、28.2% 离别降至 37.5%、17.0%, 至此深度学习起头成为人工智能研讨热点。人们正在年夜数据跟高性能计较的驱动下应用神经网络慢慢构建出不变、靠得住的特征提取机制,鞭策人工智能技巧正在人脸识别、方针检测、语音辨认、机器翻译等浩繁庞大使用场景取得长足进步。这一趋向延长至今,计算机视觉、自然语言明白与交换、认知与推理、机器人学、博弈与伦理、机械学习成为以后人工智能技巧六大次要研讨范畴。此中,自然语言明白与交换、计算机视觉、机械学习与众包翻译关系密切。为了系统地展望人工智能技巧正在众包翻译范畴的潜伏使用代价,笔者将全部众包翻译进程分别为:译前、译中、译后三个阶段,针对每阶段所面对的关键问题列出了详细的联合方法。图 1 展现了人工智能技巧与众包翻译的联合构思框架。
  (一)译前阶段的人工智能使用展望
  正在译前阶段,用户向众包翻译平台供给须要翻译的文件,此阶段要办理的关键问题为:若何从用户文件中提取待翻译的源文本信息,若何将源文本宰割为详细的翻译使命推送给分歧译者,若何对源文本停止预处理以晋升后续译者翻译的质量跟服从,若何为分歧的翻译使命找到适合的译者。
  1)以源文本提取为切入点的人工智能技巧使用
  众包翻译源文件除罕见的 Office 文档、RTF、TXT、HTML、可解析 PDF 等可间接经由过程解码取得源文本的格局中,借存在如:不成解析的 PDF(平常由扫描或摄影取得)、图片(JPEG、PNG、TIFF 等 )、 语音文件(WAV、MP3、WMA、APE、AAC 等 )、 视频(MOV、AVI、MPEG、MP4 等 )。人工智能范畴的光学字符识别(Optical Character Recognition,OCR)技巧跟自动语音辨认技巧(Automatic Speech Recognition,ASR)便可正在此发挥作用。OCR 致力于利用计算机辨认出图象中的文字,ASR 可自动识别语音文件并将其转写为文字。当源文本没法从文件中间接解析获得时,这两项技巧可起到紧张帮助作用,大幅度降低众包翻译的劳动强度、进步其工作效率。
  2)以源文本宰割为切入点的人工智能技巧使用
  众包翻译由大批译者网上协作实现,每一个译者仅担任部门内容。其实现翻译事情的形式次要可分为四种:其一,仅依赖人工对所分派的源文本停止翻译。其二,应用 CAT体系辅佐人工停止翻译。其三,起首采取机器翻译系统对源文本停止预翻译,然后正在此基础上由人工停止校审跟编纂。其四,采取机器翻译系统对源文本停止预翻译,然后正在此基础上停止计算机辅助翻译,最初由人工停止校审跟编纂。不管何种形式,若何将源文本无效宰割成适合的语义单位,关于翻译的质量与服从皆极为重要。间接依照句子停止宰割的方法,易发生上下文语义损失从而招致误译跟漏译,例如:源文本中能够大批存在的小句复合体,小句之间存在的庞大逻辑关系被宰割后能够发生损失或歧义。然而,若将大段文本作为一个翻译单位则将耽误译者实现单个翻译单位的速率,降低众包翻译的并发性跟及时性;另外,将大段文本提交给 CAT 翻译体系,能够会招致语料婚配率跟翻译后果的降低。采取自然语言处置惩罚(Natural Language Processing,NLP)技巧,对源文本语义布局停止剖析以实现靠得住宰割,是人工智能使用于翻译众包的一个紧张的切入点。
  3)以译前文本预处理为切入点的人工智能技巧使用
  正在对源文本停止翻译之前,得当的预处理事情可以无效晋升翻译的质量跟服从。笔者认为译前文本预处理阶段,人工智能技巧可从三个方面切入:(1)非译元素 / 专业术语的智能辨认与标识表记标帜。当源文本来自特定专业范畴或语境时,此中大批专业术语、非译元素很难被通用的机器翻译引擎无效处置惩罚。若能正在译前阶段对非译元素停止辨认跟标识表记标帜,关于晋升翻译质量,顺应分歧翻译名目需要存在紧张的潜伏代价。(2)小句复合体简化。小句复合体(clause complex)又称复句,是现阶段机器翻译范畴面对的难点,应用 AI 技巧对小句复合体停止简化,降低后续机器翻译的难度,关于制止误译跟漏译的发生存在优越的研讨代价。(3)源文本噪声滤除。正在源文本提取进程中,特殊是应用 OCR 技巧从图象中获得源文本的环境下,能够发生必然的噪声,例如:字符乱码、毛病辨认、毛病标点符号等。智能天辨认跟滤除噪声,改正源文本中的毛病,对晋升众包翻译质量意思庞大。
  4)以译者推举为切入点的人工智能技巧使用
  跟着众包翻译范围的不断扩大,若何依据众包翻译使命的具体内容,将其推举给感兴趣并存在响应才能的译者成为晋升众包翻译经营服从、进步翻译质量的要害。AI 范畴推举体系已被普遍天使用于电子商务、在线视频、交际收集等贸易场景,资助企业更好天明白用户需要以供给杰出效劳。正在众包翻译项目管理中,依据译者根底信息(例如,教导靠山、从业履历、善于语种、熟习范畴、文化背景等)、译者静态信息(例如,在线工夫、译文质量、响应速度等)构建一套译者推举体系将分歧范畴、类型的源文本正在特定工夫推送给适合译者,晋升使命婚配率跟用户体验的同时让众包平台译者自身专长失掉充分发挥。
  (两)译中阶段的人工智能使用展望
  正在译中阶段,待翻译的源文本被宰割为分歧使命由众包翻译平台分派给分歧的译者,此阶段要办理的关键问题为:若何晋升译者的翻译质量跟服从,若何降低译者劳动强度,若何无效经管大批译者,若何实时相识译者形态跟名目希望并依据译者的及时显示程度静态调剂任务分配战略。
  1)以机器翻译为切入点的人工智能技巧使用
  机器翻译是人工智能技巧与众包翻译相结合最紧张的切入点之一,它隶属于计较语言学(Computational Linguistics),致力于利用计算机将文本或语音从一种自然语言(源语言)转换为另一种自然语言(目标语言)。作为现今 AI 范畴热点问题,其研讨超过计算机科学、认知科学、语言学、信息论等多个学科。机器翻译的研讨可追溯至 1933 年的两个标记事宜(Hutchins,2004):其一,1933年 7 月 22 驲,法国工程师 Georges Artsrouni获 得 一 项 名 为“mechanical brain”( 法 语:cerveau mécanique) 的 专 利 授 权, 正在 其 中他初次提出了用机械去停止翻译的构思。其二,同年,前苏联科学家 Peter Troyanskii 向苏联科学院先容了一种能将一种语言翻译成另一种语言的机械模子,并于 9 月 5 驲提交了专利申请。正在随后的开展中机器翻译大抵阅历了:第一次高潮期间(1956-1966);基于划定规矩的机器翻译(Rule-Based Machine Translation,RBMT)(1967-2007); 统计机 器 翻 译(Statistical Machine Translation,SMT)(1993-2016); 神经 网 络 机 器 翻 译(Neural Machine Translation,NMT)(2013-至今);现阶段,神经网络机器翻译取代统计机器翻译成为学术界研讨主流,正在工业界基于Transformer、ConvS2S 等神经网络模子的机器翻译体系被广泛应用。开源社区为机器翻译的开展注入发达能源,tf-seq2seq(谷歌),fairseq(Facebook)、Sockeye(Amazon)、OpenNMT(哈佛大学)等开源神经网络机器翻译框架的宣布跟不断更新让愈来愈多企业与团体可能快捷分享机器翻译范畴最新研讨成 果。跟着注意力机制(Attention Mechanism)、 对偶学习(Dual Learning)、斟酌收集(Deliberation Networks)、结合锻炼(Joint Training)、 端到端锻炼(End to End Training)等一系列新思惟的提出,机器翻译的精度被不休刷新。2018 年,微软研究院 AI 课题组机器翻译团队正在国际数据散WMT-17 的新闻数据散 newstest2017 上取得了跨越人类专业程度的后果,这一事宜进一步印证了机器翻译的极大潜力。正在可以预感的将来,机器翻译→众包译后编纂→众包人工审校的形式,将大幅度晋升众包翻译的服从跟质量。
  2)以计算机辅助翻译为切入点的人工智能技巧使用
  CAT 与机器翻译分歧,它没有依赖于计算机的自动翻译,而是正在人的介入下实现全部翻译进程。正在众包翻译进程中,计算机辅助翻译可使沉重的人工翻译流程自动化,并大幅度提高翻译服从跟翻译质量。代表性产物包罗:Trados( 英 国 )、 memoQ(匈牙利 )、Déjà vu( 法 国 ), 以 及 国 内 的 iCAT、Transmate 等。人工智能范畴对于自然语言处置惩罚的研讨,对晋升现有 CAT 体系的影象库恍惚婚配、术语辨认、自动批改等方面有着普遍的使用前景。
  3)以译者经管为切入点的人工智能技巧使用
  若何无效经管大批译者,正在保障翻译质量的同时,晋升翻译服从,是众包翻译研讨的一个焦点问题。人工智能技巧正在此存在优越的潜伏使用代价,例如,众包中采取对译者付费的方法时,分歧履历、才能、资格的译者其单元工作量所获酬劳分歧,为了制止圈外人顶替的环境产生,可引入人脸识别技巧、指纹识别技巧、虹膜辨认技巧等对译者停止身份验证。翻译作为一种跨语言的明白、重构行动,与译者的认知生理形态紧密联系。古代认知心理学的开展阅历了从“身心二元”(离身认知,disembodied cognition)到“身心 一 体 ”( 具 身 认 知,embodied cognition)范式的变化。具身认知强调人类心理形态正在其认知心理过程施展紧张影响,这一概念被大批的迷信研究所撑持(Wells & Petty,1980;Steppe & Strack,1993;Rizzolatti & Craighero,2004;Williams & Bargh,2008)。正在事情进程中,译者各类心理形态:疲惫水平、脸部脸色、体征显示,皆会对其生理认知进程形成滋扰,进而影响其译文质量跟翻译服从。人工智能范畴的疲惫检测技巧跟脸色辨认技巧等非常适合这一使用场景,当发明译者处于疲惫形态或感情猛烈颠簸时,体系可提示其得当苏息并削减其使命的分派量,以避免将过多的使命发送给疲惫或感情欠安的译者;而关于精神抖擞、感情优越的译者则得当配予更多翻译使命,晋升众包翻译平台综合管理水平。
  (三)译后阶段的人工智能使用展望
  正在译后阶段,译者实现众包翻译平台分派的使命并将译文反应给平台,此阶段要办理的关键问题为:若何无效检测译者的误译、漏译等无意偶尔因素形成的毛病,若何对分歧译者的翻译事情停止评价以便绩效经管,若何获得译者的工作效率、营业才能、善于语种、善于范畴、事情注意水平等多方面特点以便精准天分配任务。
  1)以译后编纂为切入点的人工智能技巧使用
  不管译中阶段采取人工翻译仍是机器翻译,译文中均能够存在误译、漏译和别的无意偶尔因素形成的毛病。译后编纂成为众包翻译质量保证一个关键环节。此阶段,可引入自然语言处置惩罚技巧对译文的逻辑性、语法、选词、拼写跟语义完整性等方面停止周全剖析,实现译文自动校订,修复罕见语法、逻辑毛病等,再由众包翻译的译后编纂职员进一步人工处置惩罚。另外,借可以引入计算机视觉技巧,依据原始文档对译文排版停止自动调剂,使其与原始文件的视觉效果保持一致,以进一步提高方针文本质量。
  2)以翻译评价为切入点的人工智能技巧使用
  翻译评价可让管理者实时相识译文质量并正在众包翻译进程中做出得当干涉干与跟调剂。传统翻译评价采取人工方法停止,服从低、本钱下,而机器翻译采取的自动器度尺度,例如:BLEU、NIST、 错词率(Word Error Rate)、METEOR 等须要预先设置方针文本作为参考(平常众包翻译中并无预先设置的方针文本)。此处可应用翻译年夜数据对译文毛病停止猜测,应用译后编纂进程中所发生的反应数据,联合自然语言处置惩罚技巧、模式识别技巧等实现自动翻译评价,实时反应译文质量。
  3)以译者画像为切入点的人工智能技巧使用
  众包翻译正在译中阶段若采取人工停止翻译,可获得各种译者行动数据,如:译者提交译文的速率、接单量、接单工夫、自动取舍的译文类型和译后编纂发生的反应数据可反应出译者的工作效率、营业才能、善于语种、善于范畴、事情注意水平等多方面特点。此阶段可引入人工智能范畴的用户画像技巧,剖析译者特色,树立并不断完善译者模子,静态相识译者事情情况、专业范畴劣势、翻译程度等,为众包翻译的译者审核经管、翻译任务调度等供给支持。
  (四)基于众包翻译数据的人工智能体系迭代
  古代人工智能技巧的开展对数据的量与量皆有极强依附,众包翻译作为一种跨语言、跨地区的语料数据加工方法,其中间环节跟终极输出均可为人工智能的模子锻炼、优化和人工智能技巧研讨供给海量优良数据资源。笔者认为可从以下三个方面切入,充分运用众包翻译所发生的数据对人工智能体系停止迭代,不休优化其智能程度以顺应分歧使用场景需要:
  1)应用众包翻译所发生的平行语料数据迭代机器翻译体系
  众包翻译的终极输出可加工为平行语料数据(平常为双语平行语料,当源文本被同时翻译为两个以上语种方针文本时则可输出多语平行语料),这些语料数据经由过程进一步加工跟美满,可反应给机器翻译体系以用于锻炼、改善现有机器翻译模子或用于新的机器翻译技巧研讨。
  2)应用译后编纂数据构建译者画像模子迭代译者推举体系
  译后阶段所发生的译后编纂数据可反应出译者对特定文本的翻译程度、事情注意水平。正在此基础之上,联合译者行动数据构建译者画像模子,将其反应给译前阶段的译者推举体系,可晋升推举体系的精准度或用于研讨新的推举模子。
  3)应用译后编纂数据迭代源文本提取体系
  当译前阶段源文件为图片或没法间接解析出文本的 PDF 格局等环境时,若源文本提取体系基于 OCR 技巧对图象停止文字辨认,其辨认成果能够存在必然毛病输出。针对这一问题,正在译前阶段或译后编纂中可得当人工校订,对源文本跟译文停止搜检、批改此中字符识别毛病或排版格局辨认毛病。这些被辨认毛病的图片,可作为新标注的难题样本反应给源文本提取体系,用于改善现有模子或研讨新的 OCR 算法,经由过程不休迭代让人工智能技巧顺应分歧实际使用场景文本提取须要。


  三、结语
  数字化技巧跟互联网带来的众包翻译形式,经由过程无效整合社会零碎翻译资源跟群众聪明,晋升翻译服从、增进翻译产业化跟社会化。跟着 AI 期间的到来,正在年夜数据、高性能计较、深度学习技巧的驱动下,机器翻译、文字辨认、语音辨认等许多应用领域取得冲破希望,显现出极大社会效应跟商业价值。若何将人工智能技巧无机天融入众包翻译的实际与理论之中,进步翻译服从、改良译文程度、增进舌人分工协作、鞭策行业先进成为翻译学科一个新的课题。本文剖析了以后众包翻译所面对的机缘与应战,并联合 AI 时代背景,对人工智能技巧与众包翻译协同开展的蓝图停止展望。从众包翻译的译前、译中、译后三个阶段,体系商量了人工智能技巧正在众包翻译范畴的切入点、联合方法、潜伏代价、技巧难点及应答战略。针对人工智能技巧开展的数据依赖性,提出了一种应用众包翻译进程加工与天生数据以改善现有人工智能技巧的构思。众包与AI 期间的到来,一定招致社会分工协作方法跟产业结构的调剂,也将对翻译学科开展发生深刻与长时间的影响。
  基金项目:本文是国度社会科学基金青年名目“认知文体学视阈下阿来小说地区特征性及汉英平行文本比照研讨 ”( 同意号:14CYY002)、东北交通大学美国研讨中间 2019 年年度名目(ARC2019001)的阶段性结果。


  正文
  ① Translation is living through a period of revolutionary upheaval. The effects of digital technology and the internet on translation are continuous widespread and profound. From automatic online translation services to the rise of crowdsourced translation and the proliferation of translation apps for smartphones the translation revolution is everywhere.
  ② [T]he act of taking a job traditionally performed by a designated agent […] and outsourcing it to an undefined generally large group of people in the form of an open call. This can take the form of peer-production but it is also often undertaken by a sole individual.
  ③ [T]o translate the overall message of the text translators often need to
work outside the artificial boundaries of sentences so the sentence-bysentence approach imposed by TMs may not be conducive to effective
  translation of the text’s message as a whole.
  ④ https://www.smartling.com
  ⑤ https://www.duolingo.com
  ⑥ https://amara.org
  ⑦ https://www.github.com


  参考文献
  [1]Aikawa Takako Yamamoto Kentaro and Hitoshi Isahara. The Impact of Crowdsourcing Post-editing with the Collaborative Translation Framework [A]. In Hitoshi Isahara and Kyoko Kanzaki (eds.). Advances in Natural Language Processing [C]. Berlin and Heidelberg: Springer 2012: 1-10.
  [2]Bassnett Susan and André Lefevere. Translation History and Culture [C]. London and New York: Pinter 1990.
  [3]Bowker Lynn. Translation Memory and Text [A]. In Lynn Bowker (ed.). Lexicography Terminology and Translation [C]. Ottawa: University of Ottawa Press 2006: 174-187.
  [4]Cronin Michael. Translation in the Digital Age [M]. New York & London: Routledge 2013.
  [5]Göpferich Susanne. Textsorten in Naturwissenschaften und Technik Pragmatische Typologie-Kontrastierung-Translation [M]. Tubinga: Gunter Narr 1995.
  [6]Hassan Hany et al. Achieving Human Parity on Automatic Chinese to English News Translation [Z]. arXiv preprint arXiv:1803.05567. 15 March 2018.
  [7]Howe Jeff. Crowdsourcing: A Definition [EB/OL]. (2006-06-02) [2018-02-19]. https://crowdsourcing.typepad.com/cs/2006/06/crowdsourcing_a.html. The Rise of Crowdsourcing [EB/OL]. Wired. (2006-06-01)[2018-11-04]https://www.wired.com/2006/06/crowds/
  [8]Hurtado Albir Amparo. Researching Translation Competence by PACTE Group [C]. Amsterdam and Philadelphia: John Benjamins 2017.
  [9]Hutchins John. Two Precursors of Machine Translation: Artsrouni and Trojanskij [J]. International Journal of Translation 2004 16(1): 11-31.
  [10] Jiménez-Crespo Miguel A. Translation and Web Localization [M]. New York and London: Routledge 2013.
  [11] Jiménez-Crespo Miguel A. Crowdsourcing and Online Collaborative Translations: Expanding the Limits of Translation Studies [M]. Amsterdam and Philadelphia: John Benjamins 2017.
  [12] Krizhevsky 人工智能驱动下的众包翻译技术架构展望_瑞科上 Alex Ilya Sutskever and Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks [A]. In F. Pereira C.J.C. Burges L. Bottou and K.Q. Weinberger (eds.). NIPS’12 Proceedings of the 25th International Conference on Neural Information Processing Systems [C]. Vol. 1. 2012: 1097-1105.
  [13] McCarthy John Marvin L. Minsky Nathaniel Rochester and Claude E. Shannon. A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence [J]. AI Magazine 2006 27(4): 12-14.
  [14] Nord Christiane. Text Analysis in Translation: Theory Methodology and Didactic Application of a Model for TranslationOriented Text Analysis [M]. Amsterdam and Atlanta: Rodopi 1991.
  [15] Remael Aline. Audiovisual Translation [A]. In Yves Gambier and Luc van Doorslaer (eds.). Handbook of Translation Studies [C]. Vol. 1. Amsterdam and Philadelphia: John Benjamins 2010: 12-17.
  [16] Rizzolatti Giacomo and Laila Craighero. The Mirror-Neuron System [J]. Annual Review of Neuroscience 2004 27(1): 169-192.
  [17] Russell Stuart J. and Peter Norvig. Artificial Intelligence: A Modern Approach [M]. 3rd ed. Upper Saddle River New Jersey: Pearson Education 2010.
  [18] Shao Lu. Reconceptualizing Translation: Tymoczko and the Radical Inclusive Approaches to Translation [J]. Translation Quarterly 2010 (57): 99-107.
  [19] Shao Lu. Review of Crowdsourcing and Online Collaborative Translations: Expanding the Limits of Translation Studies [J]. Babel 2017 63 (6): 901-906.
  [20] Stepper Sabine and Fritz Strack. Proprioceptive Determinants of Emotional and Nonemotional Feelings [J]. Journal of Personality and Social Psychology 1993 64 (2): 211-220.
  [21] Turing Alan Mathison. Computing Machinery and Intelligence [J]. Mind 1950 (49): 433-460.
  [22] Wells Gary L. and Richard E. Petty. The Effects of Over Head Movements on Persuasion: Compatibility and Incompatibility of Responses [J]. Basic and Applied Social Psychology 1980 1(3): 219-230.
  [23] Williams Lawrence E. and John A. Bargh. Experiencing Physical
  Warmth Promotes Interpersonal Warmth [J]. Science 2008 322(5901): 606-607.
  [24] Wolf Michaela. Translation “Going Social”? Challenges to the (Ivory) Tower of Babel [J]. MonTI 2010 (2): 29-46.


  作者简介 邵璐,香港浸会大学翻译学哲学博士,中山大学外国语学院传授、博士生导师、博士后协作导师,天津外国语大学中央文献翻译研讨基地兼
  职研究员。研讨标的目的:文学翻译、翻译技巧、翻译批驳。


参考资料

热门标签

更多 >