基于模板的统计翻译 测绘科学杂志2020年第08期一种阿拉伯语地名的机器翻译方

      浏览:

机器翻译阿拉伯地名的方法已经过验证,这对中国地理信息资源的构建具有重要的实际意义。Kerdsplacenamesmachinetranslationpointmutualinformation; 有向无环图;ywolexicalstructureanalis; 音节划分;forwardmaximummatchingalrithmysgo1222RENHongkai, WANGJizhou, MAOXi, MAWeii2 (1.山东君,YINHongmefScienceandTechnology,青岛,山东266590;2.ChineseAcademyofUniversityoSurveying & Mapping,Being10003,ChinaAcademyofUniversityoSurveying & ” 中国地名委员会、“一带一路”和“走出去” 民政部地名研究所编制的战略规划全部强制翻译地名。在字典等资料中,只有少数阿拉伯国家需要地名信息的支持。fort:;;Kerdsplacenamesmachinetranslationpointmutualinformation;directedacyclicgraph;ywolexicalstructureanalis;sylabledivision;forwardmaximummatchingalrithmysgo1222RENHongkai,WANGJizhou,MAOXi,MAOXi,MAOXi, ,ChinaName,Shandongjun266,YIN,ScienceandTechnology,China,Shandongjun266,YINmefScienceandTechnology,China,China,China,Yingo,Science andTechnology; 缺乏,也收录在中国地名委员会编纂的《外国地名翻译手册》中,以及“世界的“一带一路”

“一带一路”沿线国家有许多标志性地名,远不能满足阿拉伯民族国家日益壮大的全球地理。但是,我国对阿拉伯文和中文信息资源建设的需求还远远没有得到满足。目前阿拉伯地名的翻译方式主要是人工翻译,效率低下,成本高,而且没有作者简介:任宏凯(1996-),男,单义检查错误等缺陷,无法满足要求大型地名数据制作东德州基于模板的统计翻译,硕士研究生,主要研究配方构建的需求,如何实现阿拉伯地名对地名的高效翻译和标准化。快速翻译对于丰富全球地理信息资源尤为重要。邮箱:1430140448@qq。收稿日期:2019-05-10 同时,我们注意到机器翻译的发展为高效翻译阿拉伯地名提供了可能。机器翻译[1]又称自动基金项目:中国测绘研究院基础翻译[2],可高效翻译自然语言(源语言)文本研究业务资助项目(AR1912)另一种自然语言(目标语言)文本,全尺寸测绘科学158自动高质量机器翻译系统(FAHQMT)是人工智能的*终目标之一。机器翻译方法包括基于词典[3]匹配和词典组合语言学知识规则翻译、基于语料库的统计翻译系统机器翻译,以及基于三类的机器学习[4]方法。但是,地名[6]需要遵循国家标准[8]机器翻译系统[9-10]神经[5]复杂的构成,[7]专名的音译和通名的释义,目前第45卷1) 地名输入。

罗马化后输入标准的单一阿拉伯语地名。2) 地名模板提取。根据点互信息表达,对大量地名语料进行数据挖掘,设置阈值提取常用高频词。在此基础上,为每个地名建立一个有向无环图,并提取地名模板。以音译为主,不能满足3)基础名词的结构分析。输入的地名将发送给有特殊要求的地名翻译。(地名翻译目前不归类为匹配模板库。根据模板拆分句子结构,得到“阿拉伯语”的*佳翻译研究。) 地理名词的结构拆分方案。综上所述,本文着眼于阿拉伯地名的构成特点,根据阿拉伯地名翻译国家标准,在现有的[]4)专有名称音译14中。首先将专有名词划分成音节,然后按照前向*大匹配算法对每个音节进行分割。在机器翻译方法的基础上,提出用阿汉转写表对阿拉伯方言进行预处理。组合匹配的机器翻译方法一举成名。工作,*后输出对应的汉字翻译结果。一、技术路线阿拉伯字母是世界上除拉丁字母外使用*广泛的字母系统。它包括28个辅音,没有元音,而是12个发音符号和辅音组合来表达发音。目前,阿拉伯语地名的翻译有两种方式:第一种是将原阿拉伯语直接翻译成中文;二是在罗马化后翻译阿拉伯地名[11]。阿拉伯语的罗马化是指将阿拉伯字母转换为通用拉丁字母拼写的过程。本文根据罗马化后的标准阿拉伯地名进行研究。二是在罗马化后翻译阿拉伯地名[11]。阿拉伯语的罗马化是指将阿拉伯字母转换为通用拉丁字母拼写的过程。本文根据罗马化后的标准阿拉伯地名进行研究。二是在罗马化后翻译阿拉伯地名[11]。阿拉伯语的罗马化是指将阿拉伯字母转换为通用拉丁字母拼写的过程。本文根据罗马化后的标准阿拉伯地名进行研究。

阿拉伯地名的机器翻译主要包括以下5个步骤:结果的输出。将嵌套模板翻译结果中的占位符分别替换为专有名词的音译结果,合并输出*终的翻译结果。2关键技术2.1 基于点互信息训练提取地名模板点互信息(intwise互信息,PMI) po是指在独立假设下,两个随机事件同时发生,给定联合分布和边际分布的概率也可以理解为随机事件之间相互依赖程度的一种度量,它更多地关注单个概率事件而不是互信息。从表达式 (1), 互信息[15]是点互信息的期望。(x,)PMI(x,og2pyy)=lx)p(p(y)名称输入,地名模板[12]提取,地理名词结构[13]解析,地名音译,结果输出5个步骤。整个技术过程如图1所示。 (1)在计算语言学中,点互信息用于寻找与发现的词的搭配和联系。通常边缘分布p(x)、p(y)和联合分布p(x, y) 通过统计词的出现概率和共现概率来近似 好的词搭配关联 具有很高的PMI,因为共现的概率只比每个词的概率略低。相反,由于各自出现的概率远高于其共现概率,不相关的词对得到很小的PMI。在该方法中,考虑到常用名的特点来确定特征的类型和专名来区分相似的特征,常用名往往表示为一组固定的词/词搭配;专有名词之间没有大的相关性,基于此构造了一种基于点互信息的地名模板提取方法[16]。常用名称通常表示为一组固定的词/词搭配;专有名词之间没有大的相关性,基于此构造了一种基于点互信息的地名模板提取方法[16]。常用名称通常表示为一组固定的词/词搭配;专有名词之间没有大的相关性,基于此构造了一种基于点互信息的地名模板提取方法[16]。

分析阿拉伯地名的构词成分,将专有地名与地名常用词/短语的自由组合表达为地名的*终表达形式。映射关系f如下: 图1 阿拉伯地名机器翻译技术流程图(x(S,W)→y2) 其中:S代表地名专有名称;W包含地名总称,介词, Fi1TechnicalFlowChartofMachineg. 连词, 形容词和量词. 单个地名模板使用自定义 TranslationofArabicPlaceNames 意思是占位符 ([X], [Y], [Z], [M], [N]) 而不是专有名称引用格式:任宏凯, 王继洲, 毛曦, 等. 阿拉伯地名机器翻译方法[J]. 测绘科学, 8期1592020, 45 (8): 157-163.S, 结合常用词/短语W,地名结构抽象表达的一般表达。具体算法如下:首先遍历所有地名语料库,根据每个模板的翻译结果统计每个地名中的词对(Countab)和单个词(Counta),结合嵌套依次实现翻译。匹配地名“Qa爧ralSharī Sayyid”的模板后,得到三种分裂方案,如图3所示,分别计算次数,单个词或词对出现多次的概率较高。设置阈值e1,过滤集合H中的词对Pab>e1。 PaP(3)PaPb根据点互信息公式(3),

然后遍历每个地名,选择当前地名的所有有序词对匹配H,如果匹配成功(a,b)∈H,则在词对之间加一条有向边,否则不处理,遍历完成找到有向图的所有边。*后根据有向图的每条路径生成一个地名模板,统计所有模板出现的频率并计算其出现频率,并根据目标模板的个数设置阈值进行过滤提取(图) 2). 图3 地理名词方法结构分析 Fi3LexicalStructureAnalsisoftheGeoraphicalNameg.yg , Qa) 1) 方案A:由2个模板(alSharī[X]爧r[X]q和1个单词(Sayyid)组成,模板的对数频率为 -9. 64438、-< @6.08402。词频对数人为给定一个先验值,本文为-12.03846(即假设词频为0.5计算的对数频率)。该方案的对数频率之和为:-9.64438+(-<@6.08402)+(-12. 03846)=-2 7.76686 图2 Fi2TemplateExtractionDiaramg.g for 阿拉伯地名"alGharbīZawā`idahazaw", Sh)模板提取示意图2)方案B:由2个模板([X]al[Y]arī[ X]q和2个单独的词(Qa爧r,Sayyid),模板的对数频率为-5.40328、-7. 42381。本文为-12.03846(即假设单个词出现的频率为0.5计算出的对数频率)。该方案的对数频率之和为:-9.64438+(-<@6.08402)+(-12. 03846)=-2 7.76686 图2 Fi2TemplateExtractionDiaramg.g for 阿拉伯地名"alGharbīZawā`idahazaw", Sh)模板提取示意图2)方案B:由2个模板([X]al[Y]arī[ X]q和2个单独的词(Qa爧r,Sayyid),模板的对数频率为-5.40328、-7. 42381。本文为-12.03846(即假设单个词出现的频率为0.5计算出的对数频率)。该方案的对数频率之和为:-9.64438+(-<@6.08402)+(-12. 03846)=-2 7.76686 图2 Fi2TemplateExtractionDiaramg.g for 阿拉伯地名"alGharbīZawā`idahazaw", Sh)模板提取示意图2)方案B:由2个模板([X]al[Y]arī[ X]q和2个单独的词(Qa爧r,Sayyid),模板的对数频率为-5.40328、-7. 42381。

这是*终的语法规则,并分析符合规则结构的语法。在阿拉伯语地名翻译中,我们将语法规则[19]设置为单一地名名词结构。专名Sayyid音译,模板嵌套组合翻译流程如下图。*终的结果是“Eastern Sayyid can be translate by 多个地名通用名称模板嵌套并与占位符组合([X]或宫殿”。[Y])。这些模板是相互独立的,不是1)Qa爧r[alSharī[Sayyid]]→alSharīqq[Sayyid]宫。2)alSharī[Sayyid]宫→东[Sayyid]q无间隔重复,完全拆分地名结构,*终得到地名结构树。并分析符合规则结构的语法。在阿拉伯语地名翻译中,我们将语法规则[19]设置为单一地名名词结构。专名Sayyid音译,模板嵌套组合翻译流程如下图。*终的结果是“Eastern Sayyid can be translate by 多个地名通用名称模板嵌套并与占位符组合([X]或宫殿”。[Y])。这些模板是相互独立的,不是1)Qa爧r[alSharī[Sayyid]]→alSharīqq[Sayyid]宫。2)alSharī[Sayyid]宫→东[Sayyid]q无间隔重复,完全拆分地名结构,*终得到地名结构树。并分析符合规则结构的语法。在阿拉伯语地名翻译中,我们将语法规则[19]设置为单一地名名词结构。专名Sayyid音译,模板嵌套组合翻译流程如下图。*终的结果是“Eastern Sayyid can be translate by 多个地名通用名称模板嵌套并与占位符组合([X]或宫殿”。[Y])。这些模板是相互独立的,不是1)Qa爧r[alSharī[Sayyid]]→alSharīqq[Sayyid]宫。2)alSharī[Sayyid]宫→东[Sayyid]q无间隔重复,完全拆分地名结构,*终得到地名结构树。专名Sayyid音译,模板嵌套组合翻译流程如下图。*终的结果是“Eastern Sayyid can be translate by 多个地名通用名称模板嵌套并与占位符组合([X]或宫殿”。[Y])。这些模板是相互独立的,不是1)Qa爧r[alSharī[Sayyid]]→alSharīqq[Sayyid]宫。2)alSharī[Sayyid]宫→东[Sayyid]q无间隔重复,完全拆分地名结构,*终得到地名结构树。专名Sayyid音译,模板嵌套组合翻译流程如下图。*终的结果是“Eastern Sayyid can be translate by 多个地名通用名称模板嵌套并与占位符组合([X]或宫殿”。[Y])。这些模板是相互独立的,不是1)Qa爧r[alSharī[Sayyid]]→alSharīqq[Sayyid]宫。2)alSharī[Sayyid]宫→东[Sayyid]q无间隔重复,完全拆分地名结构,*终得到地名结构树。

基于模板的统计翻译 测绘科学杂志2020年第08期一种阿拉伯语地名的机器翻译方

具体算法如下: 1) 对得到的地名模板进行预处理,存储在Trie树(前缀树)数据结构中,以提高遍历速度。宫。3)东[赛义德]宫→东赛义德宫。2.3 基于音译规则的正确阿拉伯语地名音译2) 递归匹配每个要翻译的阿拉伯语地名的前缀树模板模板组合方案保证了《翻译指南》的相关规定和外文汉字书写阿拉伯文地名”完全分开基于模板的统计翻译,地名分开。分析阿拉伯语的基本语音特征和音译规则后,计算地名3)的对数频率 根据每个方案中每个模板出现的频率并求和,选择概率*高的方案作为*优解。将专有名词词分为音节,根据阿汉音译对照表中前向*大匹配音节实现音译。音译的技术路线如图4所示。 测绘学160卷451) 遍历整个字母序列,找到元音音素的位置。2) 从每个位置开始向左遍历,定位辅音音素。①辅音数为1时,音节直接组合。②如果辅音数为2,则实现音节分割,将当前左辅音绘制到音译技术路线图的左音节4部分,将右辅音绘制到右音节。Fi4TransliterationTechnoloadmapg.gyRo3)从右向左依次遍历得到所有音节划分结果。2.3.1 音译表预处理在阿汉音译表中,横行表头为辅音,竖行表头为元音和罗马化元音,每行和每列的交叉位置为元音和辅音组合对应的汉字[20]。

2.3.3 前向*大匹配音译前向*大匹配算法的基本思想是从左到右选择要切分的整个文本或子串与词库匹配成为辅音元素。静音时,罗马化音译功能会拆分当前字符串;如果失败,则删除一个字符,继续后只有一个辅音。在音译过程中,将匹配第一行元音,直到剩下*后一个字符。停止匹配。妈妈对应汉字的翻译。使用*大匹配计算对分词音节一一进行预处理的过程如下: 法语音译(图5):1) 一、竖元音横辅音转写表1)从左到右依次选择音节。假设当前音节长度为n,则将元音和辅音组合后的组合一一匹配并输入到excel文件中,然后根据行列对应输入对应的汉字,生成3个表文件。@2)读取电脑中表格的内容,先双遍历元素和辅音文件,结合生成音节,然后读取汉字文件得到对应的汉字,存入对应的map对象中java内存保证一一对应。2.3.2个音节划分阿拉伯字母系统本身 从左到右依次选择音节。假设当前音节长度为n,则将元音和辅音组合后的组合一一匹配并输入到excel文件中,然后根据行列对应输入对应的汉字,生成3个表文件。@2)读取电脑中表格的内容,先双遍历元素和辅音文件,结合生成音节,然后读取汉字文件得到对应的汉字,存入对应的map对象中java内存保证一一对应。2.3.2个音节划分阿拉伯字母系统本身 从左到右依次选择音节。假设当前音节长度为n,则将元音和辅音组合后的组合一一匹配并输入到excel文件中,然后根据行列对应输入对应的汉字,生成3个表文件。@2)读取电脑中表格的内容,先双遍历元素和辅音文件,结合生成音节,然后读取汉字文件得到对应的汉字,存入对应的map对象中java内存保证一一对应。2.3.2个音节划分阿拉伯字母系统本身 然后将组合的元音和辅音组合一一匹配,将母输入到excel文件中,然后根据行列对应关系输入对应的汉字,生成3个表文件。@2)读取电脑中表格的内容,先双遍历元素和辅音文件,结合生成音节,然后读取汉字文件得到对应的汉字,存入对应的map对象中java内存保证一一对应。2.3.2个音节划分阿拉伯字母系统本身 然后将组合的元音和辅音组合一一匹配,将母输入到excel文件中,然后根据行列对应关系输入对应的汉字,生成3个表文件。@2)读取电脑中表格的内容,先双遍历元素和辅音文件,结合生成音节,然后读取汉字文件得到对应的汉字,存入对应的map对象中java内存保证一一对应。2.3.2个音节划分阿拉伯字母系统本身 读取电脑中表格的内容,先双遍历元素和辅音文件,组合生成音节,然后读取汉字文件得到对应的汉字,存入java内存的map对象中,以保证一一对应。2.3.2个音节划分阿拉伯字母系统本身 读取电脑中表格的内容,先双遍历元素和辅音文件,组合生成音节,然后读取汉字文件得到对应的汉字,存入java内存的map对象中,以保证一一对应。2.3.2个音节划分阿拉伯字母系统本身


参考资料

热门标签

更多 >