请选择 进入手机版 | 继续访问电脑版

雨林木风

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 4|回复: 0

火山翻译年度盘点:年底每天“干活”138亿次

[复制链接]

1万

主题

1万

帖子

3万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
32519
发表于 2021-2-18 10:33:40 | 显示全部楼层 |阅读模式
  日前火山翻译团队公布《请翻译2020》年度盘货,详解过去一年上线的火山翻译Studio、火山同传等新品,以及正在操练呆板翻译模子流程中际遇的技能难点和办理计划。2020年结尾三天,火山翻译的移用量达日均。倘若把火山翻译每天翻译的字符打印正在A4纸上,堆起来的纸张相当于1.3个东方明珠的高度。
  正在2020年邦际呆板翻译大赛(WMT20)上斩获冠军后,火山翻译团队正参加正在mRASP 、LightSeq和MGNMT等革新技能上。新技能的实习将创作更兴奋人心的体验,也许正在2021年,火山翻译会带来更众惊喜。
  正在火山翻译团队众年的技能积聚、产物策画和计划援救下,火山翻译供给了火山同传、火山翻译API、火山翻译Studio、浏览器翻译插件等一系列矩阵产物。
  2020年3月,火山翻译团队开辟的新型AI视频翻译器械——火山翻译Studio V0.1版本上线,并面向用户进入内测阶段。
  借助前辈的自愿语音识别和神经呆板翻译技能,火山翻译Studio为视频创作家们供给专业高效的视频「转写-打轴-翻译」全流程供职,将视频译制流程中,三件庞杂的作事「一站式」竣工。产物援救交互式翻译和术语干与等众种辅助翻译效用,正在进步翻译恶果的同时,让字幕翻译愈加性情化。这款器械营制了更优秀的双语字幕修制境况,大大消浸了双语字幕的修制本钱,助助用户轻松办理视频实质的跨说话传扬题目。

  火山翻译Studio,自愿天生双语字幕,援救交互式翻译和术语干与等众种效用
  2020年10月,火山翻译团队公布了智能同传产物——火山同传,戮力于为线下集会、线上直播供给及时呆板同传供职。一年来,火山同传先后供职和介入了飞书来日无穷大会、著名艺术家村上隆首场中邦直播、第四届CTDC首席技能官首级峰会等众场直播与大会。
  为确保及时翻译的凿凿性和及时字幕的最佳揭示成果,火山同传供给「全屏逐字式字幕显示计划」和「影院级字幕重保计划」,餍足区别场景的需求。产物包蕴55种说话翻译及中英日三语听写识别等高职能供职本事,借助人工保险计划,及时校准,担保字幕精准性和畅达性。独家供给的「VFT规模自适宜供职」,让翻译算法的翻译风致愈加贴合集会正在语体等方面的需求,为直播字幕揭示成果供给了更优道途。

  11月,火山翻译网页版正式上线,并公布了中英双语版本,集成了PC端和WAP端的正在线翻译器械与其他联系产物的先容页面。
  火山翻译正在线个语种全语向互译,单次可翻译高达2000字符。网页供给「语种全自愿检测」、「译文一键复制」、「双语对比查看」等效用,用户可能高效获取跨说话翻译供职。
  产物先容页则体例揭示了「呆板翻译API」、「视频字幕翻译」、「智能同传」等火山翻译旗下的优质产物,另外还供给了「网页翻译-浏览器插件」等利用的体验入口。火山翻译面向B端客户的联系供职本事也已集成正在火山引擎智能利用板块当中,为更众客户供给企业级的技能产物与办理计划。

  重大的翻译利用背后离不开仗山翻译团队的算法科学家、工程师团队历时数年的发奋。正在无缺供职日均过亿次移用的底子上,团队谋求援救更众语向、供给更好的翻译供职。
  这一年,火山翻译正在翻译语种扩展上继续发力,从最初的几门说话,到现今援救55个语种、2970个语向之间的互译。此中蕴涵马其顿语、斯洛文尼亚语、乌尔都语、旁遮普语等小语种。

  某些翻译规模的鲜睹性加剧了模子操练的难度,特别是「泛文娱场景」如许具有高度不典型性和文娱性的翻译规模。对此,火山翻译归纳操纵「NMT规模适宜、规模数据巩固、大模子进修、众规模模子」等更众规模的设施,团结各规模的特色举行优化,霸占了规模冷门题目带来的算法优化窒息。
  「语种数目众、小语种的平行语料匮乏」从来是操练呆板翻译模子作事中的痛点。正在平行数据稀缺的情况下,火山翻译的工程师们行使基于「自研Fluid平台」的半监视操练体例,展开众说话的预操练作事,胜利构修出了「众说话」翻译模子,霸占了平行数据缺乏而形成的模子成果不佳、翻译职能不达标等技能困难。


  “营业的奔驰中资源万世是不敷的”。正在算法的操练和优化过程中,因为GPU资源的紧缺,待操练的语种数目却很宏大,火山翻译团队亟待晋升GPU的使用率来应对棘手的寻事。对此,团队行使了「众说话翻译模子」来整合伙源,同时举行众个长尾语种的操练,将资源使用率大大晋升,胜利餍足大方级供职的需求。
  不竭粉碎语种展现的天花板,继续迭代晋升各语向翻译质料,火山翻译正在邦际舞台上展现出不俗的角逐力。
  正在2020年邦际呆板翻译大赛(WMT20)上,火山翻译团队正在39支参赛步队中杀出重围,以明显上风正在「中文-英语」的闭节语向翻译项目竞赛上拿下了全邦冠军。另外,火山翻译还拿下了「德语-英语」、「德语-法语」、「英语-高棉语」和「英语-普什图语」语向呆板翻译项目标冠军,更斩获了平行语料过滤对齐项目普什图语和高棉语的两项第一。
  积年角逐中,「中文-英语」语向的翻译职业都是参赛步队最众、角逐最为激烈的呆板翻译职业之一。火山翻译行动一只年青的团队,列入了「非受限场景」的角逐——即正在给定测试集的状况下,准许行使任何数据和设施寻求翻译成果极限的角逐形式。同时,机闭方也引入了四个威望的正在线呆板翻译贸易体例(Online-A、G、Z、B)行动比拟。这种角逐形式被以为是“最能再现翻译团队数据和算法归纳本事”的场景。颠末角逐组委会邀请的说话专家的体例评估,火山翻译以显著的上风夺得了该项冠军。

  WMT20 中英翻译前几名体例得分,火山翻译排名第一。Ave.z代外人工评估法式化分数,也是目前呆板翻译最受认同的目标。
  比拟「中文-英语」语向,「德语-英语」语向则是WMT角逐上的古板项目之一,也是最受欧洲邦度的代外队们闭切的竞赛语向。正在「德语-英语」角逐结尾的人工评判闭节中,火山翻译还是展现出突出的技能水准,拿下第一名的成果。最终,邦际呆板翻译大赛的组委会关于团队给出了很高的评判,“行动新的介入者,火山翻译展现尤为精采(particularly well),超越了良众古板步队”。
  下图为火山翻译和谷歌翻译正在各语向测试集上的展现比拟新闻,横轴为语向新闻,纵轴揭示了BLEU值的差值。从图中的数据可睹,正在左侧棕色区域透露的无数语向上,火山翻译模子的自愿评估结果均高于谷歌。此中「日语-中文」、「印尼语-英语」、「中文-日语」三个语向更是比谷歌翻译逾越了10个BLEU值以上。(注:BLEU全称Bilingual Evaluation Understudy,是最渊博行使的呆板翻译自愿评判目标)

  正在和英语举行互译的语向中,火山翻译有72%的呆板自愿评判结果优于谷歌翻译。火山翻译也正继续谋求正在更众语向上取得优质展现,争取为环球更渊博的用户群体供给令人写意的翻译供职。
  正在2020年结尾三天,火山翻译日均翻译的字符数抵达百亿范畴,翻译移用量达日均1.38亿次,不变供职蕴涵飞书、今日头条正在内的数十个营业。火山翻译可通过公有云、私有化安放等众种花式接入,援救笔直行业模子疾捷定制和安放,餍足各笔直行业的性情化翻译需求。
  对翻译产物和供职来说,无论是模子仍旧推理本事,都需求继续的革新和参加。正在2020年度盘货中,火山翻译团队披露了正正在继续寻求和实习的翻译技能:
  众说话翻译新范式mRASP(multilingual Random Aligned Substitution Pre-training)修设的中枢情思是打制「呆板翻译界的BERT模子」,即通过预操练技能举行范畴化操练,再正在完全语种前进行精轻微调,即可抵达领先的翻译成果。其正在32个语对上预操练出的联合模子,正在起码47个翻译测试集上均得到了一切的明显晋升。正在火山翻译中,该技能已被渊博行使,获得了营业上的实习考验。
  以BERT为代外的预操练范式险些横扫了全面的文本理会职业,成为种种NLP职业的基石。mRASP区别于以往的呆板翻译范式,创立了呆板翻译的预操练和微调的胜利道途。
  岂论平行双语资源坎坷,均能有晋升。关于资源厚实的说话,譬喻法式英法翻译职业,正在仍旧有4000万平行语句操练状况下,行使mRASP还是能明显晋升,抵达了44.3的BLEU值。正在低资源说话上,mRASP的展现令人惊喜,至极状况下,只需求一万句操练数据,通过10分钟微调操练,就能获得一个还不错的翻译体例。
  任何说话的翻译,无论是孟加拉语到古吉拉特语,仍旧印地语到菲利宾语,只须是地球上的说话,都可能用mRASP直接举行微调,而且成果可期。
  比拟于其它上百张卡的「军备竞赛」预操练玩法,mRASP更子民,仅需求8张卡操练一周就可能竣工。粗略来说,mRASP可能理会为呆板翻译规模的轻量级BERT,只须是呆板翻译职业,关于任何场景或者说话,行使mRASP都或者会用意思不到的成效。

  mRASP基于Transformer框架,使用众个语对的平行语料修设预操练模子
  LightSeq是一款极速且同时援救众特质的高职能序列推理引擎,它对以Transformer为底子的序列特性提取器(Encoder)和自回归的序列解码器(Decoder)做了深度优化,早正在2019年12月就仍旧开源,利用正在了蕴涵火山翻译正在内的浩繁营业和场景。据明白,这该当是业界第一款无缺援救Transformer、GPT等众种模子高速推理的开源引擎。
  LightSeq可能利用于呆板翻译、自愿问答、智能写作、对话恢复天生等浩繁文本天生场景,大大进步线上模子推理速率,改正用户的行使体验,消浸企业的运营供职本钱。
  LightSeq推理速率特别疾。以翻译职业为例,LightSeq比拟于TensorFlow完毕最众可能抵达14倍加快。同时领先目前其他开源序列推理引擎,比如最众可比Faster Transformer疾1.4倍。
  LightSeq通过界说模子订交,援救机动导入种种深度进修框架操练完的模子。同时包蕴了开箱即用的端到端模子供职,即正在不需求写一行代码的状况下安放高速模子推理,并机动援救众方针复用。

  镜像翻译天生模子MGNMT(Mirror-Generative Neural Machine Translation)旨正在办理呆板翻译正在双语平行数据缺乏场景中的利用题目,目前已利用到火山翻译众个语向的翻译模子中。通过镜像天生形式,MGNMT使用互为镜像翻译偏向的联系性,同时将翻译模子和说话模子团结,让模子间彼此鼓吹,从而明显晋升翻译质料。
  目前呆板翻译模子需求正在大方的双语平行数据上操练,从而获得不错的职能。然而,正在良众低资源的语向或规模场景中,双语平行数据优劣常稀缺的。这种状况下,双语平行数据特别珍爱,需求更高效地使用;而且因为双语数据稀缺,充裕使用大范畴非平行单语数据也异常要紧。
  为了最大化对双语数据和单语数据的有用使用,MGNMT采用了以下几种闭节技能:
  1. 通过一个共享的隐变量,将两个翻译偏向的翻译模子和两个说话的说话模子团结正在统一个概率模子中。
  2. 操练时,两个翻译偏向互相鼓吹。通过隐变量修模了互为译文的双语数据的语义等价性,让两个翻译偏向的模子可能更好地使用双语平行数据;同时,通过隐变量行动中央桥梁,放肆一方的单语数据都可能同时助助到两个翻译偏向的模子,从而也更好地使用了单语数据。
  3. 解码时,说话模子和翻译模子互相互助。正向翻译模子和目的说话模子起初用beam search举行协同解码,获得众个候选译文;随后反向翻译模子和源说话说话模子对候选译文举行排序,选取出最憨厚于原文语义的最佳译文。
  正在低资源的状况下,MGNMT正在众个数据上都获得了最好的翻译结果。相较于古板的Transformer模子,以及Transformer团结回翻译(Back-Translation)举行数据巩固以使用单语数据的形式,其结果都显示了比拟一律的、明显的晋升。

  MGNMT模子示妄图。MGNMT同时修模了两个翻译偏向的翻译模子和两个说话模子。
  “咱们和你相通,一步一踉跄,却坚韧不拔。咱们和你相通,阅历打击,却满怀生机”。正在《请翻译2020》年度盘货中,火山翻译团队透露,为了大白更佳的翻译成果,创作更好的跨说话体验,火山翻译废寝忘食地为区别的说话供给最优解法,为了“让全邦更小,让区别的文明更近”。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

|appname
快速回复 返回顶部 返回列表