*本文预计阅读时长:10分钟

作为一个机器翻译工程师,自2022年11月30号起,我的心态的从焦虑到平静再到焦虑,每天的感觉就像做过山车一样,跌宕起伏,只因它——。

为何使我如此焦虑

在语言桥,经常跟译员同事打交道,被经常问到的问题是“你认为机器翻译或者人工智能会取代人工译员么”?

但是如今,的横空出世,让我一度觉得,可能最先被替代的不是人工译员,而是我们这些底层的从事NLP领域研究的工程师。毕竟就算的能力再强,还是会生成错误或者有误导性的内容,最终生成的译文或者内容还是需要人类的校对或者修正。而其对于我们从事NLP某个领域研究的工程师来的影响,说是降维打击也丝毫不为过。

第一次焦虑,在刚刚出来的一个月内,我跟几个同事对其进行深入探讨后,陷入了深思——“下一步我们要做什么?”。当NLP模式发生改变的时候,我们要拿什么去做回应,是不是即将被淘汰,如何抓住这一次变革所带来的机遇,焦虑和兴奋伴随着每一个日夜。于是开始了理论的学习,去了解LaMda、和等相关技术。

并且,对于资金预算有限的我们,根本没有资格去碰T5及之后的模型,那么我们该如何去做这样的工作。

再一次的焦虑,来自于全民的追捧。当身边所有人,无论是AI从业者,还是AI非从业者,都在谈论时;当朋友圈10条有8条都是时;当知乎每日几条热搜时;当老板拉着一起讨论及强调重要性时;我焦虑了。

个人感觉,这种焦虑至少要持续一段时间。但在这期间,并不影响我们的思考,我们要努力去拥抱它. 接下来,我们还需要解决一个问题:如何在资金有限的情况下,做出及时的回应,去抓住这一次变革所带来的机遇?此外,我们也需要随时关注的发展,看看它最终会发展到什么程度,以及它对机器翻译任务产生的影响。

在此期间,我们应该拥抱它,而不是怀疑它,以充分利用它给我们带来的机会。 有哪些令人惊艳的能力

目前为止,已知会做且做得不错的工作:撰写文案、编写脚本、论文写作、小说创作、代码编程、分析报告、排查系统Bug……各类技能点拉满,实打实的“六边形战士”。而这也是其为何能如此惊艳世人的重要原因之一——十项全能型选手。

​譬如,以色列总统艾萨克·赫尔佐格已率先尝试过用来撰写大型会议演讲稿件。

​再譬如,89%的美国学生用写作业,更有学生因写出的论文拿到满分。

​更令人惊喜的是,在对话时输入知乎体——以“你不会真的以为”为开头的小说?在几秒钟内,就反馈出了一篇短篇小说。虽然故事非常狗血老套,但整体结构完整。

​在翻译领域,它更是无所不能。

​你可以让他充当一个译员,并给他提一些要求。

图1 充当译员

可以帮忙润色“机翻味儿”浓厚的机翻译文:

图2 文本润色修改

可以充当质量监督员,帮我们检查译文中的低级错误:

图3 检查数字低错

等等……

​的机翻给你的感觉它不再是一个冰冷的机器,而是一个贴心的助手,它可以生成更符合你要求的译文,甚至可以帮助你做一些检查、释义、润色的工作。

​整体用下来,发现它生成的无论是文本还是译文,“机器”的味道不再那么浓厚。

有时会一本正经地胡说八道

翻译工具使用_翻译功能在什么地方_如何使用chatgpt的翻译功能

图4 它似乎不会否认你,而是强行进行解释

疯狂的人总会慢慢恢复理智,于是进入了平静期。过多测试之后,越发现,生成模型在事实性上依然存在很大的问题,特别是在一本正经的胡说八道时,越发觉得可怕。细思极恐,如果使用者真的不了解,真的照做了怎么办?

​个人做了这么久的NLP,答案的真实及可控性依然困扰着我,虽然的大部分的回复使我感到惊艳,但作为一个NLP算法工程师,不能抱着娱乐至上的想法去看待这个问题。

​在很多真实问答场景中,人们是不能接受犯错的,例如:“双十一优惠政策”,假设生成回复是“满300减300”,商家岂不是亏死;“鸡蛋一般煮多久”,假设生成回复是“5min”,恭喜你吃了个生蛋;假如生成回复中包含了政治内容、事实性错误、偏见问题,该如何解决,这些都是生成模型无法避开的话题。

​就新品Bard来说,仅因发布会回复答案的一个事实性错误,股价直接暴跌6%。而微软在新Bing的发布会上的例子也只是旅游类开放性问答。

​而在ToB的企业场景上,往往是不允许出现事实性错误的。真的可以用在ToB场景吗?针对于无法连接外网的企业来说,如何使用API进行访问?真的有很多企业可以购买设备进行本地部署吗?仅在购买API的情况下,如何将通用接口进行领域数据优化?还是可以不优化,通用即最优?如何保证企业内部数据的保密性,泄露信息怎么办?

​那么,经过真实性验证的内容与生成融合、领域规范化、设备部署会成为我们重点攻克的课题。 对于ToC来说,娱乐至上,一定会有一些不轨之徒,将其用在刀刃上。那么内容检测将来一定会是一个重点,当生成内容泛滥时,我们如何进行检测,判断哪些是真实人写的,哪些是机器生成的。

​虽然目前已经存在一些内容检测工具,例如:自身提供的检测器。但只能说,在检测的路上依然是任重而道远。

的机翻效果与主流商业机翻系统相比如何

​能力这么强,作为一个专注于翻译行业的NLPer,一个自然而然的想法是,做翻译任务的水平怎样?对比传统的商业机器翻译系统(如、DeepL以及我们语言桥自研的LanMT)来说孰优孰劣呢? 首先我们找到了来自腾讯翻译团队的定量测评结果¹,他们使用机器翻译领域常用的测试集,使用BLEU、TER等自动化评测指标对 、DeepL与的翻译结果进行了定量的评测。总体结论是、Deepl等商业机翻系统在各种自动评测指标上还是优于。

​ 与此同时,我们内部也邀请了一些比较有经验的译员,通过体验和对比和我们内部使用的LanMT的机翻效果,也得出了一些主观的结论。中英,对比的机翻 、Deepl和LanMT。从整体人工评测的结果来看:中译英:Deepl>LanMT>合格水平>英译中:LanMT>Deepl>合格水平>

其实仔细思考,这样的评测或许不太公平,由于是一个对话模型,为了保证生成答案的多样性,每次结果是 从模型中“随机采样()”出来的,而商业的机器翻译引擎大多是通过“束搜索(beam )”解码出来的,是模型的最优解。

​更进一步来讲,传统的机翻评测大都是从句子级别来进行评测的,而显然对于文档以及上下文的理解能力应该会更强,如果使用文档级别的翻译任务来进行测评,在上下文一致性以及涉及到依赖上下文信息进行理解的文本上,应该会有更好的效果。

​由于商业系统针对机器翻译这一个任务做了很多特定的优化,搜集构造了更多有监督的数据,而仅仅通过多任务学习,以及有限的翻译任务监督信号达到了这个效果,还是非常惊艳的。

对于译员来说,有哪些机会

​通过上面的讨论和分析的机器翻译效果在准确度、忠实度方面甚至没有达到常用的商用机器翻译系统的水准,并没有对翻译和普通机翻产生更进一步的颠覆,还是需要人来做质量管理,对最终的译文结果进行编辑和校对。

对于译员来说,对于这样一个人工智能的时代,对于机器翻译、这种产品的出现,不应该因为畏惧而排斥使用它们,而是应该拥抱它们,了解它们,使得它们成为提升自己工作效率的有利工具。 举例来说,我们一位资深的译员同事,在尝试了后,就发掘出了一些新的玩法:

图5 询问“拎包入住”的地道表达

通过与AI的互动,以及最后的校对,快速获得了一个常用语的准确英文表达。在此之前,直接通过搜索引擎进行搜索筛选是很难达到这个速度和效率的。

对于NLPer(自然语言处理工程师)来说,有哪些机会

​可能对于很多NLP工程师来说,我觉得最多是工种的改变,以前是用算盘,现在改用计算机了。以前被称为炼丹师的我们,即将成为小药童。无需调整配方,只需拿拿原材料,在炉外扇扇扇子就好了。

很悲观的说法,从前需要魔改网络,2018年只需对Bert进行,2023年只需要In- 了吧,只能拿着别人大模型的API找找了。但是,毕竟不是所有企业,会支持外网、购买设备等。

既然Bert横行的时代,都还存在。为什么大模型的时代,容不下我们呢?我们应该做的是,适应技术的变化,改变思路,摒弃原来的针对某些特定任务提出一个具体的模型进行有针对性的数据标注,然后再制作模型的思路。

同时作为工业界的落地场景,则可以从以下一些思路入手:

· 瞄准的缺陷,如部署成本高等,偶尔会产生错误信息等,提出相应的解决方案。 · 私域模型:自身或者客户的业务对数据安全性有极高的需求,应用领域具有极高的专业性的场景,有私有化部署以及针对领域数据进行优化的需求。 · 数据为王:数据的重要性可以说十分重要,但凡制作大模型,都需要依赖海量的数据,如果能够掌握数据入口,掌握内容和流量,依然是个非常稳固的靠岸基地。 · 工程:充分利用大的预训练模型来实现功能,需要有优质的来进行引导。(这个工作确实重要,但它很难成为NLP工程师和从业人员们的一个从业门槛。)

展望

的出现,颠覆了人们以往对人工智能的刻板印象,也彻底让那些曾经调侃其为“人工智障”、“有多少人工,就有多少智能”的人闭上了嘴。也让我们对人工智能发展的前景更加乐观。我相信这不是终点,而是一个新的起点

后面的趋势会类似搜索一样。从通用搜索到个性化搜索推荐,智能对话系统也会从通用的对话助手往私人定制化的智能助手方向演化,和手机高度整合。相当于每人带一个私人秘书,这又必将引发一场更大的技术革命。

我们作为技术人员,一定要紧跟技术发展趋势,不断学习,用最新的人工智能技术为公司,为产业赋能。而语言桥作为翻译与翻译质量管理服务的提供者,也一定要紧跟时代和技术发展,在提升自身效率的同时更加注重质量管理,为客户提供更加优质,更加值得信赖的服务。