媒體聚焦 來(lái)源:中譯語(yǔ)通日期:2018-09-03瀏覽次數(shù):619
“這是全宇宙最奇特的生物?!?/p>
40年前,英國(guó)科幻作家Douglas Adams在他的《銀河系漫游指南》中這樣描述巴別魚(bable fish):迷你黃色生物,水蛭狀,以聲音中的語(yǔ)言概念為食,消化后排出跟寄主同頻的腦波。只要塞到耳朵里去,就可以聽懂各種語(yǔ)言。
而在這個(gè)充滿嬉皮風(fēng)格的科幻作品中,來(lái)自地球的Arthur Dent也因?yàn)檫@條丑陋的魚,能夠完美地理解并與他遇到的各種外星種族交流。
自小說(shuō)誕生,巴別魚便成為了即時(shí)語(yǔ)音翻譯的代名詞。但在當(dāng)時(shí),人類的翻譯技術(shù)距離這一目標(biāo)仍遙不可及。
直到2014年,加拿大蒙特利爾大學(xué)的Kyunghyun Cho、Yoshua Bengio等人發(fā)布了一篇在機(jī)器翻譯領(lǐng)域應(yīng)用神經(jīng)網(wǎng)絡(luò)的論文——Neural Machine Translation by Jointly Learning to Align and Translate。
神經(jīng)網(wǎng)絡(luò)的出現(xiàn),讓優(yōu)質(zhì)高效的機(jī)器翻譯不再遙遙無(wú)期。
機(jī)器翻譯能力是如何趕超人類的?
神經(jīng)網(wǎng)絡(luò)迅速成為了近代機(jī)器翻譯領(lǐng)域最有活力的“鯰魚”。
短短兩年,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯便已取代統(tǒng)計(jì)學(xué)派成為翻譯領(lǐng)域的主流研究方法。谷歌、微軟等公司也紛紛宣布將這個(gè)新的技術(shù)應(yīng)用到其翻譯等產(chǎn)品之中。兩年來(lái),神經(jīng)網(wǎng)絡(luò)翻譯能力超過了翻譯界過去幾十年的成績(jī)。神經(jīng)網(wǎng)絡(luò)翻譯出現(xiàn)后,機(jī)器翻譯的單詞錯(cuò)誤率降低了50%,詞匯錯(cuò)誤和語(yǔ)法錯(cuò)誤率也都分別降低了15%以上。
而除神經(jīng)網(wǎng)絡(luò)的應(yīng)用之外,機(jī)器翻譯錯(cuò)誤率的大幅度降低,還基于另一個(gè)條件——大規(guī)模精準(zhǔn)平行語(yǔ)料數(shù)據(jù)集的積累。
決定機(jī)器翻譯質(zhì)量的因素中數(shù)據(jù)占據(jù)絕對(duì)的主導(dǎo)地位。數(shù)據(jù)量的大小和精準(zhǔn)程度決定了機(jī)器翻譯引擎的效果。
十年前,谷歌在機(jī)器翻譯領(lǐng)域下過一個(gè)論斷:數(shù)據(jù)集規(guī)模每翻一倍,它自動(dòng)評(píng)價(jià)的指標(biāo)就能夠提升0.5個(gè)百分點(diǎn)。這一說(shuō)法讓有大規(guī)模、準(zhǔn)確數(shù)據(jù)積累的組織、企業(yè)有了搶占機(jī)器翻譯市場(chǎng)制高點(diǎn)的機(jī)會(huì)。
但是,垂直級(jí)的機(jī)器翻譯并非一蹴而就,哪怕是互聯(lián)網(wǎng)巨頭們,也未輕易地將觸手伸入垂直級(jí)的機(jī)器翻譯領(lǐng)域。
為了填補(bǔ)了這一領(lǐng)域的空白,中譯語(yǔ)通率先推出MerCube,是全球第一個(gè)企業(yè)級(jí)機(jī)器翻譯硬件。
在具體場(chǎng)景下,想要實(shí)現(xiàn)產(chǎn)品級(jí)應(yīng)用的機(jī)器翻譯系統(tǒng),需要上千萬(wàn)級(jí)別的句對(duì)。另一個(gè)方面是目前數(shù)據(jù)集的不均衡問題。在語(yǔ)種上,英文為主導(dǎo)的數(shù)據(jù)集占比較多,而偏小語(yǔ)種的比如波斯語(yǔ)、土耳其語(yǔ)等數(shù)據(jù)集就很難找到。除了語(yǔ)言不均衡,數(shù)據(jù)集領(lǐng)域不均衡的問題也很嚴(yán)重。
機(jī)器翻譯技術(shù)對(duì)大量數(shù)據(jù)的需求和實(shí)際市場(chǎng)上流通的存量數(shù)據(jù)的差距很大,這就給了在翻譯界有深厚歷史積累的公司發(fā)力的機(jī)會(huì)。
互聯(lián)網(wǎng)公司的數(shù)據(jù)積累多來(lái)自C端用戶,因此數(shù)據(jù)集不均衡、數(shù)據(jù)質(zhì)量差的問題突出。而脫身傳統(tǒng)行業(yè)的翻譯公司,在翻譯數(shù)據(jù)集的把握上有自己的優(yōu)勢(shì)——更精準(zhǔn)、更多樣的數(shù)據(jù)集。例如,中國(guó)翻譯領(lǐng)域最大的語(yǔ)料數(shù)據(jù)庫(kù)所有者——中譯語(yǔ)通。據(jù)了解,這家脫胎于中國(guó)對(duì)外翻譯有限公司的團(tuán)隊(duì)了擁有37個(gè)語(yǔ)種的翻譯語(yǔ)料庫(kù),掌握超過五十億句對(duì)平行語(yǔ)料,上百億句單語(yǔ)語(yǔ)料??恐诜g領(lǐng)域的這一優(yōu)勢(shì),中譯語(yǔ)通這一以語(yǔ)言服務(wù)起家,迅速轉(zhuǎn)型為人工智能和大數(shù)據(jù)的技術(shù)公司,有望與谷歌、微軟等互聯(lián)網(wǎng)巨頭,在機(jī)器翻譯服務(wù)領(lǐng)域分一杯羹。
機(jī)器翻譯服務(wù)之痛
機(jī)器翻譯由于技術(shù)的進(jìn)步在處理能力上正迅速趕超人類,企業(yè)用戶對(duì)機(jī)器翻譯的認(rèn)可度越來(lái)越高,但在服務(wù)形式上多年來(lái)卻幾乎一成不變。目前,to b端的翻譯服務(wù)主要面臨兩個(gè)痛點(diǎn):
首先在翻譯形式上,以文本翻譯為例,基于c端服務(wù)的延續(xù)性,多數(shù)文本翻譯模式依然是10年前的對(duì)話框字句粘貼式翻譯,根本無(wú)法滿足大規(guī)模、短時(shí)間翻譯的需求。
除此之外,多數(shù)企業(yè)和個(gè)人對(duì)數(shù)據(jù)安全意識(shí)的提高,也讓他們對(duì)本地化翻譯有了更高要求。
目前,主要to b端的翻譯服務(wù)都需要被翻譯內(nèi)容上云,在Facebook數(shù)據(jù)泄漏丑聞及歐盟數(shù)據(jù)安全法生效的背景下,不少企業(yè)期待更本地化、安全的翻譯服務(wù)。據(jù)中譯語(yǔ)通相關(guān)研究報(bào)告顯示,僅在中國(guó),對(duì)大規(guī)模、本地化翻譯服務(wù)的需求市場(chǎng)高達(dá)百億級(jí)。而“國(guó)際市場(chǎng)應(yīng)該會(huì)更大。比如說(shuō)一帶一路沿線國(guó)家,整個(gè)拓展出來(lái)應(yīng)該是一個(gè)巨大的市場(chǎng)?!敝凶g語(yǔ)通稱。
從硬件入手,垂直領(lǐng)域的翻譯服務(wù)升級(jí)
這樣的調(diào)研結(jié)果讓中譯語(yǔ)通看到了to b端翻譯市場(chǎng)服務(wù)升級(jí)的巨大潛力。今年五月份,中譯語(yǔ)通開始嘗試機(jī)器翻譯上to b端新的服務(wù)方式,但這不是一件容易的事情。
圖:7月份的品牌戰(zhàn)略發(fā)布會(huì)上,中譯語(yǔ)通發(fā)布了MerCube企業(yè)級(jí)機(jī)器翻譯服務(wù)器。MerCube產(chǎn)品性能表顯示,MT G8單臺(tái)處理能力可達(dá)到16000字/秒,MerCube ASR可實(shí)現(xiàn)將1小時(shí)的音視頻在1分鐘內(nèi)識(shí)別、解析完成并導(dǎo)出文件。
“(開發(fā)這款產(chǎn)品的)契機(jī)更多還是市場(chǎng)的驅(qū)動(dòng),很多客戶其實(shí)是主動(dòng)來(lái)找我們,覺得這個(gè)機(jī)器翻譯不錯(cuò),想買這個(gè)(產(chǎn)品),想本地化部署?!?/p>
為了滿足客戶對(duì)安全性的要求,中譯語(yǔ)通希望推出一款可以提供專屬的私有化部署方式的產(chǎn)品,讓信息在受控環(huán)境下運(yùn)轉(zhuǎn),原文/譯文本地化存儲(chǔ),解決用戶的數(shù)據(jù)安全問題。
要本地化部屬,首先對(duì)產(chǎn)品的硬件能力是一個(gè)巨大的考驗(yàn)。
“最開始,我們也想過讓用戶自己配備硬件的方式。可是在服務(wù)的過程當(dāng)中,你會(huì)發(fā)現(xiàn)用戶買的硬件是五花八門的。即使我們做好了配置,實(shí)施過程也比較曲折?!敝凶g語(yǔ)通稱。
此次發(fā)布的MerCube也因此直接配置了硬件能力——搭載了NVIDIA有史以來(lái)極其先進(jìn)的數(shù)據(jù)中心級(jí)GPU Tesla V100,通過這種方式,一次性解決了用戶的軟件和硬件需求。區(qū)別于原來(lái)在標(biāo)準(zhǔn)的服務(wù)器上安裝軟件的方式,中譯語(yǔ)通提供一體機(jī)的解決方案,將機(jī)器翻譯引擎與硬件完美融合,從底層技術(shù)上做了改進(jìn),同等配置條件下可以大大提升處理效率。
圖:MerCube采用了NVIDIA?NVLink?技術(shù),提供更高帶寬與更多鏈路,可提升多 GPU 和多 GPU/CPU 系統(tǒng)配置的可擴(kuò)展性。
垂直領(lǐng)域的翻譯服務(wù)依賴領(lǐng)域內(nèi)的長(zhǎng)期積累。
以中譯語(yǔ)通為例,2014年其開始自主研發(fā)機(jī)器翻譯引擎,同年6月發(fā)布中英統(tǒng)計(jì)機(jī)器翻譯引擎,是繼谷歌、微軟、百度之后,國(guó)內(nèi)最早進(jìn)行機(jī)器翻譯引擎研發(fā)的企業(yè)。這樣的早期布局為中譯語(yǔ)通占據(jù)了先發(fā)優(yōu)勢(shì),中譯語(yǔ)通稱,目前每年的數(shù)據(jù)增長(zhǎng)達(dá)到了平行語(yǔ)料兩億句對(duì)、單語(yǔ)語(yǔ)料五億句對(duì)的速度。在2015年12月,中譯語(yǔ)通發(fā)布了包含37個(gè)語(yǔ)種的機(jī)器翻譯引擎,成為國(guó)內(nèi)翻譯領(lǐng)域支持語(yǔ)種數(shù)量最多的企業(yè)。
在機(jī)器翻譯領(lǐng)域,每種新的語(yǔ)種擴(kuò)展都需要千萬(wàn)句對(duì),要達(dá)到工業(yè)級(jí)的應(yīng)用,在數(shù)據(jù)集數(shù)量上要求更高。這也是目前很多企業(yè)放棄了這個(gè)方向的原因。
目前,中譯語(yǔ)通的37個(gè)語(yǔ)種包含了“一帶一路”沿線18個(gè)官方語(yǔ)言中的14個(gè),并且語(yǔ)種范圍還在持續(xù)擴(kuò)大。而在這一大背景下,配合硬件產(chǎn)品,打通了軟件和數(shù)據(jù)的垂直服務(wù)者在機(jī)器翻譯領(lǐng)域大有可為。
(內(nèi)容來(lái)源:虎嗅網(wǎng))
(商業(yè)合作:business@gtcom.com.cn)
您同意我們收集您提交的上述姓名、單位名稱、電話號(hào)碼、QQ、微信、電子郵箱、需求等信息,以便我們及時(shí)處理、解決問題或向您反饋結(jié)果。