在機(jī)器替代人類勞動力的征途里,翻譯是最先感受到?jīng)_擊的前哨陣地。 因為在既有的AI技術(shù)中,機(jī)器翻譯是成熟度相對高的領(lǐng)域。即便出于炫技,翻譯也是必爭之地。
文 | 孫然
10年前,網(wǎng)易有道翻譯產(chǎn)品上線,接替了傳統(tǒng)電子翻譯機(jī)“文曲星”的班,是國內(nèi)最早涉足翻譯領(lǐng)域的互聯(lián)網(wǎng)公司。此后數(shù)年間,類似的翻譯產(chǎn)品貫 穿了很多中國人學(xué)英語的記憶。
但由于時常出現(xiàn)形態(tài)尷尬的整句翻譯,沒人指望機(jī)器翻譯能大規(guī)模替代嚴(yán)謹(jǐn)?shù)娜斯ぷg員。每逢正式的用途,人們?nèi)栽敢獬龈邇r雇個英語專八的學(xué)生,甚至專業(yè)同傳來確保準(zhǔn)確度。
一直以來,翻譯是很多外文系學(xué)生賺外快甚至謀生的渠道。這門生意 規(guī)模不大,但需求穩(wěn)定。網(wǎng)易有道CEO周楓估算過人工翻 譯市場的盤子,400億元左右。目前有道的純?nèi)斯しg業(yè)務(wù),一年的營收規(guī)模數(shù)千萬元。2011年上線五年的訂單總量在一百萬單以上。
不過去年事情有了變化。原因是谷歌在2016年9月27日宣布推出谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng),《麻省理工學(xué)院技術(shù)評論》雜志評價,采用神經(jīng)網(wǎng)絡(luò)技術(shù)的Google翻譯準(zhǔn)確率幾乎與人類無異。
神經(jīng)網(wǎng)絡(luò)翻譯之所以準(zhǔn)確性高,是因為“說人話”。它在翻譯邏輯模 仿了人腦的表達(dá)模式,通俗地講,能把一句話中所有詞匯的語意融合在一起分析理解。而統(tǒng)計翻譯是挨個識別和理解詞匯,卻難 以理解不同詞匯融合后產(chǎn)生的含義。經(jīng)常生硬地蹦關(guān)鍵詞,串起來就不知所云。
這項技術(shù)變革對于翻譯行業(yè)有多大意義?周楓的評價是,從傳統(tǒng)機(jī)器翻譯到神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的變革,可以比喻成從“手工針線活兒”到“縫紉機(jī)”的變革,神經(jīng)網(wǎng)絡(luò)翻譯帶來的翻譯質(zhì)量的提升, 是過去十年的總和。
網(wǎng)易有道開始關(guān)注神經(jīng)網(wǎng)絡(luò)翻譯技術(shù),是2014年。這個舉動源自行業(yè)中一項節(jié)點性事件——在國際賽事ACL WMT 2014中,神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)的準(zhǔn)確率首次超過傳統(tǒng)的統(tǒng)計機(jī)器翻譯技術(shù),這意味著神經(jīng)網(wǎng)絡(luò)翻譯初步具備了商業(yè)化的可能性。
這個突破對于做翻譯產(chǎn)品的公司而言,出現(xiàn)得恰逢其時。“2014年,統(tǒng)計機(jī)器翻譯技術(shù)的商業(yè)化已經(jīng)發(fā)展了近十年,我們發(fā)現(xiàn)再投入人力資金去尋求技術(shù)提升,回報率很低。而NMT這種基于深度學(xué)習(xí) 的技術(shù),每個月翻譯質(zhì)量的進(jìn)步都是驚人的。”周楓說。
在那之后的兩年間,關(guān)于神經(jīng)網(wǎng)絡(luò)翻譯的研發(fā)戰(zhàn)爭就開始了。根據(jù)新智元統(tǒng)計,在arXiv.org 存儲庫中,涉及NMT (神經(jīng)網(wǎng)絡(luò)翻譯) 的論文從2014年的7篇,2015年的11篇,上漲2016年的67篇。
而大規(guī)模的產(chǎn)品化,發(fā)生在谷歌發(fā)布翻譯產(chǎn)品之后的半年中,谷歌、百度、科大訊飛、搜狗、微軟、有道,均上線或更新了翻譯產(chǎn)品。
你可能會奇怪,為什么大型技術(shù)公司都扎堆做翻譯?事實上,無論對于上述哪家公司,翻譯都不是塊有極大商業(yè)空間的業(yè)務(wù)。但在機(jī)器替代人類勞動力的征途里,這是最先感受到?jīng)_擊的前哨陣地。 因為在既有的AI技術(shù)中,機(jī)器翻譯是成熟度相對高的領(lǐng)域。即便出于炫技,翻譯也是必爭之地。
當(dāng)然,對公司而言,能轉(zhuǎn)化成錢、衍生出商業(yè)模式的技術(shù)才有價值。
有道翻譯有一支3000人規(guī)模的眾包譯員 團(tuán)隊,此前分為人工翻譯和機(jī)器翻譯兩種類別,前者150-300元/千字,后者免費(fèi)。 神經(jīng)網(wǎng)絡(luò)翻譯將機(jī)器翻譯的準(zhǔn)確度提升后,人機(jī)結(jié)合的商業(yè)模式具備了可行性。即由機(jī)器先做翻譯,人工翻譯員做后續(xù)的審核和 潤色。人工需要付出的時間和精力由此縮減了50%,相應(yīng)的,人機(jī)翻譯的價格,設(shè)定在70-150元/千字檔位。對企業(yè)級客戶,有道也推出了有道智云,通過提供API接口和嵌入SDK的模式銷售。
技術(shù)提升引發(fā)的成本下降,往往是撕開商業(yè)化缺口的契機(jī)。周楓覺得 人機(jī)結(jié)合的方式,降低了用戶的使用成本,會激發(fā)出一部分此前被壓抑的翻譯需求。“原來人工翻譯篇一萬字的文章大概需要兩 千元左右,很多人覺得貴,翻譯需求就會被壓抑掉。現(xiàn)在用人機(jī)結(jié)合翻譯能降低一半的成本,被壓抑的需求會釋放出來,翻譯的 市場容量也許會因為技術(shù)革新而變得更大。”
另一方面,由于精準(zhǔn)度提升和移動端翻譯的用戶習(xí)慣的拓展,翻譯的 需求量也在釋放。網(wǎng)易有道官方提供的數(shù)據(jù)顯示,有道翻譯官在去年一年的使用量呈現(xiàn)出三倍的提升。目前神經(jīng)網(wǎng)絡(luò)翻譯技術(shù),被用于有道詞典、有道翻譯官、有道智云、WEB端的有道翻譯以及有道人機(jī)翻譯產(chǎn)品。
根據(jù)周楓的估算, 除卻藝術(shù)屬性的文學(xué)領(lǐng)域和對準(zhǔn)確性要求非常高的商業(yè)合同等領(lǐng)域,三年左右時間,機(jī)器翻譯會替代包括日常通信、新聞、技術(shù)文檔、學(xué)術(shù)文獻(xiàn)等90%的人工翻譯場景。
不過機(jī)器翻譯依然是個贏者通吃的小市場。過去兩年,做語音技術(shù)起 家的科大訊飛,也開辟了翻譯業(yè)務(wù)。集中產(chǎn)品化不到一年,已然是一片紅海態(tài)勢。同傳之后,下一個被占領(lǐng)的人類高地,又會是哪塊呢?