2018年12月16日 星期日

德國初創公司DeepL的翻譯軟件有絕招




秒勝谷歌翻譯德國初創公司有絕招

一家德國初創企業推出的翻譯軟件DeepL在翻譯水平上讓不少用戶驚艷。與之相比,市場上其它通用翻譯軟件相形見絀。德國人做了什麼與眾不同的事?
    
Langenscheidt Wörterbücher | Spanisch (Imago/J. Huebner)
權威的德國朗氏字典已經成為“老黃曆”?
(德國之聲中文網)涉足翻譯軟件的IT巨頭如穀歌和微軟面對的這個競爭對手雖小,但實力不輸。與穀歌翻譯等相比,來自德國科隆的初創企業DeepL的軟件翻出的文字語句流暢自然得多。這家由一名前谷歌員工創建的公司與其它競爭對手比起來,有一個明顯的優勢。
這一產品運用了以人工神經網絡為基礎的所謂深度學習(Deep Learning)技術。為此,DeepL的研發者利用了一個現有的在線服務數據庫。
從字典到翻譯器
2009年,這家公司的在線雙語詞典Linguee.com上線。它的不同之處在於,除了列出詞彙的各種翻譯選項,還給用戶提供大量來自現有原文的雙語對照例句。
這些例句是由一種叫網絡爬蟲(Web-Crawler)的特殊網絡機器人從互聯網上蒐集來的。許多例句來自歐盟等多邊國際機構的官方文件。
一種經人工訓練的學習算法對蒐集來的文句的結構和含義進行分析計算,以期掌握特定的概念在外語中如何表達。此外用戶還可以在Linguee字典應用中留下自己的反饋,並對翻譯結果作評估。過去9年中,通過數量不斷增加的高質量翻譯文庫,Linguee應用一直在得到完善。這也逐漸成為新的翻譯工具DeepL的基礎。
DeepL --深度學習
DeepL是deep learning的縮寫,意思是深度學習。這是人工智能的一個方面,即模仿人類學習的方式。從前,編程員給每項任務編寫單獨的指令,由計算機去完成。現在,人們則打造一個人工神經網絡,通過輸入現有的範例可以對它進行訓練。範例越多,電腦就能學得越好。對大量數據進行處理的技術可能,讓這一機器學習的潛力得到進一步拓展。
Screenshot deepl Translator (deepl)
DeepL上的英德互譯
從技術上看,深度學習是一種結合運用多個層面信息處理的算法。"深度"指的是數據穿越的層級的數量。這一技術如今已運用於無人駕駛汽車、虛擬實境視聽裝置和人臉識別系統。現在它也被運用到了自動翻譯中。
不光是學習
過去兩年中在這一領域中,DeepL不是唯一運用深度學習技術的企業。互聯網巨頭谷歌、微軟和Yandex也在嘗試。不過DeepL與它們有所不同。
首先,人工神經網絡的運行能力的基礎是訓練所使用的原始資料的質量。在此,DeepL得益於"大哥"Linguee,後者提供了數以十億計的高質量翻譯例句範文。
"Linguee的數據是高質量的訓練素材",DeepL公司的發言人科達(Lee Turner Kodak)介紹說。他強調,DeepL成功的背後還不僅僅是數據的質量,"我們的研究人員熟悉這一領域的最新發展,開發了獨一無二的神經網絡架構。"
這一技術到底具體是如何構成的,是這家企業的秘密。DeepL可不想失去市場領先地位。
比谷歌翻譯不止強一倍
為了檢驗翻譯的質量,公司定期進行隨機盲測,以保證應用軟件的高水準。2017年8月進行的一次盲測的結果驗證了DeepL自己設立的目標,即成為"世界上最好的翻譯機器"。測試比較了DeepL、谷歌、微軟和臉書的翻譯功能。
人們分別給這幾款翻譯軟件輸入100個英文句子,讓其翻譯成德、法、西班牙語,同時也讓它們將這三種文字的例句譯成英語。然後由專業翻譯對譯文的質量進行評估。結果是,DeepL的答案被選為最佳譯文的頻率是​​谷歌的三倍,因為它們聽起來更自然。
來自矽谷的投資
2018年12月初,DeepL宣布迎來了新的投資人--來自矽谷的風投公司Benchmark。發言人科達表示,DeepL計劃建立一支25人的團隊,在一年內將研發投入翻一番。
他說:"這個夥伴關係不僅意味著資金,還有人脈。我們將從投資人和其它創業公司的商業智能(BI)中學習到東西,他們在研發進程中走得比我們遠。"
100種語言對9種
2018年12月5日,DeepL新推出了俄語和葡萄牙語的翻譯服務。現在這一翻譯軟件已支持9種歐洲語言互譯,共有72種組合可能。谷歌翻譯則已覆蓋100種語言。不過作為初創企業,DeepL更注重翻譯的高質量,它的創立者相信,質量比數量更重要。
公司發言人科達說:"我們要成為最好的機器翻譯系統。我們也希望能為每一種語言提供翻譯。但不是一下子拋出好幾百種,為了有而有。我們會先訓練我們的網絡,讓它們能始終提供高質量的翻譯。這也是我們創出名氣的原因所在。"

沒有留言: