高智商愛耍寶,這不是Sheldon,是多語翻譯機器人。江蘇衛(wèi)視問答闖關(guān)節(jié)目《芝麻開門》里,“小度機器人”自稱女文青,呆萌吐槽。4月19日,小度機器人的核心技術(shù)模塊百度翻譯,獲得了中國電子學(xué)會的科技進步獎一等獎。
當日論壇上,小度機器人當起主持人,和真人搭檔做起多語翻譯。小度算是世界上第一個能實現(xiàn)多語翻譯的機器人,或許以后那種高大上的舞臺,就不需要外語主持了。
這個獲獎項目全名是《基于大數(shù)據(jù)的互聯(lián)網(wǎng)機器翻譯核心技術(shù)及產(chǎn)業(yè)化》。由百度牽頭,與中科院自動化所、浙江大學(xué)、哈爾濱工業(yè)大學(xué)、中科院計算所和清華大學(xué)聯(lián)合研發(fā)。
說到翻譯,乍一聽,好像不難,翻譯軟件在非互聯(lián)網(wǎng)時期就有了。早在1946年第一臺現(xiàn)代計算機誕生之初,美國科學(xué)家W.Weaver就提出了機器翻譯的設(shè)想。
但事實上,機器翻譯是人工智能領(lǐng)域的終極目標之一,涉及計算機、認知科學(xué)、語言學(xué)、信息論等學(xué)科。到底有多難,想想我們自己怎樣刻苦學(xué)習(xí)外語就知道了。大概科學(xué)家們的夢想就是造出巴別塔,讓人類不用再學(xué)外語。
互聯(lián)網(wǎng)時代,翻譯自然要用“自然語言處理技術(shù)+大數(shù)據(jù)”來解決。那么,百度翻譯解決了哪些問題?
1、通過海量自然語言語料庫,讓機器自動學(xué)習(xí)理解不同單詞、短語和句式,然后進一步優(yōu)化自身系統(tǒng),并突破了“消歧”和“調(diào)序”等難題。
2、基于互聯(lián)網(wǎng)大數(shù)據(jù)的翻譯模型,可實時準確地響應(yīng)多文體、多領(lǐng)域的復(fù)雜翻譯請求。
3、基于樞軸語言的翻譯技術(shù),使得資源非常稀缺的小語種翻譯成為可能,且實現(xiàn)了多語種翻譯的快速部署。
這些年百度一直苦心鉆研人工智能,技術(shù)公司路徑愈發(fā)明顯。甚至可以推斷,百度戰(zhàn)略放棄了一些過渡性技術(shù)和產(chǎn)品。直奔著下一個制高點去了。
和百度過去那些核心技術(shù)一樣,百度翻譯也被模塊化,做成了開放平臺??鐕髽I(yè)、中小企業(yè)和普通開發(fā)者都可以免費接入百度翻譯API,使用優(yōu)質(zhì)的多語言翻譯服務(wù)。目前通過API接入百度翻譯服務(wù)的第三方應(yīng)用累計超過7000個。
跨境B2B電子商務(wù)平臺敦煌網(wǎng)使用了百度翻譯API,商家上傳商品中文資料后,后臺會自動翻譯出各種相應(yīng)外語語種。還有一嗨租車,可以讓外國人自動生成母語訂單,一些知名品牌手機的系統(tǒng)文字使用的同樣是百度翻譯。
“巴別塔”不僅是科學(xué)家的夢想,而且有巨大的商業(yè)價值。至少目前,基于大數(shù)據(jù)的機器翻譯已經(jīng)可以代替一些水平較低的翻譯新手。如果使用在線翻譯API進行二次開發(fā),在許多場景下可以實現(xiàn)更多元的大眾化使用,而且類似場景會越來越多。
比如最近很火的社交應(yīng)用足記,就接入了百度翻譯的API。創(chuàng)始人CEO楊柳說:“足記的翻譯是很特殊的存在,使用者對翻譯的訴求最低,但是對譯文的要求最高。我們想要將很多經(jīng)典的臺詞、中英文或是古詩詞翻譯好,幫助每一個用戶成為詩人。如果機器翻譯出現(xiàn)前后倒置,就會影響用戶的體驗,因此足記對比過很多翻譯接口。
當然,僅用人工智能的終極夢想解答不了百度為什么這么重視翻譯。我們還是需要回到原點來評判它的價值。
百度是一家搜索公司,以前做的很多工作是連接人與信息,而現(xiàn)在更多的是連接人與服務(wù)。百度公司技術(shù)副總裁王海峰說:“搜索的本質(zhì)就是連接人與信息、人與服務(wù)。在尋找信息和服務(wù)的過程中,人們會有用其它語言表達需求的時候,也會有看其它語言結(jié)果的需求。為了更好地把人和多語言的信息和服務(wù)連接起來,我們需要翻譯。”
更多資訊請關(guān)注工業(yè)機器人頻道
世界那么大,應(yīng)該去看看。但凡這個過程中涉及到多語言場景和應(yīng)用,翻譯就是入口。