隨著重出江湖的“阿爾法圍棋”近日橫掃多位中日韓頂尖棋手,有人評(píng)價(jià)說,人腦斗不過機(jī)器的時(shí)代已經(jīng)來臨。不過,在語言理解方面,目前機(jī)器還遠(yuǎn)遠(yuǎn)斗不過人腦,但這種情況正在迅速發(fā)生改變。
語音識(shí)別技術(shù)突飛猛進(jìn)或成人工智能下一個(gè)風(fēng)口
“嘿,Kuri!想一起玩嗎?”“嘿,Kuri!能講個(gè)故事嗎?”只要聽到叫自己的名字,身高半米、看上去胖嘟嘟的機(jī)器人Kuri就會(huì)睜開眼睛跑到你跟前,像小狗一般可愛。正在美國(guó)拉斯維加斯舉行的消費(fèi)電子展上,這款黑白色的呆萌家用機(jī)器人讓媒體爭(zhēng)相報(bào)道。
“Kuri是一款社交機(jī)器人,您可以把它當(dāng)成家庭的一個(gè)成員,”研發(fā)這款機(jī)器人的初創(chuàng)企業(yè)梅菲爾德機(jī)器人公司首席執(zhí)行官邁克爾·畢比說。除了可以用手機(jī)應(yīng)用程序控制外,還能通過簡(jiǎn)單的語言命令指揮它完成一些任務(wù),比如在家里自動(dòng)巡邏、把小狗趕下沙發(fā)、與小孩一起玩耍、講故事、放音樂等等。
語音識(shí)別突飛猛進(jìn),達(dá)到了人耳的程度
據(jù)預(yù)測(cè),到2020年,美國(guó)每10戶家庭中就有一戶將擁有家用機(jī)器人。這些機(jī)器人不僅能干家務(wù),更重要的是還能與人簡(jiǎn)單交流,替人們排憂解悶。
隨著重出江湖的“阿爾法圍棋”近日橫掃多位中日韓頂尖棋手,有人評(píng)價(jià)說,人腦斗不過機(jī)器的時(shí)代已經(jīng)來臨。不過,在語言理解方面,目前機(jī)器還遠(yuǎn)遠(yuǎn)斗不過人腦,但這種情況正在迅速發(fā)生改變。
“電腦的下一個(gè)接口是語音,”展會(huì)主辦方美國(guó)消費(fèi)技術(shù)協(xié)會(huì)首席經(jīng)濟(jì)學(xué)家肖恩·杜布拉瓦茨在記者會(huì)上斷言。他列出未來5大技術(shù)發(fā)展趨勢(shì),語音交互排在第一位。
現(xiàn)在的智能手機(jī)和個(gè)人電腦依靠圖形用戶界面來實(shí)現(xiàn)人機(jī)交互。它最早可追溯到1981年施樂公司的“施樂之星”操作系統(tǒng)。3年后,蘋果公司“偷師”的Macintosh成為首個(gè)在商用領(lǐng)域取得成功的圖形用戶界面?zhèn)€人電腦。從命令行發(fā)展到圖形界面是人機(jī)交互方式的重大革命,助推了個(gè)人電腦迅速普及。
自那以后,隨著個(gè)人設(shè)備運(yùn)算能力日益增強(qiáng),各種應(yīng)用程序越來越多,圖形用戶界面也變得更復(fù)雜。與此同時(shí),從2010年逐漸興起的可穿戴式設(shè)備以及其他一些非傳統(tǒng)設(shè)備,開始嘗試把最重要的運(yùn)算功能通過無線連接交給手機(jī)或其他中樞設(shè)備。
許多人認(rèn)為,圖形用戶界面已經(jīng)接近極限。接下來,誰能把人類從紛繁復(fù)雜的窗口、工具欄以及菜單選項(xiàng)中解放出來,腦電波、眼神還是語音?10年前這三種方式?jīng)]有一個(gè)靠譜,今天語音似乎成了首選項(xiàng)。
語音識(shí)別研究已經(jīng)有好幾十年,但進(jìn)展一直不盡如人意。微軟早在1994年就成立了研究團(tuán)隊(duì),但2006年研究人員在投資者面前演示時(shí),電腦竟然把“mom”(媽媽)聽成了“aunt”(阿姨)。“早期版本的語音識(shí)別技術(shù)太糟糕了,”杜布拉瓦茨說。據(jù)他介紹,到2013年,哪怕口音再標(biāo)準(zhǔn)、背景噪音再小,語音識(shí)別的單詞錯(cuò)誤率依然高達(dá)25%,即電腦每聽4個(gè)詞就會(huì)錯(cuò)一個(gè)。
得益于深度學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,近3年來語音識(shí)別突飛猛進(jìn),單詞錯(cuò)誤率降到5%左右,達(dá)到了人耳的程度?!拔覀?cè)谶^去30個(gè)月所取得的語音識(shí)別進(jìn)展比過去30年還要多,”杜布拉瓦茨說,“這就是為什么我認(rèn)為語音技術(shù)會(huì)出現(xiàn)爆發(fā)式增長(zhǎng)?!?/p>
“動(dòng)動(dòng)嘴皮子”,就可以關(guān)燈、鎖門,甚至叫車
蘋果手機(jī)推出了語音助手Siri,微軟、谷歌和亞馬遜也相繼推出類似的語音助手。值得一提的是,約兩年前亞馬遜第一個(gè)把其語音助手“亞歷克薩”嵌入到“回聲”智能音箱中,作為智能家居的中樞控制音箱,讓人們多了一個(gè)“家庭事務(wù)助理”。有了“回聲”,人們“動(dòng)動(dòng)嘴皮子”就可以查信用卡賬單、關(guān)燈、鎖門,甚至叫車。
此后,谷歌推出了家用智能硬件“谷歌家庭”,三星和聯(lián)想等也準(zhǔn)備推出類似產(chǎn)品……一場(chǎng)由語音交互驅(qū)動(dòng)的智能家居競(jìng)賽正在進(jìn)行之中。汽車廠商也開始加入進(jìn)來,福特在展會(huì)上宣布跟亞馬遜合作,在車上安裝“亞歷克薩”,將來可由語音控制車內(nèi)播放音樂、閱讀新聞,快到家時(shí)打開車庫(kù)門和家中的照明、空調(diào)等。
杜布拉瓦茨說,到目前為止,全球估計(jì)已售出約500萬個(gè)語音助手,今年可能還會(huì)售出500萬個(gè)。
在中文語音識(shí)別方面,科大訊飛是佼佼者。在此次美國(guó)展會(huì)上,長(zhǎng)虹就展出了基于科大訊飛技術(shù)的語音控制電視和空調(diào),并介紹說,2012年長(zhǎng)虹就推出了語音控制電視,目前已經(jīng)升級(jí)到第三代,除了普通話,還能聽懂四川話、粵語等幾種方言。在演示中,長(zhǎng)虹工作人員通過語音遙控器或安裝了相關(guān)軟件的手機(jī),說出“長(zhǎng)虹小白,我想看某某電視劇第幾集”,電視就直接開始播放相關(guān)劇集,并可以指揮快進(jìn)、后退或直接跳到某個(gè)時(shí)間點(diǎn)開始播放。
中興通訊高級(jí)副總裁程立新在展會(huì)新品發(fā)布會(huì)上說,中興把語音交互視為未來手機(jī)發(fā)展的一個(gè)重要方向?!拔覀円矤款^成立了一個(gè)智慧語音聯(lián)盟,以打造一個(gè)好的生態(tài)圈。我們認(rèn)為未來智能手機(jī)的接口會(huì)有很多的、大的發(fā)展,語音的發(fā)展有可能會(huì)真正解放人類的雙手,”他說。
語音識(shí)別還要克服很多障礙,比如理解嘈雜背景下的語言指令、自動(dòng)糾錯(cuò)、理解同一詞語在不同情境下的語義等。但杜布拉瓦茨認(rèn)為,未來是樂觀的。
“顯然,語音(識(shí)別)跨過了拐點(diǎn),正從理論走向現(xiàn)實(shí),”他說,“人們開始考慮,如果它(語音識(shí)別)能表現(xiàn)得再好一點(diǎn)點(diǎn)的話,我們?cè)撛鯓邮褂盟!?/p>
更多資訊請(qǐng)關(guān)注機(jī)器視覺頻道