MITCSAIL設計出了一種方法,讓機器人可以理解并響應以清晰明了的語言發(fā)出的語音指令。這個系統(tǒng)已經先進到可以理解涉及語境的指令,例如參考之前的命令和對象。
編者按:本文來自微信公眾號"量子位"(ID:QbitAI),編譯:陳樺,36氪經授權發(fā)布。
科幻電影里的機器人早就能和人類無障礙溝通了,但在現實生活中,機器人理解自然語言的能力還非常差,稍微復雜一點的指令,就會讓它們不知所措。
比如說:把我剛才放下的箱子拿起來。
讓機器人明白這樣的指令,是MIT計算機科學和人工智能實驗室(CSAIL)最近才取得的突破。
MITCSAIL設計出了一種方法,讓機器人可以理解并響應以清晰明了的語言發(fā)出的語音指令。這個系統(tǒng)已經先進到可以理解涉及語境的指令,例如參考之前的命令和對象。
由CSAIL研究員開發(fā)的ComText("語境中的指令"的縮寫)系統(tǒng)提供了"類似Alexa"的機器人語音控制功能。這樣的機器人可以理解語境,包括此前的指令,以及與之互動的對象和周圍環(huán)境。
這意味著,用戶可以像與他人互動一樣與機器人互動。此前,與機器人的互動是個巨大的挑戰(zhàn),阻礙了機器人在商業(yè)場景和一般消費級場景中的應用。即使是在產業(yè)界,如果機器人可以理解自然語言語音指令,那么就可以更好地與人類合作。
通過對某些對象的理解,ComText可以用在工作中。例如,你可以告訴它,"我拿著的這個工具是我的工具"。未來,當你對它說"把我的工具拿給我"時,它就會找到正確的工具。
如上圖所示,告訴機器人"我剛才放在桌子上的盒子是我的",然后對它說"拿起我的盒子",它就能正確理解。
研究人員使用Baxter模型對ComText系統(tǒng)進行了檢驗。Baxter是RethinkRobotics開發(fā)的雙臂人形機器人。
ComText在實現過程中采用了不同類型的記憶方式,包括用于一般信息的語義記憶,以及與特定事件關聯在一起的情景記憶。
這項研究相關的論文TemporalGroundingGraphsforLanguageUnderstandingwithAccruedVisual-LinguisticContext發(fā)表在剛剛結束的學術會議IJCAI17上,作者包括MIT的RohanPaul、AndreiBarbu、SueFelshin、BorisKatz和NicholasRoy。
更多資訊請關注工業(yè)機器人頻道