融合類(lèi)人駕駛行為的 無(wú)人駕駛深度強(qiáng)化學(xué)習(xí)方法
文:呂 迪 1,2,3 徐 坤 1,2 李慧云 1,2 潘仲鳴 1,22020年第五期
現(xiàn)有無(wú)人車(chē)輛的駕駛策略過(guò)于依賴(lài)感知 - 控制映射過(guò)程的“正確性”,而忽視了人類(lèi)駕駛汽車(chē) 時(shí)所遵循的駕駛邏輯。該研究基于深度確定性策略梯度算法,提出了一種具備類(lèi)人駕駛行為的端到端 無(wú)人駕駛控制策略。通過(guò)施加規(guī)則約束對(duì)智能體連續(xù)行為的影響,建立了能夠輸出符合類(lèi)人駕駛連續(xù) 有序行為的類(lèi)人駕駛端到端控制網(wǎng)絡(luò),對(duì)策略輸出采用了后驗(yàn)反饋方式,降低了控制策略的危險(xiǎn)行為 輸出率。針對(duì)訓(xùn)練過(guò)程中出現(xiàn)的稀疏災(zāi)難性事件,提出了一種更符合控制策略?xún)?yōu)化期望的連續(xù)獎(jiǎng)勵(lì)函 數(shù),提高了算法訓(xùn)練的穩(wěn)定性。不同仿真環(huán)境下的實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的獎(jiǎng)勵(lì)塑造方式在評(píng)價(jià)稀疏 災(zāi)難性事件時(shí),對(duì)目標(biāo)函數(shù)優(yōu)化期望的近似程度提高了85.57%,訓(xùn)練效率比傳統(tǒng)深度確定性策略梯度算法提高了 21%,任務(wù)成功率提高了 19%,任務(wù)執(zhí)行效率提高了 15.45%,驗(yàn)證了該方法在控制效率和平順性方面具備明顯優(yōu)勢(shì),顯著減少了碰撞事故。
中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

掃碼關(guān)注小程序
時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)



填寫(xiě)郵件地址,訂閱更多資訊:
撥打電話(huà)咨詢(xún):13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運(yùn)動(dòng)控制
- 伺服系統(tǒng)
- 機(jī)器視覺(jué)
- 機(jī)械傳動(dòng)
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機(jī)界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機(jī)器人
- 低壓電器
- 機(jī)柜