【時(shí)間】2025年12月4日(周四)下午14:30 開始
【地點(diǎn)】線下講座,9A103會(huì)議室
【主題】基于深度強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的機(jī)器人控制算法研究及其應(yīng)用
【主講人】王福杰 博士
【內(nèi)容簡(jiǎn)介】
本次報(bào)告匯報(bào)非結(jié)構(gòu)化不確定環(huán)境下機(jī)器人深度強(qiáng)化學(xué)習(xí)與模仿學(xué)習(xí)控制算法研究。傳統(tǒng)的控制方法往往依賴于對(duì)機(jī)械臂動(dòng)力學(xué)模型的精確或部分建模,系統(tǒng)的復(fù)雜性和環(huán)境的動(dòng)態(tài)變化使得這些方法難以有效應(yīng)對(duì)各種未知因素。設(shè)計(jì)改進(jìn)的深度強(qiáng)化學(xué)習(xí)框架,將機(jī)械臂的精確軌跡控制轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)的密集獎(jiǎng)勵(lì)問(wèn)題,提出一種集成隨機(jī)網(wǎng)絡(luò)蒸餾深度強(qiáng)化學(xué)習(xí)方法來(lái)解決機(jī)器人機(jī)械手的跟蹤控制問(wèn)題。此外,提出一種基于生成對(duì)抗模仿學(xué)習(xí)和長(zhǎng)短期記憶的深度強(qiáng)化學(xué)習(xí)方法,用于解決具有飽和約束和隨機(jī)干擾的機(jī)器人機(jī)械手的跟蹤控制問(wèn)題。最后通過(guò)仿真結(jié)果表明,所提出的算法能夠有效的完成機(jī)器人末端執(zhí)行器的跟蹤任務(wù),并且與其他算法相比,在有干擾的測(cè)試環(huán)境下表現(xiàn)出更優(yōu)越的穩(wěn)定性。
誠(chéng)摯歡迎廣大師生參加。