近日,華夏科學(xué)院沈陽自動化研究所在車間智能調(diào)度方面取得新進展,基于深度強化學(xué)習(xí)方法,實現(xiàn)了動態(tài)訂單下可重構(gòu)車間對動態(tài)生產(chǎn)調(diào)度和車間重構(gòu)得實時優(yōu)化和智能決策。相關(guān)研究成果發(fā)表在International Journal of Production Research上。
由于車間調(diào)度問題多屬于NP難問題,傳統(tǒng)元啟發(fā)式算法只能在多項式時間內(nèi)求得近優(yōu)解。對大規(guī)模問題,元啟發(fā)式算法得求解時間難以滿足動態(tài)生產(chǎn)環(huán)境下實時決策得需求。另外,小批量定制化得生產(chǎn)模式,要求車間滿足動態(tài)可重構(gòu)。如何對可重構(gòu)車間得生產(chǎn)調(diào)度和車間重構(gòu)進行實時優(yōu)化和動態(tài)協(xié)同是研究難點。
科研人員基于深度強化學(xué)習(xí)方法,將生產(chǎn)調(diào)度和車間重構(gòu)得決策過程建模為馬爾科夫決策過程,建立了調(diào)度和重構(gòu)系統(tǒng)得深度強化學(xué)習(xí)模型,設(shè)計了獎勵函數(shù)、狀態(tài)空間和行為空間等。訓(xùn)練后,決策智能體在求解質(zhì)量和求解時間上取得了比2種元啟發(fā)式算法(迭代貪婪算法和遺傳算法)更優(yōu)得結(jié)果。智能體對單個工件得決策時間僅為1.47 ms,可用于動態(tài)生產(chǎn)環(huán)境下可重構(gòu)車間得實時優(yōu)化和智能決策。
研究工作得到China自然科學(xué)基金和遼寧省自然科學(xué)基金項目得支持。
基于深度強化學(xué)習(xí)得智能調(diào)度和重構(gòu)系統(tǒng)架構(gòu)
訓(xùn)練過程中目標值得下降曲線
近日:華夏科學(xué)院沈陽自動化研究所