您當(dāng)前的位置：鋼材 > 鋼絞線 > 市場分析

iclr2021 openreview，iclr open review

來源:頭條作者: chanong

分享到

關(guān)注德勤鋼鐵網(wǎng)在線：

掃描二維碼
關(guān)注√
德勤鋼鐵網(wǎng)微信

在線咨詢：

掃描或點(diǎn)擊關(guān)注德勤鋼鐵網(wǎng)在線客服

“若聽運(yùn)河清澈，流水之源便現(xiàn)。”學(xué)**前沿領(lǐng)域知識、從其他研究領(lǐng)域獲得靈感、更清晰地理解研究問題的本質(zhì)是取之不盡、用之不竭的資源。信息來源。自我完善。為此，我們特意精選文章閱讀筆記，幫助您廣泛深入地閱讀科研文獻(xiàn)，打造“活水之源”專欄，敬請關(guān)注。

作者：Mochen-Fan Hanchie

地址：https://www.zhihu.com/people/huang-han-chi-15

https://medium.com/@iclr_conf/ourhatata-the-reviewing-process-and-research-shaping-iclr-in-2020-ea9e53eb4c46 這是包含非強(qiáng)化學(xué)**論文的詞云圖

01 多次出現(xiàn)的關(guān)鍵詞：多智能體、分層強(qiáng)化學(xué)**/技能發(fā)現(xiàn)、探索、對抗性、元強(qiáng)化學(xué)**、元學(xué)**、遷移/泛化、進(jìn)化、圖/GNN/GCN、推理、內(nèi)在獎勵/好奇心、生成式、模仿學(xué)**，穩(wěn)健，

采樣效率/估計(jì)、基于模型、離策略、課程學(xué)**、安全/約束學(xué)**

02 ICLR 202 強(qiáng)化學(xué)**Top 10 論文

https://analyticsindiamag.com/top-10-reinforcement-learning-papers-from-iclr-2020/

1| 圖卷積強(qiáng)化學(xué)**

2| 衡量強(qiáng)化學(xué)**算法的可靠性

3| 強(qiáng)化學(xué)**行為套件

4| 現(xiàn)實(shí)世界機(jī)器人強(qiáng)化學(xué)**的要素

5| 網(wǎng)絡(luò)隨機(jī)化：深度強(qiáng)化學(xué)**中泛化的簡單技術(shù)

6| 關(guān)于神經(jīng)機(jī)器翻譯強(qiáng)化學(xué)**的弱點(diǎn)

7| 基于強(qiáng)化學(xué)**的圖序列模型，用于自然問題生成

8| 對抗性策略：對深度強(qiáng)化學(xué)**的攻擊

9| 使用強(qiáng)化學(xué)**發(fā)現(xiàn)因果關(guān)系

10| Atari 基于模型的強(qiáng)化學(xué)**

03 Text 1.《Posterior sampling for multi-agent reinforcement learning: solving extensive games with imperfect information》關(guān)鍵詞：MARL、后采樣、博弈論HIGHLIGHT: 對于非平滑、非凸函數(shù)，梯度裁剪可能會加速梯度下降。強(qiáng)化學(xué)**事后抽樣(PSRL) 是一個幫助您在未知環(huán)境中做出決策的框架。 PSRL 維護(hù)環(huán)境的后驗(yàn)分布并規(guī)劃從后驗(yàn)分布中采樣的環(huán)境。盡管PSRL 對于單智能體強(qiáng)化學(xué)**問題表現(xiàn)良好，但將PSRL 應(yīng)用于多智能體強(qiáng)化學(xué)**問題尚未得到探索。在本研究中，我們將PSRL 擴(kuò)展到不完全信息的兩人零和博弈（TEGI），這是一類多智能體系統(tǒng)。更具體地說，我們將PSRL 與Counterfactual Regret Minimization (CFR) 結(jié)合起來，這是TEGI 在已知環(huán)境中的主要算法。我們的主要貢獻(xiàn)在于交互策略的全新設(shè)計(jì)，這為算法提供了良好的理論和實(shí)驗(yàn)保證。

2.《Dynamics-Aware Unsupervised Skill Discovery》關(guān)鍵詞：無監(jiān)督學(xué)**、基于模型的學(xué)**、分層強(qiáng)化學(xué)**HIGHLIGHT: 我們提出了一種無監(jiān)督技能發(fā)現(xiàn)方法，可以實(shí)現(xiàn)基于模型的分層強(qiáng)化學(xué)**規(guī)劃。傳統(tǒng)上，基于模型的強(qiáng)化學(xué)**（MBRL）旨在學(xué)**環(huán)境動態(tài)的全局模型。好的模型允許規(guī)劃算法生成不同的行為并可能解決不同的任務(wù)。然而，學(xué)**復(fù)雜動力系統(tǒng)的準(zhǔn)確模型仍然很困難，即使可以，該模型也可能無法推廣到超出其訓(xùn)練狀態(tài)分布的范圍。在這項(xiàng)工作中，我們將基元的基于模型的學(xué)**和無模型學(xué)**結(jié)合起來，以促進(jìn)基于模型的規(guī)劃。我們要回答的問題是：如何找到結(jié)果容易預(yù)測的技能？為了實(shí)現(xiàn)這一目標(biāo)，我們提出了動態(tài)感知技能發(fā)現(xiàn)（DADS），這是一種無監(jiān)督學(xué)**算法，可以發(fā)現(xiàn)可預(yù)測的行為并同時學(xué)**其動態(tài)。理論上，我們的方法可以利用連續(xù)的技能空間，甚至在高維狀態(tài)空間中學(xué)**無限多種行為。在學(xué)**的潛在空間中進(jìn)行逐步規(guī)劃顯著優(yōu)于標(biāo)準(zhǔn)MBRL 和無模型目標(biāo)條件RL，可以處理稀疏獎勵任務(wù)，并改進(jìn)現(xiàn)有的無監(jiān)督技能發(fā)現(xiàn)方法。我們證明了分層RL 技術(shù)可以得到顯著改進(jìn)。代碼：https://github.com/google-research/dads

3.《Harnessing Structures for Value-Based Planning and Reinforcement Learning》關(guān)鍵詞：基于價值的強(qiáng)化學(xué)**亮點(diǎn)：我們提出了一個通用框架，可以在規(guī)劃和深度強(qiáng)化學(xué)**中利用低階結(jié)構(gòu)。在本文中，我們建議開發(fā)用于規(guī)劃和DRL 的狀態(tài)動作價值函數(shù)（即Q 函數(shù)）基礎(chǔ)設(shè)施。如果底層系統(tǒng)的動態(tài)導(dǎo)致Q 函數(shù)的某種全局結(jié)構(gòu)，我們應(yīng)該能夠通過利用這種結(jié)構(gòu)更好地推斷該函數(shù)。具體來說，我們研究大數(shù)據(jù)矩陣中普遍存在的低秩結(jié)構(gòu)，并憑經(jīng)驗(yàn)驗(yàn)證低秩Q 函數(shù)在控制和DRL 任務(wù)中的存在。通過利用矩陣估計(jì)（ME）技術(shù)，我們提出了一個通用框架來利用Q 函數(shù)的底層低秩結(jié)構(gòu)。這為經(jīng)典控制提供了更有效的規(guī)劃過程，并且還允許將簡單的方案應(yīng)用于基于值的RL 技術(shù)，以在“低等級”任務(wù)上始終獲得更好的性能。對控制任務(wù)和Atari 游戲的廣泛實(shí)驗(yàn)證實(shí)了我們方法的有效性。代碼：https://github.com/YyzHarry/SV-RL

4.《Causal Discovery with Reinforcement Learning》關(guān)鍵詞：因果發(fā)現(xiàn)、結(jié)構(gòu)化學(xué)**、強(qiáng)化學(xué)**、有向無環(huán)圖亮點(diǎn)：將強(qiáng)化學(xué)**應(yīng)用于基于分?jǐn)?shù)的因果發(fā)現(xiàn)，在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上都取得了有希望的結(jié)果。在本文中，華為諾亞方舟研究院因果關(guān)系研究團(tuán)隊(duì)將強(qiáng)化學(xué)**應(yīng)用于打分方法的因果發(fā)現(xiàn)算法中，并使用基于自注意力機(jī)制的編碼器-解碼器的神經(jīng)網(wǎng)絡(luò)模型來確定關(guān)系數(shù)據(jù)之間的關(guān)系進(jìn)行調(diào)查并與因果結(jié)構(gòu)相結(jié)合。設(shè)置條件，利用策略梯度強(qiáng)化學(xué)**算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù)，最終得到因果圖結(jié)構(gòu)。對于學(xué)術(shù)界常用的一些數(shù)據(jù)模型，該方法在中等大小的圖上優(yōu)于其他方法，例如傳統(tǒng)的因果關(guān)系發(fā)現(xiàn)算法和更新的基于梯度的算法。同時，該方法非常靈活，可以與任何評分函數(shù)結(jié)合使用。

5.《SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference》關(guān)鍵詞：機(jī)器學(xué)**、可擴(kuò)展性、分布式、DeepMind Lab、ALE、Atari-57、Google Research Football 我們提供最先進(jìn)的可擴(kuò)展強(qiáng)化學(xué)**，稱為SEED（可擴(kuò)展、高效深度強(qiáng)化學(xué)**）代理。我是。通過有效利用現(xiàn)代加速器，算法不僅可以每秒數(shù)百萬幀進(jìn)行訓(xùn)練，還可以降低成本。與當(dāng)前方法相比，我們通過具有集中推理和優(yōu)化通信層的簡單架構(gòu)來實(shí)現(xiàn)這一目標(biāo)。 SEED 采用兩種現(xiàn)代分布式算法：IMPALA/V-trace（策略梯度）和R2D2（Q 學(xué)**），并在Atari-57、DeepMind Lab 和Google Research Football 上對其進(jìn)行評估。新算法水平高、成本低。代碼：https://drive.google.com/file/d/144yp7PQf486dmctE2oS2md_qmNBTFbez/view

6.《Is a Good Representation Sufficient for Sample Efficient Reinforcement Learning》關(guān)鍵詞：函數(shù)逼近、下界、表達(dá)式亮點(diǎn)：函數(shù)逼近的基于值和基于策略的強(qiáng)化學(xué)**的指數(shù)下界。

7.《Simplified Action Decoder for Deep Multi-Agent Reinforcement Learning》關(guān)鍵詞：多智能體RL，心智理論亮點(diǎn)：開發(fā)了一個簡化的動作解碼器，一個簡單的MARL算法，在2-5人游戲中可以明顯優(yōu)于Hanabi的SOTA。在被他人觀察的同時學(xué)會變得有用是強(qiáng)化學(xué)**（RL）中的一個有趣的挑戰(zhàn)。強(qiáng)化學(xué)**本質(zhì)上需要智能體進(jìn)行探索，以便發(fā)現(xiàn)好的策略，但是當(dāng)簡單地進(jìn)行探索時，其隨機(jī)性本質(zhì)上導(dǎo)致智能體在訓(xùn)練過程中的行為與其他智能體不同，給出的信息較少。我們提出了一種新的深度多智能體強(qiáng)化學(xué)**方法—— 簡化動作解碼器（SAD）。它通過增加強(qiáng)化訓(xùn)練階段來解決這一矛盾。 SAD 允許其他智能體不僅可以觀察自己選擇的（探索性）行為，還可以觀察隊(duì)友在訓(xùn)練期間的貪婪行為。本文將這種簡單的直覺與輔助任務(wù)和狀態(tài)預(yù)測的多智能體學(xué)**的最佳實(shí)踐相結(jié)合。代碼：https://bit.ly/2mBJLyk

8.《Behaviour Suite for Reinforcement Learning》關(guān)鍵詞：基準(zhǔn)、核心問題、可擴(kuò)展性、可重復(fù)性亮點(diǎn)：Bsuite 是一系列精心設(shè)計(jì)的實(shí)驗(yàn)的集合，用于研究RL 智能體的核心功能。代碼：https://github.com/deepmind/bsuite

9.《Model Based Reinforcement Learning for Atari》關(guān)鍵詞：基于模型的RL、視頻預(yù)測模型、atariHIGHLIGHT：視頻預(yù)測模型、基于模型的強(qiáng)化學(xué)**算法、每場游戲2小時的游戲時間來訓(xùn)練26個Atari游戲代理。在本文中，我們探討了如何使用視頻預(yù)測模型來使代理能夠以比無模型方法更少的交互來解決Atari 游戲。我們嘗試了幾種概率視頻預(yù)測技術(shù)，包括基于離散潛在變量的新模型，并利用這些視頻預(yù)測技術(shù)來模擬學(xué)**模型來訓(xùn)練要在游戲中執(zhí)行的策略。提出了一種稱為模擬策略學(xué)**（SimPLe）的方法。代碼：http://bit.ly/2wjgn1a

10.《Measuring the Reliability of Reinforcement Learning Algorithms》關(guān)鍵詞：指標(biāo)、統(tǒng)計(jì)、可靠性亮點(diǎn)：用于測量強(qiáng)化學(xué)**算法可靠性（訓(xùn)練期間和學(xué)**后（基于固定策略））的一組新指標(biāo)（+隨附的統(tǒng)計(jì)測試）側(cè)重于兩者波動性）和風(fēng)險）代碼：https://github.com/google-research/rl-reliability-metrics

11.《The Ingredients of Real World Robotic Reinforcement Learning》關(guān)鍵詞：機(jī)器人亮點(diǎn)：通過強(qiáng)化學(xué)**學(xué)**現(xiàn)實(shí)世界機(jī)器人任務(wù)的免工具系統(tǒng)。本文介紹了將RL 部署到真實(shí)物理機(jī)器人系統(tǒng)的實(shí)際問題和解決方案，包括使用原始感官數(shù)據(jù)、創(chuàng)建獎勵函數(shù)以及在情節(jié)結(jié)束時不重置的問題。

12.《Maximum Likelihood Constraint Inference for Inverse Reinforcement Learning》關(guān)鍵詞：從演示中學(xué)**、逆向強(qiáng)化學(xué)**、約束推理亮點(diǎn)：使用最大熵原理來量化演示與預(yù)期無約束行為之間的差異、任務(wù)執(zhí)行約束推理。我們根據(jù)馬爾可夫決策過程（MDP）重新表述了IRL 問題。在那里，給定環(huán)境的名義模型和名義獎勵函數(shù)，我們嘗試估計(jì)激發(fā)代理良好行為的環(huán)境、行為和特征約束。我們的方法基于最大熵IRL 框架，這使我們能夠根據(jù)我們對MDP 的了解來推斷專家代理進(jìn)行演示的可能性。新算法使我們能夠估計(jì)哪些約束可以添加到MDP 中，以最大限度地提高觀察這些演示的可能性。新算法迭代地推斷出最能解釋觀察到的行為的最大似然約束，并使用模擬行為和人類繞過?*锏募鍬際堇床饈云溆行�。代码：https://drive.google.com/drive/folders/1pJ7o4w4J0_dpldTRpFu_jWQR8CkBbXw

13.《Improving Generalization in Meta Reinforcement Learning using Neural Objectives》關(guān)鍵詞：元強(qiáng)化學(xué)**，元學(xué)**亮點(diǎn)：我們引入了一種新的元強(qiáng)化學(xué)**算法，MetaGenRL。與之前的工作不同，MetaGenRL 可以推廣到與元訓(xùn)練完全不同的新環(huán)境。生物進(jìn)化將許多學(xué)**者的經(jīng)驗(yàn)提煉成人類通用的學(xué)**算法。我們新的元強(qiáng)化學(xué)**算法MetaGenRL 就是受到這個過程的啟發(fā)。 MetaGenRL 提取許多復(fù)雜智能體的經(jīng)驗(yàn)來元學(xué)**低復(fù)雜度的神經(jīng)目標(biāo)函數(shù)，該函數(shù)決定個人未來的學(xué)**方式。與最近的元強(qiáng)化學(xué)**算法不同，MetaGenRL 可以推廣到與元訓(xùn)練完全不同的新環(huán)境。在某些情況下，它甚至可以超越手動設(shè)計(jì)的強(qiáng)化學(xué)**算法。 MetaGenRL 在元訓(xùn)練期間使用離策略二次梯度。這大大提高了采樣效率。

14.《Making Sense of Reinforcement Learning and Probabilistic Inference》關(guān)鍵詞：概率推理、不確定性、探索亮點(diǎn)：“RL 作為推理”中的常見算法忽略了不確定性和探索的作用。我們強(qiáng)調(diào)這些問題的重要性，并提出了一個一致的強(qiáng)化學(xué)**和推理框架，以正確處理不確定性和探索。強(qiáng)化學(xué)**（RL）結(jié)合了控制問題和統(tǒng)計(jì)推斷。智能體不知道系統(tǒng)的動態(tài)，但可以通過經(jīng)驗(yàn)進(jìn)行學(xué)**。最近的工作提出了一個名為“強(qiáng)化學(xué)**推理”的具體框架，它將強(qiáng)化學(xué)**問題推廣到概率推理。在我們的論文中，我們揭示了這種方法的主要缺點(diǎn)，并解釋了使RL 一致地推廣到推理問題的含義。特別是，強(qiáng)化學(xué)**智能體必須考慮探索和利用之間的權(quán)衡。除了最簡單的設(shè)置之外，在所有設(shè)置中，推理在計(jì)算上都很困難，因此真正的強(qiáng)化學(xué)**算法必須依賴于近似技巧。我們證明，即使對于非�；镜膯栴}，常見的“強(qiáng)化學(xué)**作為推理”近似也會降低性能。然而，我們表明，只需進(jìn)行少量修改，該框架就可以產(chǎn)生具有明顯優(yōu)越性能的算法，并且我們表明，新算法相當(dāng)于最近提出的K-learning，它與Thompson 采樣相關(guān)。

15.《Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation》關(guān)鍵詞：深度學(xué)**、圖神經(jīng)網(wǎng)絡(luò)、自然語言處理、問題生成亮點(diǎn)：自然問題生成（QG）旨在根據(jù)句子和答案生成問題。先前關(guān)于QG 的研究（i）忽略了隱藏在文本中的豐富結(jié)構(gòu)信息，（ii）僅依賴交叉熵?fù)p失，這導(dǎo)致了暴露偏差和訓(xùn)練/測試測量之間不匹配等問題�；蛘撸╥ii）使大部分響應(yīng)信息。為了解決這些限制，我們針對QG 問題提出了一種新的基于RL 的GrappSeq 模型。在此模型中，高效的深度對齊網(wǎng)絡(luò)利用響應(yīng)信息。我們還提出了一種新的雙向GNN 來處理有向通道圖。我們的兩步訓(xùn)練策略受益于基于交叉熵和基于增強(qiáng)的序列訓(xùn)練。我們還考慮從文本構(gòu)建靜態(tài)和動態(tài)圖，并系統(tǒng)地調(diào)查和分析兩者之間的性能差異。代碼：https://github.com/hugochan/RL-based-GrappSeq-for-NQG

16.《On the Weaknesses of Reinforcement Learning for Neural Machine Translation》關(guān)鍵詞：MRT、最小風(fēng)險訓(xùn)練、強(qiáng)化、機(jī)器翻譯、Peakkinesity、生成亮點(diǎn)：提高機(jī)器翻譯性能的強(qiáng)化實(shí)踐可能不會來自更好的預(yù)測。摘要：強(qiáng)化學(xué)**（RL）通常用于提高文本生成任務(wù)（包括機(jī)器翻譯）的性能，特別是通過使用最小風(fēng)險訓(xùn)練（MRT）和生成對抗網(wǎng)絡(luò)（GAN）。然而，人們對這些方法在MT 背景下學(xué)**什么以及如何學(xué)**知之甚少。最常見的MT RL 技術(shù)之一并不能優(yōu)化預(yù)期回報(bào)，而其他技術(shù)則被證明過于耗時。事實(shí)上，實(shí)驗(yàn)結(jié)果表明，只有當(dāng)預(yù)訓(xùn)練參數(shù)已經(jīng)接近產(chǎn)生正確翻譯時，使用MT 練**RL 才可能提高性能。我們的研究結(jié)果進(jìn)一步表明，觀察到的增益可能是由于與訓(xùn)練信號無關(guān)的影響，例如分布曲線形狀的變化。

17.《SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards》關(guān)鍵詞：模仿學(xué)**亮點(diǎn)：對抗性模擬學(xué)**的簡單有效替代方案：通過演示初始化經(jīng)驗(yàn)重放緩沖區(qū)，并將獎勵設(shè)置為+1，將所有其他數(shù)據(jù)獎勵設(shè)置為0 配置并運(yùn)行Q Learning 或軟件。演員和評論家培訓(xùn)。從模仿中學(xué)**模仿專家的行為可能很困難，特別是在高維度、連續(xù)觀察和未知動態(tài)的環(huán)境中�；谛袨榭寺。˙C）的監(jiān)督學(xué)**方法存在分布轉(zhuǎn)移問題。由于智能體貪婪地模仿所演示的動作并積累錯誤，因此它可能會偏離所演示的狀態(tài)。最近基于強(qiáng)化學(xué)**(RL) 的方法，例如逆向RL 和生成對抗性模仿學(xué)**(GAIL)，通過訓(xùn)練RL 代理隨著時間的推移匹配演示來克服這個問題。由于任務(wù)的真實(shí)獎勵函數(shù)是未知的，這些方法通常通過使用復(fù)雜且弱的近似技術(shù)和對抗性訓(xùn)練的演示來學(xué)**獎勵函數(shù)。我們提出了一個簡單的替代方案，仍然使用強(qiáng)化學(xué)**，但不需要學(xué)**獎勵函數(shù)。關(guān)鍵思想是鼓勵代理在遇到新的交付狀態(tài)時返回到演示狀態(tài)，從而鼓勵他們隨著時間的推移匹配演示。為了實(shí)現(xiàn)這一目標(biāo)，我們?yōu)榇硖峁┖愣í剟顁=+ 1 以匹配演示狀態(tài)下的演示動作，并為所有其他動作提供恒定獎勵r=0。新算法Soft-Q 模仿學(xué)**(SQIL) 可以通過對標(biāo)準(zhǔn)Q 學(xué)**算法或策略松弛Actor-Critic 算法進(jìn)行輕微修改來實(shí)現(xiàn)。我們從理論上證明，SQIL 可以解釋為BC 的正則化變體，它在鼓勵長期模仿之前使用稀疏性。在Box2D、Atari 和MuJoCo 上的各種基于圖像的低維任務(wù)上，SQIL 的性能優(yōu)于BC，并且與GAIL 相比獲得了有競爭力的結(jié)果。本文主要演示了具有恒定獎勵的簡單的基于強(qiáng)化學(xué)**的模仿技術(shù)如何與使用學(xué)**獎勵的更復(fù)雜的技術(shù)一樣有效。

18.《AutoQ: Automated Kernel-Wise Neural Network Quantization》關(guān)鍵詞：AutoML、kernel-wise 神經(jīng)網(wǎng)絡(luò)量化、分層深度強(qiáng)化學(xué)**亮點(diǎn)：使用分層深度強(qiáng)化學(xué)**實(shí)現(xiàn)混合精度的準(zhǔn)確、快速、自動化的kernel-wise 神經(jīng)網(wǎng)絡(luò)量化。在本文中，我們提出了AutoQ，一種基于分層DRL 的基于內(nèi)核的網(wǎng)絡(luò)量化技術(shù)，它自動為每個權(quán)重內(nèi)核搜索QBN，并為每個激活層選擇不同的QBN。與最先進(jìn)的基于DRL 的量化模型相比，采用AutoQ 量化的同一模型在實(shí)現(xiàn)相同推理精度的同時，推理延遲平均降低了54.06%，推理能耗降低了50.69%。

19.《SVQN: Sequential Variational Soft Q-Learning Networks》關(guān)鍵詞：POMDP、變分推理、生成模型亮點(diǎn)：SVQN 在統(tǒng)一圖模型下形式化隱藏狀態(tài)推理和最大熵強(qiáng)化學(xué)**，并聯(lián)合優(yōu)化兩個模塊。部分可觀察馬爾可夫決策過程(POMDP) 是一種靈活的模型，在現(xiàn)實(shí)世界的決策應(yīng)用中很受歡迎，這些應(yīng)用需要來自過去觀察的信息來做出最佳決策。用于解決馬爾可夫決策過程(MDP) 任務(wù)的標(biāo)準(zhǔn)強(qiáng)化學(xué)**算法不適合，因?yàn)樗鼈儫o法推斷未觀察到的狀態(tài)。在本文中，我們在統(tǒng)一圖模型下形式化了隱藏狀態(tài)推理和最大熵強(qiáng)化學(xué)**（MERL），并開發(fā)了一種新的POMDP 算法，聯(lián)合優(yōu)化這兩個模塊—— 提出了序列變分軟Q 學(xué)**網(wǎng)絡(luò)（SVQN）。此外，我們設(shè)計(jì)了深度循環(huán)神經(jīng)網(wǎng)絡(luò)來降低算法的計(jì)算復(fù)雜度。實(shí)驗(yàn)結(jié)果表明，SVQN 利用過去的信息來支持決策，進(jìn)行有效的推理，并且在一些困難任務(wù)上優(yōu)于其他基線。我們的消融研究表明，SVQN 具有隨時間推移進(jìn)行泛化的能力，并且對觀察到的擾動具有魯棒性。

19.《Observational Overfitting in Reinforcement Learning》關(guān)鍵詞：觀察、過擬合、泛化、隱式、正則化、過參數(shù)化亮點(diǎn)：本文提出了一種分析RL 狀態(tài)空間不相關(guān)部分過擬合的方法，并且我們提出了一種測量誤差框架的方法。無模型強(qiáng)化學(xué)**(RL) 中過度擬合的主要癥狀：代理可能會根據(jù)馬爾可夫決策過程(MDP) 生成的觀察結(jié)果錯誤地將獎勵與某些虛假特征關(guān)聯(lián)起來。我們提供了一個分析這種情況的總體框架。這用于通過簡單地改變MDP 的觀察空間來設(shè)計(jì)多個綜合基準(zhǔn)。當(dāng)代理過度模擬時

合到不同的觀察空間時，即使底層的MDP動態(tài)是固定的，我們?nèi)苑Q之為觀察過度擬合。我們的實(shí)驗(yàn)揭示了一些有趣屬性（尤其在隱式正則化方面），并證實(shí)了以前在RL泛化和監(jiān)督學(xué)**（SL）中的工作結(jié)果。 20.《Multi-agent Reinforcement Learning for Networked System Control》關(guān)鍵詞：multi-agent reinforcement learning, decision and controlHIGHLIGHT：本文針對網(wǎng)絡(luò)化多智能體控制問題提出了新提法和新的通信協(xié)議。本文考慮了網(wǎng)絡(luò)系統(tǒng)控制中的多智能體強(qiáng)化學(xué)**（MARL）。具體來說，每個智能體都基于本地觀察和來自相鄰鄰居的消息來學(xué)**分散控制策略。我們將這種網(wǎng)絡(luò)化的MARL（NMARL）問題公式化為時空馬爾可夫決策過程，并引入空間折扣因子來穩(wěn)定每個本地Agent的訓(xùn)練。此外，我們提出了一種新的可微分通信協(xié)議，稱為NeurComm，以減少NMARL中的信息丟失和非平穩(wěn)性。在實(shí)際的NMARL自適應(yīng)交通信號控制和協(xié)同自適應(yīng)巡航控制場景下的實(shí)驗(yàn)基礎(chǔ)上，適當(dāng)?shù)目臻g折現(xiàn)因子可以有效地增強(qiáng)非通信MARL算法的學(xué)**曲線，代碼：https://github.com/cts198859/deeprl_network 21.《Learning the Arrow of Time for Problems in Reinforcement Learning》關(guān)鍵詞：Arrow of Time, AI-SafetyHIGHLIGHT：我們研究了MDP的Arrow of Time，用它來衡量可及性，檢測副作用并獲得好奇心獎勵信號。人類對時間的不對稱發(fā)展有著天生的理解，我們可用它來高效、安全地感知和操縱環(huán)境。受此啟發(fā)，我們解決了在馬爾可夫（決策）過程中學(xué)**Arrow of Time的問題。我們將說明學(xué)**的Arrow of Time如何捕獲有關(guān)環(huán)境的重要信息，這些信息又可以用于衡量可達(dá)性，檢測副作用并獲得內(nèi)在的獎勵信號。最后，我們提出一種簡單有效的算法來參數(shù)化當(dāng)前問題，并使用函數(shù)逼近器（此處為深度神經(jīng)網(wǎng)絡(luò)）學(xué)**Arrow of Time。我們的經(jīng)驗(yàn)結(jié)果涵蓋了離散和連續(xù)環(huán)境的選擇，代碼： https://www.sendspace.com/file/0mx0en 22.《Reinforcement Learning with Competitive Ensembles of Information-Constrained Primitives》關(guān)鍵詞：Variational Information Bottleneck, Learning primitivesHIGHLIGHT：學(xué)**隱式的主策略，因?yàn)镠RL中的主策略可能無法推廣。與許多當(dāng)前的分層強(qiáng)化學(xué)**方法相反，作者提出了一種學(xué)**低級策略的去中心化方法，這些低級策略自己決定是否在當(dāng)前狀態(tài)下行動，而不是由一個中心化的更高級別的元策略在低級策略之間進(jìn)行選擇。分層強(qiáng)化學(xué)**將策略分解為較低級別的原語或option，以及將較高級別的元策略分解為針對給定情況觸發(fā)適當(dāng)行為的策略。但是，元策略仍必須在所有狀態(tài)中做出適當(dāng)?shù)臎Q定。在這項(xiàng)工作中，我們提出了一種可分解為不同原語但沒有高級元策略的策略設(shè)計(jì)。每個原語可自己決定是否希望在當(dāng)前狀態(tài)下執(zhí)行操作。我們使用信息理論機(jī)制來實(shí)現(xiàn)此分散決策：每個原語都會選擇需要多少有關(guān)當(dāng)前狀態(tài)的信息來做出決定，一般來說原語會希望請求有關(guān)當(dāng)前狀態(tài)的最多信息。但比較信息有限嘛，有時我們需要對原語進(jìn)行regularization以使用盡可能少的信息，這會導(dǎo)致自然競爭和專業(yè)化。我們通過實(shí)驗(yàn)證明，新的策略體系結(jié)構(gòu)在泛化方面比flat策略和分層策略都有所改進(jìn)。 23.《Exploration in Reinforcement Learning with Deep Covering Options》（poster）關(guān)鍵詞：temporal abstraction, explorationHIGHLIGHT：我們介紹了一種可自動發(fā)現(xiàn)task-agnostic options，從而鼓勵強(qiáng)化學(xué)**中的探索的方法。目前加速強(qiáng)化學(xué)**中的探索的方法常常是啟發(fā)式的。近年來，研究者提出了covering options以發(fā)現(xiàn)一組可證明地減少環(huán)境覆蓋時間上限的options，這是探索難度的一種度量。Covering options是使用圖拉普拉斯圖的特征向量計(jì)算的，但它們受制于表格任務(wù)，不適用于具有較大或連續(xù)狀態(tài)空間的任務(wù)。對此，我們介紹了deep covering options，這是一種在線方法，可將覆蓋范圍擴(kuò)展到大型狀態(tài)空間，自動發(fā)現(xiàn)task-agnostic options以鼓勵探索。 24.《Logic and the 2-Simplicial Transformer》（poster）關(guān)鍵詞：transformer, logic, reasoningHIGHLIGHT：我們介紹了2-simplicial Transformer，它是Transformer的擴(kuò)展，包括了一種泛化點(diǎn)積注意力的高維注意力形式，并使用這種注意力來更新實(shí)體表征與價值向量的張量積。我們表明，這種架構(gòu)是深度強(qiáng)化學(xué)**背景下邏輯推理的一個有用的歸納偏向。Review：本文擴(kuò)展了Transformer，實(shí)現(xiàn)了高維注意機(jī)制，將點(diǎn)積注意推廣了。Reviewer3認(rèn)為，將注意機(jī)制從二階關(guān)系擴(kuò)展到三階關(guān)系是一個重要的提升，mathematical context具有洞察力，且可能導(dǎo)致進(jìn)一步的潛在發(fā)展。代碼：https://github.com/dmurfet/2simplicialtransformer 25.《Watch, Try, Learn: Meta-Learning from Demonstrations and Rewards》關(guān)鍵詞：meta-learning, imitation learningHIGHLIGHT：本文提出了一種元學(xué)**方法，該方法可以從Demonstrations和后續(xù)的RL任務(wù)中學(xué)**。模仿學(xué)**使智能體可從演示中學(xué)**復(fù)雜的行為。但是，學(xué)**基于視覺的復(fù)雜任務(wù)可能需要不切實(shí)際的Demonstrations。元模仿學(xué)**是一種有前途的方法，它可使智能體通過利用學(xué)**類似任務(wù)的經(jīng)驗(yàn)，從一個或幾個Demonstrations中學(xué)**新任務(wù)。在任務(wù)模棱兩可或觀察不到動態(tài)的情況下，僅憑Demonstrations可能無法提供足夠的信息。智能體還必須嘗試執(zhí)行任務(wù)以成功推斷策略。在這項(xiàng)工作中，我們提出了一種可以從Demonstrations和反復(fù)試驗(yàn)的經(jīng)驗(yàn)中學(xué)**并具有稀疏獎勵反饋的方法。與元模仿相比，此方法使智能體能有效improve itself autonomously beyond the demonstration data。與元強(qiáng)化學(xué)**相比，由于Demonstrations減輕了探索負(fù)擔(dān)，因此我們可以擴(kuò)展到更廣泛的任務(wù)分配。實(shí)驗(yàn)表明，在一系列具有挑戰(zhàn)性的基于視覺的控制任務(wù)上，我們的方法明顯優(yōu)于以前的方法。代碼：https://drive.google.com/open id=1f1LzO0fe1m-kINY8DTgL6JGimVGiQOuz 26.《Adversarial Policies: Attacking Deep Reinforcement Learning》關(guān)鍵詞：adversarial examples, security, multi-agentHIGHLIGHT：DRL策略可能會受到其他智能體采取行動以創(chuàng)建具有對抗性的自然觀察的攻擊。眾所周知，DRL策略容易受到其觀測值的對抗性擾動，類似于分類器的對抗性例子。然而，攻擊者通常無法直接修改另一個智能體的觀測值。這可能會導(dǎo)致人們懷疑：是否有可能僅僅通過選擇一個在多智能體環(huán)境中作用的對抗性策略來攻擊一個RL智能體，從而創(chuàng)造出對抗性的自然觀測值？我們證明了在具有本體觀測的模擬人形機(jī)器人之間的零和游戲中存在對抗性策略，它用于對抗通過自我游戲訓(xùn)練成的最先進(jìn)受害者，使其對對手具有魯棒性。對抗性策略可靠地贏了受害者，但產(chǎn)生了看似隨機(jī)和不協(xié)調(diào)的行為。我們發(fā)現(xiàn)，這些策略在高維環(huán)境中更成功，并在受害者策略網(wǎng)絡(luò)中誘導(dǎo)出與受害者和普通對手對弈時實(shí)質(zhì)不同的激活。視頻見adversarialpolicies.github.io 。代碼：https://github.com/humancompatibleai/adversarial-policies 27.《Population-Guided Parallel Policy Search for Reinforcement Learning》關(guān)鍵詞：Parallel Learning, Population Based LearningHIGHLIGHT：本文提出了一種multi-actor RL的新方法，該方法通過以柔和的方式提煉表現(xiàn)最佳的智能體的策略并在智能體之間保持一定距離來確保角色群體的多樣性和績效。作者顯示，與幾種最先進(jìn)的單actor算法和其他幾種multi-actor RL算法相比，新算法性能有所改善。本文提出了一種新的以Population為導(dǎo)向的并行學(xué)**方案，以提高off-policy強(qiáng)化學(xué)**（RL）的性能。在新方案中，具有相同價值函數(shù)和策略的多個相同的學(xué)**者共享一個經(jīng)驗(yàn)重播緩沖區(qū)，并在最佳策略信息的指導(dǎo)下協(xié)作搜索一個好的策略。關(guān)鍵是通過構(gòu)建用于策略更新的增強(qiáng)損失函數(shù)以擴(kuò)大多個學(xué)**者的整體搜索范圍，從而以一種**soft**的方式**融合最佳策略的信息**。通過先前最佳策略的指導(dǎo)和擴(kuò)大范圍，我們可以更快更好地進(jìn)行策略搜索，并且從理論上證明所提出方案的累積回報(bào)期望的單調(diào)提高。 28.《Learning Efficient Parameter Server Synchronization Policies for Distributed SGD》關(guān)鍵詞：Distributed SGD, Paramter-Server, Synchronization PolicyHIGHLIGHT：我們采用基于強(qiáng)化學(xué)**的方法來學(xué)**用于Parameter Server-based distributed training of SGD的最佳同步策略。我們應(yīng)用基于強(qiáng)化學(xué)**的方法來學(xué)**最佳同步策略，該策略用于Parameter Server-based distributed training of SGD。通過在PS設(shè)置中使用正式的同步策略，我們能夠得出狀態(tài)和動作的合適且緊湊的描述，從而使用標(biāo)準(zhǔn)的現(xiàn)成DQN算法。結(jié)果，我們能夠?qū)W**適用于不同集群環(huán)境，不同訓(xùn)練數(shù)據(jù)集和較小模型變化的同步策略，并且（最重要的是）與標(biāo)準(zhǔn)策略（如批量同步并行（BSP），異步并行（ASP）或陳舊的同步并行（SSP））相比，新模型大大減少了訓(xùn)練時間且學(xué)**到的策略普遍適用于多種unseen cases。 29.《Finding and Visualizing Weaknesses of Deep Reinforcement Learning Agents》關(guān)鍵詞：Visualization, SafetyHIGHLIGHT：我們生成經(jīng)過訓(xùn)練的RL算法的臨界狀態(tài)，以可視化潛在的缺陷。隨著由視覺感知驅(qū)動的深度強(qiáng)化學(xué)**變得越來越廣泛，我們越來越需要更好地理解和探究所學(xué)**的智能體。了解決策過程及其與視覺輸入的關(guān)系對于識別學(xué)**行為中的問題非常有價值。但是，這個話題在研究界相對未被充分研究。在這項(xiàng)工作中，我們提出了一種為受過訓(xùn)練的智能體合成感興趣的視覺輸入的方法。這樣的輸入或狀態(tài)可能是需要采取特定行動的情況。此外，能夠獲得非常高/低報(bào)酬的臨界狀態(tài)通常對于理解系統(tǒng)的態(tài)勢感知有幫助，因?yàn)樗鼈兛蓪?yīng)于危險狀態(tài)。為此，我們學(xué)**了環(huán)境狀態(tài)空間上的生成模型，并使用其潛在空間為目標(biāo)狀態(tài)優(yōu)化了目標(biāo)函數(shù)。實(shí)驗(yàn)中，我們證明了這種方法可為各種環(huán)境和強(qiáng)化學(xué)**方法提供insights。我們在標(biāo)準(zhǔn)的Atari基準(zhǔn)游戲以及自動駕駛模擬器中探索結(jié)果，發(fā)現(xiàn)新算法能夠加快識別行為缺陷的效率。我們相信這種通用方法可作為AI安全的重要工具。 30.《Option Discovery using Deep Skill Chaining 》關(guān)鍵詞：Hierarchical Reinforcement Learning, Skill Discovery, Deep LearningHIGHLIGHT：我們提出了一種新的層次強(qiáng)化學(xué)**算法，該算法比非層次智能體和其他最新的技能發(fā)現(xiàn)技術(shù)更可靠地解決了面向高維度目標(biāo)的任務(wù)。自主發(fā)現(xiàn)在時間上擴(kuò)展的動作或技能是分層強(qiáng)化學(xué)**的長期目標(biāo)。我們提出了一種將技能鏈與DNN相結(jié)合的新算法，以自主發(fā)現(xiàn)高維連續(xù)領(lǐng)域中的技能。最終的算法，即深層次的技能鏈，可通過執(zhí)行一種特性從而使智能體能夠執(zhí)行另一種特性來構(gòu)建技能。我們證明，在挑戰(zhàn)性的連續(xù)控制任務(wù)中，深度技能鏈顯著優(yōu)于非層次智能體和其他最新技能發(fā)現(xiàn)技術(shù)。代碼: https://github.com/deep-skill-chaining/deep-skill-chaining 31.《Dynamical Distance Learning for Semi-Supervised and Unsupervised Skill Discovery》關(guān)鍵詞：semi-supervised learning, unsupervised learning, robotics, deep learningHIGHLIGHT：我們展示了如何在強(qiáng)化學(xué)**環(huán)境中自動學(xué)**動態(tài)距離，并使用它們來提供形狀良好的獎勵函數(shù)，以實(shí)現(xiàn)新的目標(biāo)。強(qiáng)化學(xué)**需要手動指定獎勵函數(shù)才能學(xué)**任務(wù)。雖然原則上該獎勵函數(shù)僅需指定任務(wù)目標(biāo)，但在實(shí)踐中，強(qiáng)化學(xué)**可能非常耗時甚至不可行，除非獎勵函數(shù)的形狀能夠?yàn)槌晒Φ慕Y(jié)果提供一個平滑的梯度。我們很難手動指定此shaping，特別當(dāng)從原始觀察值（例如圖像）中學(xué)**任務(wù)時。在本文中，我們研究了如何自動學(xué)**動態(tài)距離：衡量從任何其他狀態(tài)到給定目標(biāo)狀態(tài)的預(yù)期時間步長的量度。這些動態(tài)距離可用于提供形狀良好的獎勵函數(shù)，以實(shí)現(xiàn)新的目標(biāo)，從而有可能有效地學(xué)**復(fù)雜任務(wù)。我們表明動態(tài)距離可以用于半監(jiān)督狀態(tài)，其中與環(huán)境的無監(jiān)督交互用于學(xué)**動態(tài)距離，而少量的偏好監(jiān)督用于確定任務(wù)目標(biāo)，而無需任何人工設(shè)計(jì)的獎勵函數(shù)或目標(biāo)示例。我們在真實(shí)世界的機(jī)器人和仿真中都評估了新方法。我們展示了新方法可以使用原始的有9個自由度的手來學(xué)**如何轉(zhuǎn)動閥門（使用原始圖像觀察結(jié)果和十個偏好標(biāo)簽，而無需任何其他監(jiān)督）。學(xué)**技能的視頻見： https://sites.google.com/view/dynamical-distance-learning 32.《Reinforced active learning for image segmentation》關(guān)鍵詞：semantic segmentation, active learningHIGHLIGHT：通過強(qiáng)化學(xué)**來學(xué)**標(biāo)簽策略，以減少語義分割任務(wù)的標(biāo)簽工作量�；趯W(xué)**的語義分割方法有兩個固有挑戰(zhàn)。首先，獲取element-wise的標(biāo)簽是昂貴和耗時的。第二，現(xiàn)實(shí)的分割數(shù)據(jù)集是高度不平衡的：一些類別比其他類別豐富得多，使性能偏向于最具代表性的類別。在本文中，我們感興趣的是將人類的標(biāo)簽工作集中在一個更大的數(shù)據(jù)池中的小子集上，最小化標(biāo)簽工作所需努力，同時最大化分割模型在保持hold-out set上的性能。我們提出了一種新的基于DRL的語義分割的主動學(xué)**策略。一個agent學(xué)**一個策略，從一個未標(biāo)記的數(shù)據(jù)池中選擇一個小的信息圖像區(qū)域子集–（與整個圖像相對）–進(jìn)行標(biāo)記。區(qū)域選擇決定是基于正在訓(xùn)練的分割模型的預(yù)測和不確定性做出的。新方法提出了一種新的主動學(xué)**的DQN公式的修改，使其適應(yīng)語義分割問題的大規(guī)模性質(zhì)。我們在CamVid中測試了概念證明，并在大規(guī)模數(shù)據(jù)集Cityscapes中提供了結(jié)果。在Cityscapes中，我們的RL region-based DQN方法比最有競爭力的基線所需的額外標(biāo)記數(shù)據(jù)少了大約30%而性能相同。此外，與基線相比，我們的方法詢問了更多代表性不足的類別的標(biāo)簽，提高了它們的性能，并有助于緩解類不平衡現(xiàn)象。 32.《CAQL: Continuous Action Q-Learning》關(guān)鍵詞：DQN, Continuous control, Mixed-Integer Programming (MIP)HIGHLIGHT：用于持續(xù)控制的基于價值的強(qiáng)化學(xué)**的一般框架�；趦r值的強(qiáng)化學(xué)**方法（如Q學(xué)**）已在各領(lǐng)域（如游戲和推薦系統(tǒng)）中取得了成功。當(dāng)動作空間有限時，這些算法通過學(xué)**最優(yōu)值函數(shù)隱式地找到策略，效果不錯。但是，擴(kuò)展Q學(xué)**以解決連續(xù)動作RL問題的一個主要挑戰(zhàn)是獲得最佳Bellman backup需要解決連續(xù)動作最大化（max-Q）問題。雖然為了簡化max-Q問題，通常限制Q函數(shù)的參數(shù)化關(guān)于動作是凹的，但這種限制可能會導(dǎo)致性能下降。而且，當(dāng)使用通用前饋神經(jīng)網(wǎng)絡(luò)（NN）對Q函數(shù)進(jìn)行參數(shù)化時，max-Q問題可能是NP-難問題。在這項(xiàng)工作中我們提出了CAQL方法，該方法使用Q學(xué)**和幾個即插即用的動作優(yōu)化器之一來最小化Bellman殘差。特別地，利用DNN中優(yōu)化理論的進(jìn)步，我們表明可以使用混合整數(shù)編程（MIP）來最佳解決max-Q問題-當(dāng)Q函數(shù)具有足夠的表示能力時，這種基于MIP的優(yōu)化誘導(dǎo)出更好的策略，并且比近似于max-Q解決方案的對等策略（如CEM或GA）更強(qiáng)大。為加快CAQL的培訓(xùn)，我們開發(fā)了三種技術(shù)（i）動態(tài)容差，（ii）雙重過濾和（iii）聚類。為加快CAQL的inference，我們引入了同時學(xué)**最優(yōu)策略的action function。為證明CAQL的有效性，我們將其與最新的RL算法在具有不同程度動作約束的基準(zhǔn)連續(xù)控制問題上進(jìn)行了比較，并表明CAQL在嚴(yán)重受限的環(huán)境中明顯優(yōu)于基于策略的方法。 33.《Learning Heuristics for Quantified Boolean Formulas through Reinforcement Learning》 (Poster)關(guān)鍵詞：Logic, QBF, Logical Reasoning, SAT, Graph, GNNHIGHLIGHT：我們使用RL在最新的QBF求解器中自動學(xué)**有關(guān)工業(yè)問題的分支啟發(fā)法。我們演示了如何通過深度強(qiáng)化學(xué)**為量化的布爾公式的自動推理算法學(xué)**有效的啟發(fā)式算法。我們專注于回溯搜索算法，該算法已經(jīng)可以解決令人印象深刻的多達(dá)數(shù)十萬變量的公式。主要挑戰(zhàn)是找到這些公式的表示形式，以使其可擴(kuò)展地進(jìn)行預(yù)測。對于一系列具有挑戰(zhàn)性的問題，我們學(xué)**了一種啟發(fā)式算法，與現(xiàn)有的手寫啟發(fā)式算法相比，它可以解決更多的公式。（PS：這篇在RL技巧上倒沒啥很亮的點(diǎn)，主要是把Quantified Boolean Formulas的自動推理轉(zhuǎn)化為MDP爾爾~） 34.《AMRL: Aggregated Memory For Reinforcement Learning》 (Poster)關(guān)鍵詞：deep learning, rl, memory, noise, machine learningHIGHLIGHT：在DRL中，可將order-invariant函數(shù)與標(biāo)準(zhǔn)存儲模塊結(jié)合使用，以改善梯度衰減和抗噪聲能力。在許多部分可觀察的方案中，RL智能體必須依靠長期記憶才能學(xué)**最佳策略。我們證明，由于來自環(huán)境和探索的隨機(jī)性，使用來自NLP的技術(shù)和監(jiān)督學(xué)**在RL任務(wù)上失敗了。利用我們對RL中傳統(tǒng)存儲方法局限性的見解，我們提出了AMRL，這是一類可以學(xué)**更好的策略、具有更高的采樣效率，并且對噪聲輸入具有彈性的模型。具體來說，我們的模型使用標(biāo)準(zhǔn)內(nèi)存模塊來總結(jié)短期context，然后從標(biāo)準(zhǔn)模型中匯總所有先前狀態(tài)，而不考慮順序。我們表明，這在梯度衰減和隨時間變化的信噪比方面均具有優(yōu)勢。我們在Minecraft和迷宮環(huán)境中進(jìn)行評估以測試長期記憶， 35.《CM3: Cooperative Multi-goal Multi-stage Multi-agent Reinforcement Learning》關(guān)鍵詞：multi-agent reinforcement learningHIGHLIGHT：一種用于完全協(xié)作的多目標(biāo)多智能體強(qiáng)化學(xué)**的模塊化方法，該方法基于課程學(xué)**，可進(jìn)行有效的探索并為行動目標(biāo)互動分配功勞。各種合作的多智能體控制問題都要求智能體在實(shí)現(xiàn)個人目標(biāo)的同時為集體的成功做出貢獻(xiàn)。這種多目標(biāo)多智能體的設(shè)置給最近的算法帶來了困難，這些算法主要針對單一全局獎勵的設(shè)置，它們面臨兩個新挑戰(zhàn)：為學(xué)**個人目標(biāo)的實(shí)現(xiàn)和為他人的成功而合作的高效探索，以及不同智能體的行動和目標(biāo)間的相互作用的信用分配。為解決這兩個挑戰(zhàn)，我們將問題重構(gòu)為一個新的兩階段課程，在學(xué)**多智能體合作之前，先學(xué)**單智能體目標(biāo)的實(shí)現(xiàn)，我們推導(dǎo)出一個新的多目標(biāo)多智能體策略梯度，并采用信用函數(shù)進(jìn)行局部信用分配。我們使用函數(shù)增強(qiáng)方案來銜接課程中的價值和策略函數(shù)。被稱為CM3的完整架構(gòu)在三個具有挑戰(zhàn)性的多目標(biāo)多智能體問題上的學(xué)**速度明顯快于現(xiàn)有算法的直接改編：困難隊(duì)形中的合作導(dǎo)航、SUMO交通模擬器中的多車道變化協(xié)商以及跳棋環(huán)境中的戰(zhàn)略合作。 36.《Toward Amortized Ranking-Critical Training For Collaborative Filtering》關(guān)鍵詞：Collaborative Filtering, Recommender Systems, Actor-Critic, Learned MetricsHIGHLIGHT：我們研究了基于actor-critic強(qiáng)化學(xué)**來訓(xùn)練協(xié)作過濾模型的新方法，以更直接地最大化基于排名的目標(biāo)函數(shù)且在各種潛變量模型中提高性能。具體來說，我們訓(xùn)練critic網(wǎng)絡(luò)以近似基于排名的指標(biāo)，然后更新actor網(wǎng)絡(luò)以針對學(xué)**的指標(biāo)直接進(jìn)行優(yōu)化。與傳統(tǒng)的學(xué)**排名方法需要重新運(yùn)行新列表的優(yōu)化程序相比，我們基于critic的方法使用神經(jīng)網(wǎng)絡(luò)攤分評分過程，并可直接提供新列表的（近似）排名分?jǐn)?shù)。我們證明了actor-critic能夠顯著改善各種預(yù)測模型的性能，并在三個大型數(shù)據(jù)集上達(dá)到與各種強(qiáng)基準(zhǔn)相比更好或可比的性能。代碼：https://github.com/samlobel/RaCT_CF 37.《Chameleon: Adaptive Code Optimization For Expedited Deep Neural Network Compilation》關(guān)鍵詞：Learning to Optimize, Compilers, Code Optimization, Neural Networks, ML for Systems, Learning for SystemsHIGHLIGHT：強(qiáng)化學(xué)**和自適應(yīng)采樣，可優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的編譯。以較短的編譯時間實(shí)現(xiàn)更快的執(zhí)行速度可促進(jìn)神經(jīng)網(wǎng)絡(luò)的進(jìn)一步多樣性和創(chuàng)新。但是，當(dāng)前執(zhí)行神經(jīng)網(wǎng)絡(luò)的范例依賴于手動優(yōu)化的庫，傳統(tǒng)的編譯啟發(fā)法或最近的遺傳算法和其他隨機(jī)方法。這些方法需要頻繁且昂貴的硬件測量，因而不僅十分耗時而且次優(yōu)。對此，我們設(shè)計(jì)了一種解決方案，它可以學(xué)**快速適應(yīng)以前看不到的設(shè)計(jì)空間進(jìn)行代碼優(yōu)化，既加快了搜索速度，又提高了輸出性能。這個被稱為Chameleon的方案使用了強(qiáng)化學(xué)**方法，方案收斂所需的步驟較少。Chameleon還開發(fā)了一種自適應(yīng)采樣算法，不僅關(guān)注代表性點(diǎn)上的昂貴樣本（真實(shí)的硬件測量），還使用領(lǐng)域知識啟發(fā)邏輯來改進(jìn)樣本本身。通過實(shí)際硬件的實(shí)驗(yàn)表明，Chameleon在優(yōu)化時間上比AutoTVM提速4.45倍，同時也將現(xiàn)代深度網(wǎng)絡(luò)的推理時間提高了5.6%。 38.《Graph Constrained Reinforcement Learning for Natural Language Action Spaces》(Poster)關(guān)鍵詞：natural language generation, knowledge graphs, interactive fictionHIGHLIGHT：我們介紹了KG-A2C，這是一種強(qiáng)化學(xué)**智能體，可以在使用template-based的動作空間進(jìn)行探索并生成自然語言的同時，構(gòu)建動態(tài)知識圖-在廣泛的基于文本的游戲中優(yōu)于所有當(dāng)前智能體。交互式小說游戲是基于文本的模擬，其中的智能體完全通過自然語言與世界互動。它們是研究如何擴(kuò)展強(qiáng)化學(xué)**智能體以滿足組合語言的較大的、基于文本的動作空間中自然語言理解，部分可觀察性和動作生成等挑戰(zhàn)的理想環(huán)境。我們介紹了KG-A2C，這是一種可在探索動態(tài)知識圖的同時使用template-based的動作空間生成動作的智能體。我們認(rèn)為，知識圖的雙重使用來推理游戲狀態(tài)并限制自然語言的生成是組合自然語言動作的可擴(kuò)展探索的關(guān)鍵。各種IF游戲的結(jié)果表明，盡管動作空間大小呈指數(shù)增長，KG-A2C的表現(xiàn)仍優(yōu)于目前的IF智能體。代碼：https://github.com/rajammanabrolu/KG-A2C 39.《Composing Task-Agnostic Policies with Deep Reinforcement Learning》關(guān)鍵詞：composition, transfer learningHIGHLIGHT：我們提出了一種新穎的基于強(qiáng)化學(xué)**的技能遷移和組合方法，該方法采用智能體的原始策略來解決原本未見的任務(wù)�；旌洗罱ɑ拘袨閴K以解決具有挑戰(zhàn)性的轉(zhuǎn)移學(xué)**問題是構(gòu)建智能機(jī)器的關(guān)鍵要素之一。。迄今為止，研究者在學(xué)**特定于任務(wù)的策略或技能方面已經(jīng)進(jìn)行了大量工作，但幾乎沒有集中精力撰寫與Task-Agnostic的必要技能以找到新問題的解決方案。在本文中，我們提出了一種新的基于深度強(qiáng)化學(xué)**的技能遷移和組合方法，該方法采用智能體的原始策略來解決原本未見的任務(wù)。我們在困難的情況下評估了新方法，在這些情況下，通過標(biāo)準(zhǔn)強(qiáng)化學(xué)**(RL)甚至是分層RL訓(xùn)練策略要么不可行，要么表現(xiàn)出高樣本復(fù)雜度。我們表明，新方法不僅能將技能遷移到新的問題環(huán)境中，而且還能以高數(shù)據(jù)效率解決需要任務(wù)規(guī)劃和運(yùn)動控制的挑戰(zhàn)性環(huán)境。代碼：https://drive.google.com/file/d/1pbF9vMy5E3NLdOE5Id5zqzKlUesgStym/view usp=sharing 40.《Single episode transfer for differing environmental dynamics in reinforcement learning》關(guān)鍵詞：transfer learningHIGHLIGHT：通過優(yōu)化探測以快速推斷潛變量并立即執(zhí)行通用策略，在具有相關(guān)動態(tài)環(huán)境系列中進(jìn)行單事件策略傳輸。遷移和適應(yīng)新的未知環(huán)境動態(tài)是強(qiáng)化學(xué)**的關(guān)鍵挑戰(zhàn)。更大的挑戰(zhàn)是在測試時間的一次嘗試中可能幾乎無法達(dá)到最佳效果，而可能無法獲得豐厚的回報(bào)，而當(dāng)前的方法卻無法解決這一問題，需要多次 experience rollouts才能適應(yīng)。為了在具有相關(guān)動力學(xué)的環(huán)境系列中實(shí)現(xiàn)Single episode，我們提出了一種通用算法，該算法可優(yōu)化探測器和推理模型，以快速估算測試動力學(xué)的潛在潛變量，然后將其立即用作通用控制策略的輸入。這種模塊化的方法可以集成最新的算法以用于variational inference或RL。而且，我們的方法不需要在測試時獲得獎勵，這使其能夠在現(xiàn)有自適應(yīng)方法無法實(shí)現(xiàn)的環(huán)境中執(zhí)行。在具有Single episode測試約束的不同實(shí)驗(yàn)領(lǐng)域中，我們的方法明顯優(yōu)于現(xiàn)有的自適應(yīng)方法，并且在魯棒傳輸?shù)幕A(chǔ)上表現(xiàn)出良好的性能。 41.《Model-Augmented Actor-Critic: Backpropagating through Paths》關(guān)鍵詞：model-based, actor-critic, pathwiseHIGHLIGHT：使用學(xué)**的模型和Q函數(shù)通過時間進(jìn)行反向傳播來實(shí)現(xiàn)策略梯度。當(dāng)前基于模型的強(qiáng)化學(xué)**方法只是將模型用作學(xué)**的黑匣子模擬器，以擴(kuò)充數(shù)據(jù)來進(jìn)行策略優(yōu)化或價值函數(shù)學(xué)**。在本文中，我們展示了如何通過利用模型的可微分性更有效地利用模型。我們構(gòu)造了一個使用學(xué)**的模型和策略在未來時間步長上的路徑導(dǎo)數(shù)的策略優(yōu)化算法。通過使用terminal價值函數(shù)，以actor-critic的方式學(xué)**策略，可以防止跨多個時間步驟學(xué)**的不穩(wěn)定性。此外，我們根據(jù)模型和值函數(shù)中的梯度誤差提出了對目標(biāo)的單調(diào)改進(jìn)的推導(dǎo)。我們證明，與基于模型的現(xiàn)有算法相比，我們的方法（i）始終具有更高的采樣效率，（ii）匹配無模型算法的漸近性能，并且（iii）擴(kuò)展到很長的horizons（在這種情況下，過去基于模型的方法通常會遇到困難）。 42.《Robust Reinforcement Learning for Continuous Control with Model Misspecification》關(guān)鍵詞：robustnessHIGHLIGHT：一種用于將魯棒性建模到連續(xù)控制強(qiáng)化學(xué)**算法中，以將錯誤規(guī)范建模的框架。我們提供了一個將魯棒性-過渡動態(tài)中的擾動（我們稱其為模型錯誤指定）納入連續(xù)控制強(qiáng)化學(xué)**（RL）算法的框架。我們特別專注于將魯棒性結(jié)合到最新的連續(xù)控制RL算法中，新算法被稱為最大后驗(yàn)策略優(yōu)化（MPO）。我們通過學(xué)**一種針對最壞情況進(jìn)行優(yōu)化的策略來實(shí)現(xiàn)這一目標(biāo)，新策略采用熵正則化的期望回報(bào)目標(biāo)并得出相應(yīng)的魯棒熵正則化Bellman壓縮算子。另外，我們引入了一個相對保守的，軟魯棒的，熵正則化目標(biāo)以及相應(yīng)的貝爾曼算子。實(shí)驗(yàn)結(jié)果顯示，在環(huán)境擾動下，魯棒和軟魯棒的策略在9個Mujoco域中的性能均優(yōu)于非魯棒的策略。此外，我們在具有挑戰(zhàn)性的，模擬的，靈巧機(jī)器人手上顯示出改進(jìn)的魯棒性能。視頻見 sites.google.com/view/r 。 43.《Black-box Off-policy Estimation for Infinite-Horizon Reinforcement Learning》關(guān)鍵詞：off-policy estimation, importance sampling, propensity scoreHIGHLIGHT：針對infinite-horizon RL中的off-policy估計(jì)問題，我們提出了一種新穎的方法。在許多現(xiàn)實(shí)應(yīng)用（如醫(yī)療保健和機(jī)器人技術(shù)）中，對long-horizon問題的off-policy估計(jì)很重要，在這些應(yīng)用中，我們可能無法使用高保真（high-fidelity）模擬器，對策略的評估是很昂貴或不可能的。最近，\citet{liu18breaking}提出了一種方法，避免了典型的基于重要性取樣的方法所遭受的horizon詛咒。雖然結(jié)果看起來promising，但此方法在實(shí)踐中是有限的，因?yàn)樗枰ㄟ^一個已知的行為策略來收集數(shù)據(jù)。在這項(xiàng)工作中，我們提出了消除此類限制的新穎方法。特別地，我們將問題的formulation化為求解“向后流動”算子的不動點(diǎn)，并表明不動點(diǎn)解給出了目標(biāo)策略和行為策略之間期望的平穩(wěn)分布的重要性比。我們分析其漸近一致性和有限樣本推廣�；鶞�(zhǔn)測試證明了我們提出的方法的有效性。 44.《Graph Convolutional Reinforcement Learning》關(guān)鍵詞：GCN，GNNHIGHLIGHT：在多智能體環(huán)境中，學(xué)**合作至關(guān)重要，其中的關(guān)鍵是要了解智能體之間的相互影響。但是，多智能體環(huán)境是高度動態(tài)的，智能體不斷移動，其鄰居快速變化。這使得學(xué)**智能體之間相互作用的抽象表示變得困難。為解決這些困難，我們提出了圖卷積強(qiáng)化學(xué)**，其中圖卷積適應(yīng)于多智能體環(huán)境的基礎(chǔ)圖的動力學(xué)，且關(guān)系內(nèi)核通過它們的關(guān)系表示來捕獲智能體間的相互作用。利用卷積層從逐漸增加的接受場中產(chǎn)生的潛在特征來學(xué)**合作，并且通過時間關(guān)系(temporal relation)正則化進(jìn)一步改進(jìn)合作以保持一致性。代碼：https://github.com/PKU-AI-Edge/DGN/ 45.《Thinking While Moving: Deep Reinforcement Learning with Concurrent Control》 (Poster)關(guān)鍵詞：continuous-time, roboticsHIGHLIGHT：強(qiáng)化學(xué)**的formulation允許智能體同時思考和采取行動，這在真實(shí)的機(jī)器人抓取中得到了證明。論文中的強(qiáng)化學(xué)**環(huán)境設(shè)置如下：智能體必須在受控系統(tǒng)的時間演變過程中同時從策略中采樣動作，例如機(jī)器人必須在上一個動作完成之前決定下一個動作（同時思考和移動）。為了開發(fā)針對此類并發(fā)控制問題的算法框架，我們從Bellman方程的連續(xù)時間公式化開始，然后以意識到系統(tǒng)延遲的方式離散化它們。我們通過對現(xiàn)有基于值的DRL算法的簡單體系結(jié)構(gòu)擴(kuò)展，實(shí)例化此類新的近似動態(tài)編程方法。 46.《Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement Learning》關(guān)鍵詞：evolutionary learning, curriculum learningHIGHLIGHT：在多智能體游戲中，環(huán)境的復(fù)雜性會隨著智能體數(shù)量的增加而呈指數(shù)增長，因此，當(dāng)智能體數(shù)眾多時，學(xué)**良好的策略尤其具有挑戰(zhàn)性。在本文中，我們介紹了進(jìn)化人口課程（EPC），這是一種課程學(xué)**范例，它通過逐步增加訓(xùn)練智能體的數(shù)量來擴(kuò)展多智能體強(qiáng)化學(xué)**（MARL）。此外，EPC使用進(jìn)化方法來解決整個課程中的客觀失調(diào)問題：在早期以少量人口成功訓(xùn)練的智能體不一定是適應(yīng)后期人口規(guī)模擴(kuò)大的最佳人選。具體來說，EPC在每個階段都會維護(hù)多組智能體，在這些集合上執(zhí)行混合匹配和微調(diào)，并以最佳適應(yīng)性提升智能體到下一階段。我們在一種流行的MARL算法MADDPG上實(shí)現(xiàn)了EPC，并通過經(jīng)驗(yàn)證明，隨著智能體數(shù)量呈指數(shù)增長，我們的方法始終在性能上始終優(yōu)于基線。源代碼和視頻見https://sites.google.com/view/epciclr2020 。代碼：https://github.com/qian18long/epciclr2020 47.《A Simple Randomization Technique for Generalization in Deep Reinforcement Learning》關(guān)鍵詞：Generalization in visual domainsHIGHLIGHT：我們提出了一種簡單的隨機(jī)化技術(shù)，用于改善具有各種未曾見過的視覺模式的任務(wù)的深度強(qiáng)化學(xué)**的泛化。DRL智能體通常無法推廣到未曾見過的環(huán)境，尤其當(dāng)它們在高維狀態(tài)空間（如圖像）上進(jìn)行訓(xùn)練時。在本文中，我們提出了一種可通過引入隨機(jī)擾亂輸入觀測值的隨機(jī)（卷積）神經(jīng)網(wǎng)絡(luò)來提高深層RL智能體泛化能力的簡單技術(shù)。通過跨變化和隨機(jī)環(huán)境中的learning robust features invariant，新算法使受過訓(xùn)練的智能體能夠適應(yīng)新領(lǐng)域。此外，我們考慮了一種基于蒙特卡洛近似的推理方法，以減少由該隨機(jī)化引起的方差。我們展示了新方法在2D CoinRun，3D DeepMind Lab探索和3D機(jī)器人控制任務(wù)中的優(yōu)越性：新算法明顯優(yōu)于各種正則化和數(shù)據(jù)增強(qiáng)方法。代碼：https://github.com/pokaxpoka/netrand 48.《Reinforced Genetic Algorithm Learning for Optimizing Computation Graphs》關(guān)鍵詞：learning to optimize, combinatorial optimization, computation graphs, model parallelism, learning for systemsHIGHLIGHT：我們使用DRL來學(xué)**指導(dǎo)遺傳算法搜索的策略，以更好地優(yōu)化計(jì)算圖的執(zhí)行成本，并在實(shí)際的TensorFlow圖上顯示改進(jìn)的結(jié)果。我們提出了一種深度強(qiáng)化學(xué)**方法，以最小化優(yōu)化編譯器中神經(jīng)網(wǎng)絡(luò)計(jì)算圖的執(zhí)行成本。與早期的基于學(xué)**的工作需要在同一圖上對優(yōu)化器進(jìn)行訓(xùn)練以進(jìn)行優(yōu)化不同，我們提出了一種學(xué)**方法，該方法離線訓(xùn)練優(yōu)化器，然后將其推廣到以前看不見的圖，而無需進(jìn)一步訓(xùn)練。這使我們的方法可以在幾秒鐘（而不是幾小時）內(nèi)在現(xiàn)實(shí)世界的TensorFlow圖上產(chǎn)生高質(zhì)量的決策。我們?yōu)橛?jì)算圖考慮兩個優(yōu)化任務(wù)：最小化運(yùn)行時間和峰值內(nèi)存使用。在這兩個任務(wù)上，我們的方法比經(jīng)典方法和其他基于學(xué)**的方法取得了顯著改進(jìn)。 49.《Projection Based Constrained Policy Optimization》關(guān)鍵詞：Safe reinforcement learning、constrained RLHIGHLIGHT：我們提出了一種可以學(xué)**滿足約束條件的策略，并在有約束條件的強(qiáng)化學(xué)**背景下提供理論分析和經(jīng)驗(yàn)證明的新算法。我們考慮了學(xué)**控制策略的問題，這些策略在優(yōu)化獎勵函數(shù)的同時，需要滿足關(guān)于安全、公平或其他成本的約束。我們提出了一種新算法–基于投影的約束策略優(yōu)化（PCPO），這是一種在兩步過程中優(yōu)化策略的迭代方法–第一步執(zhí)行無約束更新，第二步通過將策略投射回約束集上來調(diào)節(jié)違反約束的情況。我們從理論上分析了PCPO，并為每次策略更新提供了獎勵改進(jìn)的下限以及約束違反的上限。我們進(jìn)一步基于兩個不同的指標(biāo)–L2 norm和Kullback-Leibler pergence–來描述PCPO與投影的收斂性。在幾個控制任務(wù)上的經(jīng)驗(yàn)結(jié)果表明，我們的算法實(shí)現(xiàn)了卓越的性能，與最先進(jìn)的方法相比，新算法平均減少了3.5倍以上的約束違反，并提高了約15%的獎勵。代碼：https://sites.google.com/view/iclr2020-pcpo 50.《Infinite-Horizon Differentiable Model Predictive Control》關(guān)鍵詞：Model Predictive Control, Riccati Equation, Imitation Learning, Safe LearningHIGHLIGHT：本文提出了一種可微分的線性二次模型預(yù)測控制（MPC）框架，用于安全模仿學(xué)**。利用從離散時間代數(shù)Riccati方程(DARE)中得到的終端成本函數(shù)來強(qiáng)制執(zhí)行Infinite-Horizon成本，從而可證明學(xué)**的控制器在閉環(huán)中是穩(wěn)定的。論文的核心貢獻(xiàn)之一是推導(dǎo)了DARE解的解析導(dǎo)數(shù)，從而允許使用基于微分的學(xué)**方法。另一個貢獻(xiàn)是MPC優(yōu)化問題的結(jié)構(gòu)：1.增強(qiáng)的拉格朗日方法確保MPC優(yōu)化在整個訓(xùn)練過程中是可行的，同時對狀態(tài)和輸入進(jìn)行硬約束，2.預(yù)穩(wěn)定化控制器確保MPC解和導(dǎo)數(shù)在每次迭代中都是準(zhǔn)確的。該框架的學(xué)**能力在一組數(shù)值研究中得到了證明。 51.《Toward Evaluating Robustness of Deep Reinforcement Learning with Continuous Control》關(guān)鍵詞：deep learning, robustness, adversarial examplesHIGHLIGHT：我們研究具有對抗性攻擊的DRL中的連續(xù)控制智能體問題，并基于學(xué)**的模型動力學(xué)提出了兩步算法。DRL在許多以前困難的強(qiáng)化學(xué)**任務(wù)中取得了巨大成功，但最近的研究表明，類似于分類任務(wù)中的DNN，DRL智能體也不可避免地容易受到對抗性干擾。先前工作主要集中在無模型的對抗攻擊和具有離散動作的智能體上。在這項(xiàng)工作中，我們研究了具有對抗性攻擊的DRL中的連續(xù)控制智能體問題，并基于學(xué)**的模型動力學(xué)提出了第一個兩步算法。在各種MuJoCo域（Cartpole，F(xiàn)ish，Walker，Humanoid）上進(jìn)行的大量實(shí)驗(yàn)表明，我們提出的框架在降低智能體性能以及將智能體驅(qū)動到不安全狀態(tài)方面比基于無模型的攻擊基準(zhǔn)要有效得多。 52.《Meta-learning curiosity algorithms》關(guān)鍵詞：meta-learning, exploration, curiosityHIGHLIGHT：通過搜索 a rich space of programs，元學(xué)**好奇心算法激發(fā)了很多新穎的設(shè)計(jì)，這些設(shè)計(jì)可以在非常不同的強(qiáng)化學(xué)**領(lǐng)域中通用。我們假設(shè)好奇心是一種由進(jìn)化發(fā)現(xiàn)的機(jī)制，它鼓勵智能體在其生命早期進(jìn)行有意義的探索，以使其在一生中獲得高回報(bào)的經(jīng)驗(yàn)。我們將產(chǎn)生好奇行為的問題表述為元學(xué)**的問題：外循環(huán)將在好奇機(jī)制的空間上搜索，動態(tài)調(diào)整智能體的獎勵信號，內(nèi)循環(huán)將使用調(diào)整后的獎勵信號進(jìn)行標(biāo)準(zhǔn)的強(qiáng)化學(xué)**。然而，目前基于遷移神經(jīng)網(wǎng)絡(luò)權(quán)重的元RL方法只在非常相似的任務(wù)之間進(jìn)行了泛化。為了擴(kuò)大泛化范圍，我們提出元學(xué)**算法：類似于人類在ML論文中設(shè)計(jì)的代碼片段，我們豐富的程序語言將神經(jīng)網(wǎng)絡(luò)與緩沖器、最近鄰模塊和自定義損失函數(shù)等其他構(gòu)件相結(jié)合。我們以實(shí)證的方式證明了這種方法的有效性，并發(fā)現(xiàn)了兩種新型的好奇心算法，它們的性能與人類設(shè)計(jì)的已發(fā)表的好奇心算法相當(dāng)或更好（實(shí)驗(yàn)：grid navigation with image inputs, acrobot, lunar lander, ant and hopper）。代碼：https://github.com/mfranzs/meta-learning-curiosity-algorithms 53.《Keep Doing What Worked: Behavior Modelling Priors for Offline Reinforcement Learning》關(guān)鍵詞：Off-policy, Multitask, Continuous ControlHIGHLIGHT：我們開發(fā)了一種從記錄的數(shù)據(jù)中進(jìn)行穩(wěn)定的offline強(qiáng)化學(xué)**的方法。關(guān)鍵是針對學(xué)**到的數(shù)據(jù)的“優(yōu)勢加權(quán)”數(shù)據(jù)模型規(guī)范RL策略。Off-policy強(qiáng)化學(xué)**算法有望適用于只有固定的環(huán)境交互數(shù)據(jù)集(batch)且無法獲得新經(jīng)驗(yàn)的環(huán)境中。這一特性使得這些算法對機(jī)器人控制等現(xiàn)實(shí)世界問題很有吸引力。然而，在實(shí)踐中，標(biāo)準(zhǔn)的Off-policy算法在連續(xù)控制的批處理環(huán)境中是失敗的。在本文中，我們提出了一個簡單算法來解決這個問題。它允許使用由任意行為策略產(chǎn)生的數(shù)據(jù)，并使用學(xué)**到的先驗(yàn)–優(yōu)勢加權(quán)行為模型(ABM)–將RL策略偏向于以前已經(jīng)執(zhí)行過的、有可能在新任務(wù)上成功的動作。我們的方法可被看作是最近批處理RL工作的擴(kuò)展，它可從沖突的數(shù)據(jù)源中進(jìn)行穩(wěn)定的學(xué)**。實(shí)驗(yàn)涉及了真實(shí)世界機(jī)器人的多任務(wù)學(xué)**。 54.《Model-based reinforcement learning for biological sequence design》關(guān)鍵詞：blackbox optimization, molecule designHIGHLIGHT：我們通過序列級智能體獎勵函數(shù)和基于計(jì)數(shù)的visitation bonus來增強(qiáng)無模型策略學(xué)**，并證明在設(shè)計(jì)DNA和蛋白質(zhì)序列時可看到的大批量，low-round的有效性。設(shè)計(jì)生物結(jié)構(gòu)（如DNA或蛋白質(zhì)）涉及一個具有挑戰(zhàn)性的黑箱優(yōu)化問題，其特征是由于需要進(jìn)行勞動密集型的wet lab評估，因此批次大+low-round。對此，我們建議使用基于近端策略優(yōu)化（PPO）的強(qiáng)化學(xué)**（RL）進(jìn)行生物序列設(shè)計(jì)。RL為優(yōu)化生成序列模型提供了靈活框架，以實(shí)現(xiàn)特定的標(biāo)準(zhǔn)，例如被挖掘的的高質(zhì)量序列之間的多樣性。我們提出了一種基于模型的PPO變體DyNA-PPO以提高樣品效率，算法使用適合先前回合functional measurements的模擬器離線訓(xùn)練新回合的策略。為適應(yīng)越來越多的跨輪次觀察，算法在每個輪次中從容量不同的多種模型中自動選擇模擬器模型。在設(shè)計(jì)DNA轉(zhuǎn)錄因子結(jié)合位點(diǎn)，設(shè)計(jì)抗微生物蛋白質(zhì)以及基于蛋白質(zhì)結(jié)構(gòu)優(yōu)化Ising模型的能量的任務(wù)上，我們發(fā)現(xiàn)DyNA-PPO在可行的建模環(huán)境中的性能明顯優(yōu)于現(xiàn)有方法，且在無法學(xué)**可靠模型的情況下，效果并沒有更差。 55.《Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies》關(guān)鍵詞：Meta reinforcement learning, subtask graphHIGHLIGHT：一種新穎的meta-RL方法，可以推斷潛在的子任務(wù)結(jié)構(gòu)我們提出并解決了一個新穎的few-shot RL問題，其中任務(wù)以子任務(wù)圖為特征，該子任務(wù)圖描述了智能體未知的一組子任務(wù)及其依賴性。智能體需要在適應(yīng)階段的幾個情節(jié)中快速適應(yīng)任務(wù)，以使測試階段的收益最大化。我們沒有直接學(xué)**元策略，而是開發(fā)了帶有子任務(wù)圖推理（MSGI）的元學(xué)**器，該子學(xué)**器通過與環(huán)境交互來推斷任務(wù)的潛在參數(shù)，并在給定潛在參數(shù)的情況下最大化回報(bào)。為促進(jìn)學(xué)**，我們采用了固有的獎勵方式，該獎勵方式受到鼓勵有效探索的上限置信度（UCB）的啟發(fā)。我們在兩個grid-world域和StarCraft II環(huán)境上的實(shí)驗(yàn)結(jié)果表明，新方法能夠準(zhǔn)確推斷潛在任務(wù)參數(shù)， 56.《Never Give Up: Learning Directed Exploration Strategies》關(guān)鍵詞：exploration, intrinsic motivationHIGHLIGHT：我們提出了一種強(qiáng)化學(xué)**智能體，通過學(xué)**一系列的定向探索性策略來解決困難的探索游戲。我們構(gòu)建了一個基于偶發(fā)性記憶的內(nèi)在獎勵，使用k-最近鄰對智能體的最近經(jīng)驗(yàn)進(jìn)行訓(xùn)練定向探索性策略，從而鼓勵智能體反復(fù)重訪其環(huán)境中的所有狀態(tài)。采用自監(jiān)督的逆動力學(xué)模型來訓(xùn)練最近鄰查找的嵌入，將新奇信號偏向于智能體可以控制的方向。我們采用通用價值函數(shù)逼近器的框架，用同一神經(jīng)網(wǎng)絡(luò)同時學(xué)**許多定向探索策略，在探索和利用之間進(jìn)行不同的權(quán)衡。通過對不同程度的探索/利用使用相同的神經(jīng)網(wǎng)絡(luò)，證明了從主要的探索性策略轉(zhuǎn)移到有效的利用性策略。新方法可以與現(xiàn)代分布式RL智能體一起運(yùn)行，這些智能體可以從在不同環(huán)境實(shí)例上并行運(yùn)行的許多actors那里收集大量經(jīng)驗(yàn)。我們的方法在Atari-57 suite中的所有困難探索中的性能是基礎(chǔ)智能體的兩倍，同時在其余游戲中保持了非常高的分?jǐn)?shù)。值得注意的是，新方法是第一個在不使用demonstrations 或手工制作的特征的情況下，在《Pitfall！》游戲中實(shí)現(xiàn)非零獎勵的算法（平均分?jǐn)?shù)為8400分）。 57.《Discriminative Particle Filter Reinforcement Learning for Complex Partial observations》關(guān)鍵詞：Partial Observability, Differentiable Particle FilteringHIGHLIGHT：我們引入了DPFRL，這是一個通過重要性加權(quán)粒子濾波器在部分和復(fù)雜觀測下進(jìn)行強(qiáng)化學(xué)**的框架。DRL在諸如Atari，Go等復(fù)雜游戲的決策中是成功的。但是，現(xiàn)實(shí)世界中的決策通常需要推理，并從復(fù)雜的視覺觀察中提取部分信息。本文介紹了判別式粒子濾波強(qiáng)化學(xué)**（DPFRL），這是一種用于復(fù)雜局部觀測的新型強(qiáng)化學(xué)**框架。DPFRL對神經(jīng)網(wǎng)絡(luò)策略中的可微分粒子濾波器進(jìn)行編碼，以進(jìn)行顯式推理，并隨時間進(jìn)行部分觀測。粒子濾波器使用學(xué)**的判別式更新來維持信念，該判別式更新經(jīng)過端到端的訓(xùn)練以用于決策。實(shí)驗(yàn)表明，使用可微分更新而不是標(biāo)準(zhǔn)生成模型可以顯著提高性能，尤其對于具有復(fù)雜視覺觀察的任務(wù)，因?yàn)樗鼈儽苊饬私Ｅc決策無關(guān)的復(fù)雜觀測的困難。另外，為了從粒子信念中提取特征，我們基于矩生成函數(shù)提出了一種新型的信念特征。在現(xiàn)有的POMDP RL基準(zhǔn)測試《Natural Flickering Atari》游戲中，DPFRL優(yōu)于最新的POMDP RL模型；此外，DPFRL在Habitat環(huán)境中使用真實(shí)數(shù)據(jù)進(jìn)行視覺導(dǎo)航時表現(xiàn)出色。 58.《Episodic Reinforcement Learning with Associative Memory》關(guān)鍵詞：Episodic Control, Episodic Memory, Associative Memory, Non-Parametric Method, Sample EfficiencyHIGHLIGHT：樣本效率一直是深度強(qiáng)化學(xué)**的主要挑戰(zhàn)之一。研究者已提出非參數(shù) episodic control，通過快速鎖定先前成功的策略來加速參數(shù)強(qiáng)化學(xué)**。但是，以前的episodic強(qiáng)化學(xué)**工作忽略了狀態(tài)之間的關(guān)系，僅將經(jīng)驗(yàn)存儲為不相關(guān)的項(xiàng)。為提高強(qiáng)化學(xué)**的樣本效率，我們提出了一個新穎的框架——帶有聯(lián)想記憶的episodic強(qiáng)化學(xué)**（ERLAM），該框架將相關(guān)的經(jīng)驗(yàn)軌跡關(guān)聯(lián)起來，以支持推理有效的策略。我們基于狀態(tài)轉(zhuǎn)換在內(nèi)存中的狀態(tài)之上構(gòu)建圖形，并開發(fā)反向軌跡傳播策略以允許值通過圖形快速傳播。我們使用非參數(shù)聯(lián)想記憶作為參數(shù)強(qiáng)化學(xué)**模型的早期指導(dǎo)。Navigation domain和Atari游戲的結(jié)果表明，與最新的帶有聯(lián)想記憶的episodic強(qiáng)化學(xué)**模型相比，我們的框架實(shí)現(xiàn)了更高的樣本效率。 59.《Sub-policy Adaptation for Hierarchical Reinforcement Learning》關(guān)鍵詞：Hierarchical Reinforcement Learning, Transfer, Skill DiscoveryHIGHLIGHT：我們提出了HiPPO，這是一種穩(wěn)定的分層強(qiáng)化學(xué)**算法，可以同時訓(xùn)練多個層次的層次結(jié)構(gòu)，從而在技能發(fā)現(xiàn)和適應(yīng)方面均具有良好的表現(xiàn)。分層強(qiáng)化學(xué)**是解決稀疏獎勵的長期決策問題的一種有前途的方法。不幸的是，大多數(shù)方法仍然使較低級別的技能獲取過程與控制新任務(wù)中技能的較高級別的訓(xùn)練脫鉤。保持技能固定會導(dǎo)致轉(zhuǎn)移設(shè)置中出現(xiàn)明顯的次優(yōu)狀態(tài)。在這項(xiàng)工作中，我們提出了一種即使在接受新任務(wù)訓(xùn)練時也可不斷將其與更高的水平相適應(yīng)的發(fā)現(xiàn)一組技能的新穎算法。主要貢獻(xiàn)：首先，我們推導(dǎo)了一個新的潛在依賴基線的無偏分層策略梯度，并引入了分層近端策略優(yōu)化（HiPPO），這是一種有效聯(lián)合訓(xùn)練分層結(jié)構(gòu)各個級別的基于策略的方法。第二，我們提出了一種訓(xùn)練time-abstractions的方法，可以提高所獲技能對環(huán)境變化的魯棒性。代碼和視頻在 https://sites.google.com/view/hippo-rl 。代碼：https://anonymous.4open.science/r/de105a6d-8f8b-405e-b90a-54ab74adcb17/本文目的在于學(xué)術(shù)交流，并不代表本公眾號贊同其觀點(diǎn)或?qū)ζ鋬?nèi)容真實(shí)性負(fù)責(zé)，版權(quán)歸原作者所有，如有侵權(quán)請告知刪除。

責(zé)任編輯：德勤鋼鐵網(wǎng) 標(biāo)簽：

iclr2021 openreview，iclr open review

chanong

“若聽運(yùn)河清澈，流水之源便現(xiàn)�！睂W(xué)**前沿領(lǐng)域知識、從其他研究領(lǐng)域獲得靈感、更清晰地理解研究問題的本質(zhì)是取之不盡、用之不竭的資源。信息來源。自我完善。為此，我們特意精選文章閱讀筆記，幫助您廣泛深入地閱讀科研文獻(xiàn)，打造“活水之源”專欄，敬請關(guān)注。

作者：Mochen-Fan Hanchie

地址：https://www.zhihu.com/people/huang-han-chi-15

https://medium.com/@iclr_conf/ourhatata-the-reviewing-process-and-research-shaping-iclr-in-2020-ea9e53eb4c46 這是包含非強(qiáng)化學(xué)**論文的詞云圖

采樣效率/估計(jì)、基于模型、離策略、課程學(xué)**、安全/約束學(xué)**

02 ICLR 202 強(qiáng)化學(xué)**Top 10 論文

https://analyticsindiamag.com/top-10-reinforcement-learning-papers-from-iclr-2020/

1| 圖卷積強(qiáng)化學(xué)**

2| 衡量強(qiáng)化學(xué)**算法的可靠性

3| 強(qiáng)化學(xué)**行為套件

4| 現(xiàn)實(shí)世界機(jī)器人強(qiáng)化學(xué)**的要素

5| 網(wǎng)絡(luò)隨機(jī)化：深度強(qiáng)化學(xué)**中泛化的簡單技術(shù)

6| 關(guān)于神經(jīng)機(jī)器翻譯強(qiáng)化學(xué)**的弱點(diǎn)

7| 基于強(qiáng)化學(xué)**的圖序列模型，用于自然問題生成

8| 對抗性策略：對深度強(qiáng)化學(xué)**的攻擊

9| 使用強(qiáng)化學(xué)**發(fā)現(xiàn)因果關(guān)系

10| Atari 基于模型的強(qiáng)化學(xué)**

合到不同的觀察空間時，即使底層的MDP動態(tài)是固定的，我們?nèi)苑Q之為觀察過度擬合。我們的實(shí)驗(yàn)揭示了一些有趣屬性（尤其在隱式正則化方面），并證實(shí)了以前在RL泛化和監(jiān)督學(xué)**（SL）中的工作結(jié)果。 20.《Multi-agent Reinforcement Learning for Networked System Control》關(guān)鍵詞：multi-agent reinforcement learning, decision and controlHIGHLIGHT：本文針對網(wǎng)絡(luò)化多智能體控制問題提出了新提法和新的通信協(xié)議。本文考慮了網(wǎng)絡(luò)系統(tǒng)控制中的多智能體強(qiáng)化學(xué)**（MARL）。具體來說，每個智能體都基于本地觀察和來自相鄰鄰居的消息來學(xué)**分散控制策略。我們將這種網(wǎng)絡(luò)化的MARL（NMARL）問題公式化為時空馬爾可夫決策過程，并引入空間折扣因子來穩(wěn)定每個本地Agent的訓(xùn)練。此外，我們提出了一種新的可微分通信協(xié)議，稱為NeurComm，以減少NMARL中的信息丟失和非平穩(wěn)性。在實(shí)際的NMARL自適應(yīng)交通信號控制和協(xié)同自適應(yīng)巡航控制場景下的實(shí)驗(yàn)基礎(chǔ)上，適當(dāng)?shù)目臻g折現(xiàn)因子可以有效地增強(qiáng)非通信MARL算法的學(xué)**曲線，代碼：https://github.com/cts198859/deeprl_network 21.《Learning the Arrow of Time for Problems in Reinforcement Learning》關(guān)鍵詞：Arrow of Time, AI-SafetyHIGHLIGHT：我們研究了MDP的Arrow of Time，用它來衡量可及性，檢測副作用并獲得好奇心獎勵信號。人類對時間的不對稱發(fā)展有著天生的理解，我們可用它來高效、安全地感知和操縱環(huán)境。受此啟發(fā)，我們解決了在馬爾可夫（決策）過程中學(xué)**Arrow of Time的問題。我們將說明學(xué)**的Arrow of Time如何捕獲有關(guān)環(huán)境的重要信息，這些信息又可以用于衡量可達(dá)性，檢測副作用并獲得內(nèi)在的獎勵信號。最后，我們提出一種簡單有效的算法來參數(shù)化當(dāng)前問題，并使用函數(shù)逼近器（此處為深度神經(jīng)網(wǎng)絡(luò)）學(xué)**Arrow of Time。我們的經(jīng)驗(yàn)結(jié)果涵蓋了離散和連續(xù)環(huán)境的選擇，代碼： https://www.sendspace.com/file/0mx0en 22.《Reinforcement Learning with Competitive Ensembles of Information-Constrained Primitives》關(guān)鍵詞：Variational Information Bottleneck, Learning primitivesHIGHLIGHT：學(xué)**隱式的主策略，因?yàn)镠RL中的主策略可能無法推廣。與許多當(dāng)前的分層強(qiáng)化學(xué)**方法相反，作者提出了一種學(xué)**低級策略的去中心化方法，這些低級策略自己決定是否在當(dāng)前狀態(tài)下行動，而不是由一個中心化的更高級別的元策略在低級策略之間進(jìn)行選擇。分層強(qiáng)化學(xué)**將策略分解為較低級別的原語或option，以及將較高級別的元策略分解為針對給定情況觸發(fā)適當(dāng)行為的策略。但是，元策略仍必須在所有狀態(tài)中做出適當(dāng)?shù)臎Q定。在這項(xiàng)工作中，我們提出了一種可分解為不同原語但沒有高級元策略的策略設(shè)計(jì)。每個原語可自己決定是否希望在當(dāng)前狀態(tài)下執(zhí)行操作。我們使用信息理論機(jī)制來實(shí)現(xiàn)此分散決策：每個原語都會選擇需要多少有關(guān)當(dāng)前狀態(tài)的信息來做出決定，一般來說原語會希望請求有關(guān)當(dāng)前狀態(tài)的最多信息。但比較信息有限嘛，有時我們需要對原語進(jìn)行regularization以使用盡可能少的信息，這會導(dǎo)致自然競爭和專業(yè)化。我們通過實(shí)驗(yàn)證明，新的策略體系結(jié)構(gòu)在泛化方面比flat策略和分層策略都有所改進(jìn)。 23.《Exploration in Reinforcement Learning with Deep Covering Options》（poster）關(guān)鍵詞：temporal abstraction, explorationHIGHLIGHT：我們介紹了一種可自動發(fā)現(xiàn)task-agnostic options，從而鼓勵強(qiáng)化學(xué)**中的探索的方法。目前加速強(qiáng)化學(xué)**中的探索的方法常常是啟發(fā)式的。近年來，研究者提出了covering options以發(fā)現(xiàn)一組可證明地減少環(huán)境覆蓋時間上限的options，這是探索難度的一種度量。Covering options是使用圖拉普拉斯圖的特征向量計(jì)算的，但它們受制于表格任務(wù)，不適用于具有較大或連續(xù)狀態(tài)空間的任務(wù)。對此，我們介紹了deep covering options，這是一種在線方法，可將覆蓋范圍擴(kuò)展到大型狀態(tài)空間，自動發(fā)現(xiàn)task-agnostic options以鼓勵探索。 24.《Logic and the 2-Simplicial Transformer》（poster）關(guān)鍵詞：transformer, logic, reasoningHIGHLIGHT：我們介紹了2-simplicial Transformer，它是Transformer的擴(kuò)展，包括了一種泛化點(diǎn)積注意力的高維注意力形式，并使用這種注意力來更新實(shí)體表征與價值向量的張量積。我們表明，這種架構(gòu)是深度強(qiáng)化學(xué)**背景下邏輯推理的一個有用的歸納偏向。Review：本文擴(kuò)展了Transformer，實(shí)現(xiàn)了高維注意機(jī)制，將點(diǎn)積注意推廣了。Reviewer3認(rèn)為，將注意機(jī)制從二階關(guān)系擴(kuò)展到三階關(guān)系是一個重要的提升，mathematical context具有洞察力，且可能導(dǎo)致進(jìn)一步的潛在發(fā)展。代碼：https://github.com/dmurfet/2simplicialtransformer 25.《Watch, Try, Learn: Meta-Learning from Demonstrations and Rewards》關(guān)鍵詞：meta-learning, imitation learningHIGHLIGHT：本文提出了一種元學(xué)**方法，該方法可以從Demonstrations和后續(xù)的RL任務(wù)中學(xué)**。模仿學(xué)**使智能體可從演示中學(xué)**復(fù)雜的行為。但是，學(xué)**基于視覺的復(fù)雜任務(wù)可能需要不切實(shí)際的Demonstrations。元模仿學(xué)**是一種有前途的方法，它可使智能體通過利用學(xué)**類似任務(wù)的經(jīng)驗(yàn)，從一個或幾個Demonstrations中學(xué)**新任務(wù)。在任務(wù)模棱兩可或觀察不到動態(tài)的情況下，僅憑Demonstrations可能無法提供足夠的信息。智能體還必須嘗試執(zhí)行任務(wù)以成功推斷策略。在這項(xiàng)工作中，我們提出了一種可以從Demonstrations和反復(fù)試驗(yàn)的經(jīng)驗(yàn)中學(xué)**并具有稀疏獎勵反饋的方法。與元模仿相比，此方法使智能體能有效improve itself autonomously beyond the demonstration data。與元強(qiáng)化學(xué)**相比，由于Demonstrations減輕了探索負(fù)擔(dān)，因此我們可以擴(kuò)展到更廣泛的任務(wù)分配。實(shí)驗(yàn)表明，在一系列具有挑戰(zhàn)性的基于視覺的控制任務(wù)上，我們的方法明顯優(yōu)于以前的方法。代碼：https://drive.google.com/open id=1f1LzO0fe1m-kINY8DTgL6JGimVGiQOuz 26.《Adversarial Policies: Attacking Deep Reinforcement Learning》關(guān)鍵詞：adversarial examples, security, multi-agentHIGHLIGHT：DRL策略可能會受到其他智能體采取行動以創(chuàng)建具有對抗性的自然觀察的攻擊。眾所周知，DRL策略容易受到其觀測值的對抗性擾動，類似于分類器的對抗性例子。然而，攻擊者通常無法直接修改另一個智能體的觀測值。這可能會導(dǎo)致人們懷疑：是否有可能僅僅通過選擇一個在多智能體環(huán)境中作用的對抗性策略來攻擊一個RL智能體，從而創(chuàng)造出對抗性的自然觀測值？我們證明了在具有本體觀測的模擬人形機(jī)器人之間的零和游戲中存在對抗性策略，它用于對抗通過自我游戲訓(xùn)練成的最先進(jìn)受害者，使其對對手具有魯棒性。對抗性策略可靠地贏了受害者，但產(chǎn)生了看似隨機(jī)和不協(xié)調(diào)的行為。我們發(fā)現(xiàn)，這些策略在高維環(huán)境中更成功，并在受害者策略網(wǎng)絡(luò)中誘導(dǎo)出與受害者和普通對手對弈時實(shí)質(zhì)不同的激活。視頻見adversarialpolicies.github.io 。代碼：https://github.com/humancompatibleai/adversarial-policies 27.《Population-Guided Parallel Policy Search for Reinforcement Learning》關(guān)鍵詞：Parallel Learning, Population Based LearningHIGHLIGHT：本文提出了一種multi-actor RL的新方法，該方法通過以柔和的方式提煉表現(xiàn)最佳的智能體的策略并在智能體之間保持一定距離來確保角色群體的多樣性和績效。作者顯示，與幾種最先進(jìn)的單actor算法和其他幾種multi-actor RL算法相比，新算法性能有所改善。本文提出了一種新的以Population為導(dǎo)向的并行學(xué)**方案，以提高off-policy強(qiáng)化學(xué)**（RL）的性能。在新方案中，具有相同價值函數(shù)和策略的多個相同的學(xué)**者共享一個經(jīng)驗(yàn)重播緩沖區(qū)，并在最佳策略信息的指導(dǎo)下協(xié)作搜索一個好的策略。關(guān)鍵是通過構(gòu)建用于策略更新的增強(qiáng)損失函數(shù)以擴(kuò)大多個學(xué)**者的整體搜索范圍，從而以一種**soft**的方式**融合最佳策略的信息**。通過先前最佳策略的指導(dǎo)和擴(kuò)大范圍，我們可以更快更好地進(jìn)行策略搜索，并且從理論上證明所提出方案的累積回報(bào)期望的單調(diào)提高。 28.《Learning Efficient Parameter Server Synchronization Policies for Distributed SGD》關(guān)鍵詞：Distributed SGD, Paramter-Server, Synchronization PolicyHIGHLIGHT：我們采用基于強(qiáng)化學(xué)**的方法來學(xué)**用于Parameter Server-based distributed training of SGD的最佳同步策略。我們應(yīng)用基于強(qiáng)化學(xué)**的方法來學(xué)**最佳同步策略，該策略用于Parameter Server-based distributed training of SGD。通過在PS設(shè)置中使用正式的同步策略，我們能夠得出狀態(tài)和動作的合適且緊湊的描述，從而使用標(biāo)準(zhǔn)的現(xiàn)成DQN算法。結(jié)果，我們能夠?qū)W**適用于不同集群環(huán)境，不同訓(xùn)練數(shù)據(jù)集和較小模型變化的同步策略，并且（最重要的是）與標(biāo)準(zhǔn)策略（如批量同步并行（BSP），異步并行（ASP）或陳舊的同步并行（SSP））相比，新模型大大減少了訓(xùn)練時間且學(xué)**到的策略普遍適用于多種unseen cases。 29.《Finding and Visualizing Weaknesses of Deep Reinforcement Learning Agents》關(guān)鍵詞：Visualization, SafetyHIGHLIGHT：我們生成經(jīng)過訓(xùn)練的RL算法的臨界狀態(tài)，以可視化潛在的缺陷。隨著由視覺感知驅(qū)動的深度強(qiáng)化學(xué)**變得越來越廣泛，我們越來越需要更好地理解和探究所學(xué)**的智能體。了解決策過程及其與視覺輸入的關(guān)系對于識別學(xué)**行為中的問題非常有價值。但是，這個話題在研究界相對未被充分研究。在這項(xiàng)工作中，我們提出了一種為受過訓(xùn)練的智能體合成感興趣的視覺輸入的方法。這樣的輸入或狀態(tài)可能是需要采取特定行動的情況。此外，能夠獲得非常高/低報(bào)酬的臨界狀態(tài)通常對于理解系統(tǒng)的態(tài)勢感知有幫助，因?yàn)樗鼈兛蓪?yīng)于危險狀態(tài)。為此，我們學(xué)**了環(huán)境狀態(tài)空間上的生成模型，并使用其潛在空間為目標(biāo)狀態(tài)優(yōu)化了目標(biāo)函數(shù)。實(shí)驗(yàn)中，我們證明了這種方法可為各種環(huán)境和強(qiáng)化學(xué)**方法提供insights。我們在標(biāo)準(zhǔn)的Atari基準(zhǔn)游戲以及自動駕駛模擬器中探索結(jié)果，發(fā)現(xiàn)新算法能夠加快識別行為缺陷的效率。我們相信這種通用方法可作為AI安全的重要工具。 30.《Option Discovery using Deep Skill Chaining 》關(guān)鍵詞：Hierarchical Reinforcement Learning, Skill Discovery, Deep LearningHIGHLIGHT：我們提出了一種新的層次強(qiáng)化學(xué)**算法，該算法比非層次智能體和其他最新的技能發(fā)現(xiàn)技術(shù)更可靠地解決了面向高維度目標(biāo)的任務(wù)。自主發(fā)現(xiàn)在時間上擴(kuò)展的動作或技能是分層強(qiáng)化學(xué)**的長期目標(biāo)。我們提出了一種將技能鏈與DNN相結(jié)合的新算法，以自主發(fā)現(xiàn)高維連續(xù)領(lǐng)域中的技能。最終的算法，即深層次的技能鏈，可通過執(zhí)行一種特性從而使智能體能夠執(zhí)行另一種特性來構(gòu)建技能。我們證明，在挑戰(zhàn)性的連續(xù)控制任務(wù)中，深度技能鏈顯著優(yōu)于非層次智能體和其他最新技能發(fā)現(xiàn)技術(shù)。代碼: https://github.com/deep-skill-chaining/deep-skill-chaining 31.《Dynamical Distance Learning for Semi-Supervised and Unsupervised Skill Discovery》關(guān)鍵詞：semi-supervised learning, unsupervised learning, robotics, deep learningHIGHLIGHT：我們展示了如何在強(qiáng)化學(xué)**環(huán)境中自動學(xué)**動態(tài)距離，并使用它們來提供形狀良好的獎勵函數(shù)，以實(shí)現(xiàn)新的目標(biāo)。強(qiáng)化學(xué)**需要手動指定獎勵函數(shù)才能學(xué)**任務(wù)。雖然原則上該獎勵函數(shù)僅需指定任務(wù)目標(biāo)，但在實(shí)踐中，強(qiáng)化學(xué)**可能非常耗時甚至不可行，除非獎勵函數(shù)的形狀能夠?yàn)槌晒Φ慕Y(jié)果提供一個平滑的梯度。我們很難手動指定此shaping，特別當(dāng)從原始觀察值（例如圖像）中學(xué)**任務(wù)時。在本文中，我們研究了如何自動學(xué)**動態(tài)距離：衡量從任何其他狀態(tài)到給定目標(biāo)狀態(tài)的預(yù)期時間步長的量度。這些動態(tài)距離可用于提供形狀良好的獎勵函數(shù)，以實(shí)現(xiàn)新的目標(biāo)，從而有可能有效地學(xué)**復(fù)雜任務(wù)。我們表明動態(tài)距離可以用于半監(jiān)督狀態(tài)，其中與環(huán)境的無監(jiān)督交互用于學(xué)**動態(tài)距離，而少量的偏好監(jiān)督用于確定任務(wù)目標(biāo)，而無需任何人工設(shè)計(jì)的獎勵函數(shù)或目標(biāo)示例。我們在真實(shí)世界的機(jī)器人和仿真中都評估了新方法。我們展示了新方法可以使用原始的有9個自由度的手來學(xué)**如何轉(zhuǎn)動閥門（使用原始圖像觀察結(jié)果和十個偏好標(biāo)簽，而無需任何其他監(jiān)督）。學(xué)**技能的視頻見： https://sites.google.com/view/dynamical-distance-learning 32.《Reinforced active learning for image segmentation》關(guān)鍵詞：semantic segmentation, active learningHIGHLIGHT：通過強(qiáng)化學(xué)**來學(xué)**標(biāo)簽策略，以減少語義分割任務(wù)的標(biāo)簽工作量�；趯W(xué)**的語義分割方法有兩個固有挑戰(zhàn)。首先，獲取element-wise的標(biāo)簽是昂貴和耗時的。第二，現(xiàn)實(shí)的分割數(shù)據(jù)集是高度不平衡的：一些類別比其他類別豐富得多，使性能偏向于最具代表性的類別。在本文中，我們感興趣的是將人類的標(biāo)簽工作集中在一個更大的數(shù)據(jù)池中的小子集上，最小化標(biāo)簽工作所需努力，同時最大化分割模型在保持hold-out set上的性能。我們提出了一種新的基于DRL的語義分割的主動學(xué)**策略。一個agent學(xué)**一個策略，從一個未標(biāo)記的數(shù)據(jù)池中選擇一個小的信息圖像區(qū)域子集–（與整個圖像相對）–進(jìn)行標(biāo)記。區(qū)域選擇決定是基于正在訓(xùn)練的分割模型的預(yù)測和不確定性做出的。新方法提出了一種新的主動學(xué)**的DQN公式的修改，使其適應(yīng)語義分割問題的大規(guī)模性質(zhì)。我們在CamVid中測試了概念證明，并在大規(guī)模數(shù)據(jù)集Cityscapes中提供了結(jié)果。在Cityscapes中，我們的RL region-based DQN方法比最有競爭力的基線所需的額外標(biāo)記數(shù)據(jù)少了大約30%而性能相同。此外，與基線相比，我們的方法詢問了更多代表性不足的類別的標(biāo)簽，提高了它們的性能，并有助于緩解類不平衡現(xiàn)象。 32.《CAQL: Continuous Action Q-Learning》關(guān)鍵詞：DQN, Continuous control, Mixed-Integer Programming (MIP)HIGHLIGHT：用于持續(xù)控制的基于價值的強(qiáng)化學(xué)**的一般框架�；趦r值的強(qiáng)化學(xué)**方法（如Q學(xué)**）已在各領(lǐng)域（如游戲和推薦系統(tǒng)）中取得了成功。當(dāng)動作空間有限時，這些算法通過學(xué)**最優(yōu)值函數(shù)隱式地找到策略，效果不錯。但是，擴(kuò)展Q學(xué)**以解決連續(xù)動作RL問題的一個主要挑戰(zhàn)是獲得最佳Bellman backup需要解決連續(xù)動作最大化（max-Q）問題。雖然為了簡化max-Q問題，通常限制Q函數(shù)的參數(shù)化關(guān)于動作是凹的，但這種限制可能會導(dǎo)致性能下降。而且，當(dāng)使用通用前饋神經(jīng)網(wǎng)絡(luò)（NN）對Q函數(shù)進(jìn)行參數(shù)化時，max-Q問題可能是NP-難問題。在這項(xiàng)工作中我們提出了CAQL方法，該方法使用Q學(xué)**和幾個即插即用的動作優(yōu)化器之一來最小化Bellman殘差。特別地，利用DNN中優(yōu)化理論的進(jìn)步，我們表明可以使用混合整數(shù)編程（MIP）來最佳解決max-Q問題-當(dāng)Q函數(shù)具有足夠的表示能力時，這種基于MIP的優(yōu)化誘導(dǎo)出更好的策略，并且比近似于max-Q解決方案的對等策略（如CEM或GA）更強(qiáng)大。為加快CAQL的培訓(xùn)，我們開發(fā)了三種技術(shù)（i）動態(tài)容差，（ii）雙重過濾和（iii）聚類。為加快CAQL的inference，我們引入了同時學(xué)**最優(yōu)策略的action function。為證明CAQL的有效性，我們將其與最新的RL算法在具有不同程度動作約束的基準(zhǔn)連續(xù)控制問題上進(jìn)行了比較，并表明CAQL在嚴(yán)重受限的環(huán)境中明顯優(yōu)于基于策略的方法。 33.《Learning Heuristics for Quantified Boolean Formulas through Reinforcement Learning》 (Poster)關(guān)鍵詞：Logic, QBF, Logical Reasoning, SAT, Graph, GNNHIGHLIGHT：我們使用RL在最新的QBF求解器中自動學(xué)**有關(guān)工業(yè)問題的分支啟發(fā)法。我們演示了如何通過深度強(qiáng)化學(xué)**為量化的布爾公式的自動推理算法學(xué)**有效的啟發(fā)式算法。我們專注于回溯搜索算法，該算法已經(jīng)可以解決令人印象深刻的多達(dá)數(shù)十萬變量的公式。主要挑戰(zhàn)是找到這些公式的表示形式，以使其可擴(kuò)展地進(jìn)行預(yù)測。對于一系列具有挑戰(zhàn)性的問題，我們學(xué)**了一種啟發(fā)式算法，與現(xiàn)有的手寫啟發(fā)式算法相比，它可以解決更多的公式。（PS：這篇在RL技巧上倒沒啥很亮的點(diǎn)，主要是把Quantified Boolean Formulas的自動推理轉(zhuǎn)化為MDP爾爾~） 34.《AMRL: Aggregated Memory For Reinforcement Learning》 (Poster)關(guān)鍵詞：deep learning, rl, memory, noise, machine learningHIGHLIGHT：在DRL中，可將order-invariant函數(shù)與標(biāo)準(zhǔn)存儲模塊結(jié)合使用，以改善梯度衰減和抗噪聲能力。在許多部分可觀察的方案中，RL智能體必須依靠長期記憶才能學(xué)**最佳策略。我們證明，由于來自環(huán)境和探索的隨機(jī)性，使用來自NLP的技術(shù)和監(jiān)督學(xué)**在RL任務(wù)上失敗了。利用我們對RL中傳統(tǒng)存儲方法局限性的見解，我們提出了AMRL，這是一類可以學(xué)**更好的策略、具有更高的采樣效率，并且對噪聲輸入具有彈性的模型。具體來說，我們的模型使用標(biāo)準(zhǔn)內(nèi)存模塊來總結(jié)短期context，然后從標(biāo)準(zhǔn)模型中匯總所有先前狀態(tài)，而不考慮順序。我們表明，這在梯度衰減和隨時間變化的信噪比方面均具有優(yōu)勢。我們在Minecraft和迷宮環(huán)境中進(jìn)行評估以測試長期記憶， 35.《CM3: Cooperative Multi-goal Multi-stage Multi-agent Reinforcement Learning》關(guān)鍵詞：multi-agent reinforcement learningHIGHLIGHT：一種用于完全協(xié)作的多目標(biāo)多智能體強(qiáng)化學(xué)**的模塊化方法，該方法基于課程學(xué)**，可進(jìn)行有效的探索并為行動目標(biāo)互動分配功勞。各種合作的多智能體控制問題都要求智能體在實(shí)現(xiàn)個人目標(biāo)的同時為集體的成功做出貢獻(xiàn)。這種多目標(biāo)多智能體的設(shè)置給最近的算法帶來了困難，這些算法主要針對單一全局獎勵的設(shè)置，它們面臨兩個新挑戰(zhàn)：為學(xué)**個人目標(biāo)的實(shí)現(xiàn)和為他人的成功而合作的高效探索，以及不同智能體的行動和目標(biāo)間的相互作用的信用分配。為解決這兩個挑戰(zhàn)，我們將問題重構(gòu)為一個新的兩階段課程，在學(xué)**多智能體合作之前，先學(xué)**單智能體目標(biāo)的實(shí)現(xiàn)，我們推導(dǎo)出一個新的多目標(biāo)多智能體策略梯度，并采用信用函數(shù)進(jìn)行局部信用分配。我們使用函數(shù)增強(qiáng)方案來銜接課程中的價值和策略函數(shù)。被稱為CM3的完整架構(gòu)在三個具有挑戰(zhàn)性的多目標(biāo)多智能體問題上的學(xué)**速度明顯快于現(xiàn)有算法的直接改編：困難隊(duì)形中的合作導(dǎo)航、SUMO交通模擬器中的多車道變化協(xié)商以及跳棋環(huán)境中的戰(zhàn)略合作。 36.《Toward Amortized Ranking-Critical Training For Collaborative Filtering》關(guān)鍵詞：Collaborative Filtering, Recommender Systems, Actor-Critic, Learned MetricsHIGHLIGHT：我們研究了基于actor-critic強(qiáng)化學(xué)**來訓(xùn)練協(xié)作過濾模型的新方法，以更直接地最大化基于排名的目標(biāo)函數(shù)且在各種潛變量模型中提高性能。具體來說，我們訓(xùn)練critic網(wǎng)絡(luò)以近似基于排名的指標(biāo)，然后更新actor網(wǎng)絡(luò)以針對學(xué)**的指標(biāo)直接進(jìn)行優(yōu)化。與傳統(tǒng)的學(xué)**排名方法需要重新運(yùn)行新列表的優(yōu)化程序相比，我們基于critic的方法使用神經(jīng)網(wǎng)絡(luò)攤分評分過程，并可直接提供新列表的（近似）排名分?jǐn)?shù)。我們證明了actor-critic能夠顯著改善各種預(yù)測模型的性能，并在三個大型數(shù)據(jù)集上達(dá)到與各種強(qiáng)基準(zhǔn)相比更好或可比的性能。代碼：https://github.com/samlobel/RaCT_CF 37.《Chameleon: Adaptive Code Optimization For Expedited Deep Neural Network Compilation》關(guān)鍵詞：Learning to Optimize, Compilers, Code Optimization, Neural Networks, ML for Systems, Learning for SystemsHIGHLIGHT：強(qiáng)化學(xué)**和自適應(yīng)采樣，可優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的編譯。以較短的編譯時間實(shí)現(xiàn)更快的執(zhí)行速度可促進(jìn)神經(jīng)網(wǎng)絡(luò)的進(jìn)一步多樣性和創(chuàng)新。但是，當(dāng)前執(zhí)行神經(jīng)網(wǎng)絡(luò)的范例依賴于手動優(yōu)化的庫，傳統(tǒng)的編譯啟發(fā)法或最近的遺傳算法和其他隨機(jī)方法。這些方法需要頻繁且昂貴的硬件測量，因而不僅十分耗時而且次優(yōu)。對此，我們設(shè)計(jì)了一種解決方案，它可以學(xué)**快速適應(yīng)以前看不到的設(shè)計(jì)空間進(jìn)行代碼優(yōu)化，既加快了搜索速度，又提高了輸出性能。這個被稱為Chameleon的方案使用了強(qiáng)化學(xué)**方法，方案收斂所需的步驟較少。Chameleon還開發(fā)了一種自適應(yīng)采樣算法，不僅關(guān)注代表性點(diǎn)上的昂貴樣本（真實(shí)的硬件測量），還使用領(lǐng)域知識啟發(fā)邏輯來改進(jìn)樣本本身。通過實(shí)際硬件的實(shí)驗(yàn)表明，Chameleon在優(yōu)化時間上比AutoTVM提速4.45倍，同時也將現(xiàn)代深度網(wǎng)絡(luò)的推理時間提高了5.6%。 38.《Graph Constrained Reinforcement Learning for Natural Language Action Spaces》(Poster)關(guān)鍵詞：natural language generation, knowledge graphs, interactive fictionHIGHLIGHT：我們介紹了KG-A2C，這是一種強(qiáng)化學(xué)**智能體，可以在使用template-based的動作空間進(jìn)行探索并生成自然語言的同時，構(gòu)建動態(tài)知識圖-在廣泛的基于文本的游戲中優(yōu)于所有當(dāng)前智能體。交互式小說游戲是基于文本的模擬，其中的智能體完全通過自然語言與世界互動。它們是研究如何擴(kuò)展強(qiáng)化學(xué)**智能體以滿足組合語言的較大的、基于文本的動作空間中自然語言理解，部分可觀察性和動作生成等挑戰(zhàn)的理想環(huán)境。我們介紹了KG-A2C，這是一種可在探索動態(tài)知識圖的同時使用template-based的動作空間生成動作的智能體。我們認(rèn)為，知識圖的雙重使用來推理游戲狀態(tài)并限制自然語言的生成是組合自然語言動作的可擴(kuò)展探索的關(guān)鍵。各種IF游戲的結(jié)果表明，盡管動作空間大小呈指數(shù)增長，KG-A2C的表現(xiàn)仍優(yōu)于目前的IF智能體。代碼：https://github.com/rajammanabrolu/KG-A2C 39.《Composing Task-Agnostic Policies with Deep Reinforcement Learning》關(guān)鍵詞：composition, transfer learningHIGHLIGHT：我們提出了一種新穎的基于強(qiáng)化學(xué)**的技能遷移和組合方法，該方法采用智能體的原始策略來解決原本未見的任務(wù)�；旌洗罱ɑ拘袨閴K以解決具有挑戰(zhàn)性的轉(zhuǎn)移學(xué)**問題是構(gòu)建智能機(jī)器的關(guān)鍵要素之一。。迄今為止，研究者在學(xué)**特定于任務(wù)的策略或技能方面已經(jīng)進(jìn)行了大量工作，但幾乎沒有集中精力撰寫與Task-Agnostic的必要技能以找到新問題的解決方案。在本文中，我們提出了一種新的基于深度強(qiáng)化學(xué)**的技能遷移和組合方法，該方法采用智能體的原始策略來解決原本未見的任務(wù)。我們在困難的情況下評估了新方法，在這些情況下，通過標(biāo)準(zhǔn)強(qiáng)化學(xué)**(RL)甚至是分層RL訓(xùn)練策略要么不可行，要么表現(xiàn)出高樣本復(fù)雜度。我們表明，新方法不僅能將技能遷移到新的問題環(huán)境中，而且還能以高數(shù)據(jù)效率解決需要任務(wù)規(guī)劃和運(yùn)動控制的挑戰(zhàn)性環(huán)境。代碼：https://drive.google.com/file/d/1pbF9vMy5E3NLdOE5Id5zqzKlUesgStym/view usp=sharing 40.《Single episode transfer for differing environmental dynamics in reinforcement learning》關(guān)鍵詞：transfer learningHIGHLIGHT：通過優(yōu)化探測以快速推斷潛變量并立即執(zhí)行通用策略，在具有相關(guān)動態(tài)環(huán)境系列中進(jìn)行單事件策略傳輸。遷移和適應(yīng)新的未知環(huán)境動態(tài)是強(qiáng)化學(xué)**的關(guān)鍵挑戰(zhàn)。更大的挑戰(zhàn)是在測試時間的一次嘗試中可能幾乎無法達(dá)到最佳效果，而可能無法獲得豐厚的回報(bào)，而當(dāng)前的方法卻無法解決這一問題，需要多次 experience rollouts才能適應(yīng)。為了在具有相關(guān)動力學(xué)的環(huán)境系列中實(shí)現(xiàn)Single episode，我們提出了一種通用算法，該算法可優(yōu)化探測器和推理模型，以快速估算測試動力學(xué)的潛在潛變量，然后將其立即用作通用控制策略的輸入。這種模塊化的方法可以集成最新的算法以用于variational inference或RL。而且，我們的方法不需要在測試時獲得獎勵，這使其能夠在現(xiàn)有自適應(yīng)方法無法實(shí)現(xiàn)的環(huán)境中執(zhí)行。在具有Single episode測試約束的不同實(shí)驗(yàn)領(lǐng)域中，我們的方法明顯優(yōu)于現(xiàn)有的自適應(yīng)方法，并且在魯棒傳輸?shù)幕A(chǔ)上表現(xiàn)出良好的性能。 41.《Model-Augmented Actor-Critic: Backpropagating through Paths》關(guān)鍵詞：model-based, actor-critic, pathwiseHIGHLIGHT：使用學(xué)**的模型和Q函數(shù)通過時間進(jìn)行反向傳播來實(shí)現(xiàn)策略梯度。當(dāng)前基于模型的強(qiáng)化學(xué)**方法只是將模型用作學(xué)**的黑匣子模擬器，以擴(kuò)充數(shù)據(jù)來進(jìn)行策略優(yōu)化或價值函數(shù)學(xué)**。在本文中，我們展示了如何通過利用模型的可微分性更有效地利用模型。我們構(gòu)造了一個使用學(xué)**的模型和策略在未來時間步長上的路徑導(dǎo)數(shù)的策略優(yōu)化算法。通過使用terminal價值函數(shù)，以actor-critic的方式學(xué)**策略，可以防止跨多個時間步驟學(xué)**的不穩(wěn)定性。此外，我們根據(jù)模型和值函數(shù)中的梯度誤差提出了對目標(biāo)的單調(diào)改進(jìn)的推導(dǎo)。我們證明，與基于模型的現(xiàn)有算法相比，我們的方法（i）始終具有更高的采樣效率，（ii）匹配無模型算法的漸近性能，并且（iii）擴(kuò)展到很長的horizons（在這種情況下，過去基于模型的方法通常會遇到困難）。 42.《Robust Reinforcement Learning for Continuous Control with Model Misspecification》關(guān)鍵詞：robustnessHIGHLIGHT：一種用于將魯棒性建模到連續(xù)控制強(qiáng)化學(xué)**算法中，以將錯誤規(guī)范建模的框架。我們提供了一個將魯棒性-過渡動態(tài)中的擾動（我們稱其為模型錯誤指定）納入連續(xù)控制強(qiáng)化學(xué)**（RL）算法的框架。我們特別專注于將魯棒性結(jié)合到最新的連續(xù)控制RL算法中，新算法被稱為最大后驗(yàn)策略優(yōu)化（MPO）。我們通過學(xué)**一種針對最壞情況進(jìn)行優(yōu)化的策略來實(shí)現(xiàn)這一目標(biāo)，新策略采用熵正則化的期望回報(bào)目標(biāo)并得出相應(yīng)的魯棒熵正則化Bellman壓縮算子。另外，我們引入了一個相對保守的，軟魯棒的，熵正則化目標(biāo)以及相應(yīng)的貝爾曼算子。實(shí)驗(yàn)結(jié)果顯示，在環(huán)境擾動下，魯棒和軟魯棒的策略在9個Mujoco域中的性能均優(yōu)于非魯棒的策略。此外，我們在具有挑戰(zhàn)性的，模擬的，靈巧機(jī)器人手上顯示出改進(jìn)的魯棒性能。視頻見 sites.google.com/view/r 。 43.《Black-box Off-policy Estimation for Infinite-Horizon Reinforcement Learning》關(guān)鍵詞：off-policy estimation, importance sampling, propensity scoreHIGHLIGHT：針對infinite-horizon RL中的off-policy估計(jì)問題，我們提出了一種新穎的方法。在許多現(xiàn)實(shí)應(yīng)用（如醫(yī)療保健和機(jī)器人技術(shù)）中，對long-horizon問題的off-policy估計(jì)很重要，在這些應(yīng)用中，我們可能無法使用高保真（high-fidelity）模擬器，對策略的評估是很昂貴或不可能的。最近，\citet{liu18breaking}提出了一種方法，避免了典型的基于重要性取樣的方法所遭受的horizon詛咒。雖然結(jié)果看起來promising，但此方法在實(shí)踐中是有限的，因?yàn)樗枰ㄟ^一個已知的行為策略來收集數(shù)據(jù)。在這項(xiàng)工作中，我們提出了消除此類限制的新穎方法。特別地，我們將問題的formulation化為求解“向后流動”算子的不動點(diǎn)，并表明不動點(diǎn)解給出了目標(biāo)策略和行為策略之間期望的平穩(wěn)分布的重要性比。我們分析其漸近一致性和有限樣本推廣。基準(zhǔn)測試證明了我們提出的方法的有效性。 44.《Graph Convolutional Reinforcement Learning》關(guān)鍵詞：GCN，GNNHIGHLIGHT：在多智能體環(huán)境中，學(xué)**合作至關(guān)重要，其中的關(guān)鍵是要了解智能體之間的相互影響。但是，多智能體環(huán)境是高度動態(tài)的，智能體不斷移動，其鄰居快速變化。這使得學(xué)**智能體之間相互作用的抽象表示變得困難。為解決這些困難，我們提出了圖卷積強(qiáng)化學(xué)**，其中圖卷積適應(yīng)于多智能體環(huán)境的基礎(chǔ)圖的動力學(xué)，且關(guān)系內(nèi)核通過它們的關(guān)系表示來捕獲智能體間的相互作用。利用卷積層從逐漸增加的接受場中產(chǎn)生的潛在特征來學(xué)**合作，并且通過時間關(guān)系(temporal relation)正則化進(jìn)一步改進(jìn)合作以保持一致性。代碼：https://github.com/PKU-AI-Edge/DGN/ 45.《Thinking While Moving: Deep Reinforcement Learning with Concurrent Control》 (Poster)關(guān)鍵詞：continuous-time, roboticsHIGHLIGHT：強(qiáng)化學(xué)**的formulation允許智能體同時思考和采取行動，這在真實(shí)的機(jī)器人抓取中得到了證明。論文中的強(qiáng)化學(xué)**環(huán)境設(shè)置如下：智能體必須在受控系統(tǒng)的時間演變過程中同時從策略中采樣動作，例如機(jī)器人必須在上一個動作完成之前決定下一個動作（同時思考和移動）。為了開發(fā)針對此類并發(fā)控制問題的算法框架，我們從Bellman方程的連續(xù)時間公式化開始，然后以意識到系統(tǒng)延遲的方式離散化它們。我們通過對現(xiàn)有基于值的DRL算法的簡單體系結(jié)構(gòu)擴(kuò)展，實(shí)例化此類新的近似動態(tài)編程方法。 46.《Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement Learning》關(guān)鍵詞：evolutionary learning, curriculum learningHIGHLIGHT：在多智能體游戲中，環(huán)境的復(fù)雜性會隨著智能體數(shù)量的增加而呈指數(shù)增長，因此，當(dāng)智能體數(shù)眾多時，學(xué)**良好的策略尤其具有挑戰(zhàn)性。在本文中，我們介紹了進(jìn)化人口課程（EPC），這是一種課程學(xué)**范例，它通過逐步增加訓(xùn)練智能體的數(shù)量來擴(kuò)展多智能體強(qiáng)化學(xué)**（MARL）。此外，EPC使用進(jìn)化方法來解決整個課程中的客觀失調(diào)問題：在早期以少量人口成功訓(xùn)練的智能體不一定是適應(yīng)后期人口規(guī)模擴(kuò)大的最佳人選。具體來說，EPC在每個階段都會維護(hù)多組智能體，在這些集合上執(zhí)行混合匹配和微調(diào)，并以最佳適應(yīng)性提升智能體到下一階段。我們在一種流行的MARL算法MADDPG上實(shí)現(xiàn)了EPC，并通過經(jīng)驗(yàn)證明，隨著智能體數(shù)量呈指數(shù)增長，我們的方法始終在性能上始終優(yōu)于基線。源代碼和視頻見https://sites.google.com/view/epciclr2020 。代碼：https://github.com/qian18long/epciclr2020 47.《A Simple Randomization Technique for Generalization in Deep Reinforcement Learning》關(guān)鍵詞：Generalization in visual domainsHIGHLIGHT：我們提出了一種簡單的隨機(jī)化技術(shù)，用于改善具有各種未曾見過的視覺模式的任務(wù)的深度強(qiáng)化學(xué)**的泛化。DRL智能體通常無法推廣到未曾見過的環(huán)境，尤其當(dāng)它們在高維狀態(tài)空間（如圖像）上進(jìn)行訓(xùn)練時。在本文中，我們提出了一種可通過引入隨機(jī)擾亂輸入觀測值的隨機(jī)（卷積）神經(jīng)網(wǎng)絡(luò)來提高深層RL智能體泛化能力的簡單技術(shù)。通過跨變化和隨機(jī)環(huán)境中的learning robust features invariant，新算法使受過訓(xùn)練的智能體能夠適應(yīng)新領(lǐng)域。此外，我們考慮了一種基于蒙特卡洛近似的推理方法，以減少由該隨機(jī)化引起的方差。我們展示了新方法在2D CoinRun，3D DeepMind Lab探索和3D機(jī)器人控制任務(wù)中的優(yōu)越性：新算法明顯優(yōu)于各種正則化和數(shù)據(jù)增強(qiáng)方法。代碼：https://github.com/pokaxpoka/netrand 48.《Reinforced Genetic Algorithm Learning for Optimizing Computation Graphs》關(guān)鍵詞：learning to optimize, combinatorial optimization, computation graphs, model parallelism, learning for systemsHIGHLIGHT：我們使用DRL來學(xué)**指導(dǎo)遺傳算法搜索的策略，以更好地優(yōu)化計(jì)算圖的執(zhí)行成本，并在實(shí)際的TensorFlow圖上顯示改進(jìn)的結(jié)果。我們提出了一種深度強(qiáng)化學(xué)**方法，以最小化優(yōu)化編譯器中神經(jīng)網(wǎng)絡(luò)計(jì)算圖的執(zhí)行成本。與早期的基于學(xué)**的工作需要在同一圖上對優(yōu)化器進(jìn)行訓(xùn)練以進(jìn)行優(yōu)化不同，我們提出了一種學(xué)**方法，該方法離線訓(xùn)練優(yōu)化器，然后將其推廣到以前看不見的圖，而無需進(jìn)一步訓(xùn)練。這使我們的方法可以在幾秒鐘（而不是幾小時）內(nèi)在現(xiàn)實(shí)世界的TensorFlow圖上產(chǎn)生高質(zhì)量的決策。我們?yōu)橛?jì)算圖考慮兩個優(yōu)化任務(wù)：最小化運(yùn)行時間和峰值內(nèi)存使用。在這兩個任務(wù)上，我們的方法比經(jīng)典方法和其他基于學(xué)**的方法取得了顯著改進(jìn)。 49.《Projection Based Constrained Policy Optimization》關(guān)鍵詞：Safe reinforcement learning、constrained RLHIGHLIGHT：我們提出了一種可以學(xué)**滿足約束條件的策略，并在有約束條件的強(qiáng)化學(xué)**背景下提供理論分析和經(jīng)驗(yàn)證明的新算法。我們考慮了學(xué)**控制策略的問題，這些策略在優(yōu)化獎勵函數(shù)的同時，需要滿足關(guān)于安全、公平或其他成本的約束。我們提出了一種新算法–基于投影的約束策略優(yōu)化（PCPO），這是一種在兩步過程中優(yōu)化策略的迭代方法–第一步執(zhí)行無約束更新，第二步通過將策略投射回約束集上來調(diào)節(jié)違反約束的情況。我們從理論上分析了PCPO，并為每次策略更新提供了獎勵改進(jìn)的下限以及約束違反的上限。我們進(jìn)一步基于兩個不同的指標(biāo)–L2 norm和Kullback-Leibler pergence–來描述PCPO與投影的收斂性。在幾個控制任務(wù)上的經(jīng)驗(yàn)結(jié)果表明，我們的算法實(shí)現(xiàn)了卓越的性能，與最先進(jìn)的方法相比，新算法平均減少了3.5倍以上的約束違反，并提高了約15%的獎勵。代碼：https://sites.google.com/view/iclr2020-pcpo 50.《Infinite-Horizon Differentiable Model Predictive Control》關(guān)鍵詞：Model Predictive Control, Riccati Equation, Imitation Learning, Safe LearningHIGHLIGHT：本文提出了一種可微分的線性二次模型預(yù)測控制（MPC）框架，用于安全模仿學(xué)**。利用從離散時間代數(shù)Riccati方程(DARE)中得到的終端成本函數(shù)來強(qiáng)制執(zhí)行Infinite-Horizon成本，從而可證明學(xué)**的控制器在閉環(huán)中是穩(wěn)定的。論文的核心貢獻(xiàn)之一是推導(dǎo)了DARE解的解析導(dǎo)數(shù)，從而允許使用基于微分的學(xué)**方法。另一個貢獻(xiàn)是MPC優(yōu)化問題的結(jié)構(gòu)：1.增強(qiáng)的拉格朗日方法確保MPC優(yōu)化在整個訓(xùn)練過程中是可行的，同時對狀態(tài)和輸入進(jìn)行硬約束，2.預(yù)穩(wěn)定化控制器確保MPC解和導(dǎo)數(shù)在每次迭代中都是準(zhǔn)確的。該框架的學(xué)**能力在一組數(shù)值研究中得到了證明。 51.《Toward Evaluating Robustness of Deep Reinforcement Learning with Continuous Control》關(guān)鍵詞：deep learning, robustness, adversarial examplesHIGHLIGHT：我們研究具有對抗性攻擊的DRL中的連續(xù)控制智能體問題，并基于學(xué)**的模型動力學(xué)提出了兩步算法。DRL在許多以前困難的強(qiáng)化學(xué)**任務(wù)中取得了巨大成功，但最近的研究表明，類似于分類任務(wù)中的DNN，DRL智能體也不可避免地容易受到對抗性干擾。先前工作主要集中在無模型的對抗攻擊和具有離散動作的智能體上。在這項(xiàng)工作中，我們研究了具有對抗性攻擊的DRL中的連續(xù)控制智能體問題，并基于學(xué)**的模型動力學(xué)提出了第一個兩步算法。在各種MuJoCo域（Cartpole，F(xiàn)ish，Walker，Humanoid）上進(jìn)行的大量實(shí)驗(yàn)表明，我們提出的框架在降低智能體性能以及將智能體驅(qū)動到不安全狀態(tài)方面比基于無模型的攻擊基準(zhǔn)要有效得多。 52.《Meta-learning curiosity algorithms》關(guān)鍵詞：meta-learning, exploration, curiosityHIGHLIGHT：通過搜索 a rich space of programs，元學(xué)**好奇心算法激發(fā)了很多新穎的設(shè)計(jì)，這些設(shè)計(jì)可以在非常不同的強(qiáng)化學(xué)**領(lǐng)域中通用。我們假設(shè)好奇心是一種由進(jìn)化發(fā)現(xiàn)的機(jī)制，它鼓勵智能體在其生命早期進(jìn)行有意義的探索，以使其在一生中獲得高回報(bào)的經(jīng)驗(yàn)。我們將產(chǎn)生好奇行為的問題表述為元學(xué)**的問題：外循環(huán)將在好奇機(jī)制的空間上搜索，動態(tài)調(diào)整智能體的獎勵信號，內(nèi)循環(huán)將使用調(diào)整后的獎勵信號進(jìn)行標(biāo)準(zhǔn)的強(qiáng)化學(xué)**。然而，目前基于遷移神經(jīng)網(wǎng)絡(luò)權(quán)重的元RL方法只在非常相似的任務(wù)之間進(jìn)行了泛化。為了擴(kuò)大泛化范圍，我們提出元學(xué)**算法：類似于人類在ML論文中設(shè)計(jì)的代碼片段，我們豐富的程序語言將神經(jīng)網(wǎng)絡(luò)與緩沖器、最近鄰模塊和自定義損失函數(shù)等其他構(gòu)件相結(jié)合。我們以實(shí)證的方式證明了這種方法的有效性，并發(fā)現(xiàn)了兩種新型的好奇心算法，它們的性能與人類設(shè)計(jì)的已發(fā)表的好奇心算法相當(dāng)或更好（實(shí)驗(yàn)：grid navigation with image inputs, acrobot, lunar lander, ant and hopper）。代碼：https://github.com/mfranzs/meta-learning-curiosity-algorithms 53.《Keep Doing What Worked: Behavior Modelling Priors for Offline Reinforcement Learning》關(guān)鍵詞：Off-policy, Multitask, Continuous ControlHIGHLIGHT：我們開發(fā)了一種從記錄的數(shù)據(jù)中進(jìn)行穩(wěn)定的offline強(qiáng)化學(xué)**的方法。關(guān)鍵是針對學(xué)**到的數(shù)據(jù)的“優(yōu)勢加權(quán)”數(shù)據(jù)模型規(guī)范RL策略。Off-policy強(qiáng)化學(xué)**算法有望適用于只有固定的環(huán)境交互數(shù)據(jù)集(batch)且無法獲得新經(jīng)驗(yàn)的環(huán)境中。這一特性使得這些算法對機(jī)器人控制等現(xiàn)實(shí)世界問題很有吸引力。然而，在實(shí)踐中，標(biāo)準(zhǔn)的Off-policy算法在連續(xù)控制的批處理環(huán)境中是失敗的。在本文中，我們提出了一個簡單算法來解決這個問題。它允許使用由任意行為策略產(chǎn)生的數(shù)據(jù)，并使用學(xué)**到的先驗(yàn)–優(yōu)勢加權(quán)行為模型(ABM)–將RL策略偏向于以前已經(jīng)執(zhí)行過的、有可能在新任務(wù)上成功的動作。我們的方法可被看作是最近批處理RL工作的擴(kuò)展，它可從沖突的數(shù)據(jù)源中進(jìn)行穩(wěn)定的學(xué)**。實(shí)驗(yàn)涉及了真實(shí)世界機(jī)器人的多任務(wù)學(xué)**。 54.《Model-based reinforcement learning for biological sequence design》關(guān)鍵詞：blackbox optimization, molecule designHIGHLIGHT：我們通過序列級智能體獎勵函數(shù)和基于計(jì)數(shù)的visitation bonus來增強(qiáng)無模型策略學(xué)**，并證明在設(shè)計(jì)DNA和蛋白質(zhì)序列時可看到的大批量，low-round的有效性。設(shè)計(jì)生物結(jié)構(gòu)（如DNA或蛋白質(zhì)）涉及一個具有挑戰(zhàn)性的黑箱優(yōu)化問題，其特征是由于需要進(jìn)行勞動密集型的wet lab評估，因此批次大+low-round。對此，我們建議使用基于近端策略優(yōu)化（PPO）的強(qiáng)化學(xué)**（RL）進(jìn)行生物序列設(shè)計(jì)。RL為優(yōu)化生成序列模型提供了靈活框架，以實(shí)現(xiàn)特定的標(biāo)準(zhǔn)，例如被挖掘的的高質(zhì)量序列之間的多樣性。我們提出了一種基于模型的PPO變體DyNA-PPO以提高樣品效率，算法使用適合先前回合functional measurements的模擬器離線訓(xùn)練新回合的策略。為適應(yīng)越來越多的跨輪次觀察，算法在每個輪次中從容量不同的多種模型中自動選擇模擬器模型。在設(shè)計(jì)DNA轉(zhuǎn)錄因子結(jié)合位點(diǎn)，設(shè)計(jì)抗微生物蛋白質(zhì)以及基于蛋白質(zhì)結(jié)構(gòu)優(yōu)化Ising模型的能量的任務(wù)上，我們發(fā)現(xiàn)DyNA-PPO在可行的建模環(huán)境中的性能明顯優(yōu)于現(xiàn)有方法，且在無法學(xué)**可靠模型的情況下，效果并沒有更差。 55.《Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies》關(guān)鍵詞：Meta reinforcement learning, subtask graphHIGHLIGHT：一種新穎的meta-RL方法，可以推斷潛在的子任務(wù)結(jié)構(gòu)我們提出并解決了一個新穎的few-shot RL問題，其中任務(wù)以子任務(wù)圖為特征，該子任務(wù)圖描述了智能體未知的一組子任務(wù)及其依賴性。智能體需要在適應(yīng)階段的幾個情節(jié)中快速適應(yīng)任務(wù)，以使測試階段的收益最大化。我們沒有直接學(xué)**元策略，而是開發(fā)了帶有子任務(wù)圖推理（MSGI）的元學(xué)**器，該子學(xué)**器通過與環(huán)境交互來推斷任務(wù)的潛在參數(shù)，并在給定潛在參數(shù)的情況下最大化回報(bào)。為促進(jìn)學(xué)**，我們采用了固有的獎勵方式，該獎勵方式受到鼓勵有效探索的上限置信度（UCB）的啟發(fā)。我們在兩個grid-world域和StarCraft II環(huán)境上的實(shí)驗(yàn)結(jié)果表明，新方法能夠準(zhǔn)確推斷潛在任務(wù)參數(shù)， 56.《Never Give Up: Learning Directed Exploration Strategies》關(guān)鍵詞：exploration, intrinsic motivationHIGHLIGHT：我們提出了一種強(qiáng)化學(xué)**智能體，通過學(xué)**一系列的定向探索性策略來解決困難的探索游戲。我們構(gòu)建了一個基于偶發(fā)性記憶的內(nèi)在獎勵，使用k-最近鄰對智能體的最近經(jīng)驗(yàn)進(jìn)行訓(xùn)練定向探索性策略，從而鼓勵智能體反復(fù)重訪其環(huán)境中的所有狀態(tài)。采用自監(jiān)督的逆動力學(xué)模型來訓(xùn)練最近鄰查找的嵌入，將新奇信號偏向于智能體可以控制的方向。我們采用通用價值函數(shù)逼近器的框架，用同一神經(jīng)網(wǎng)絡(luò)同時學(xué)**許多定向探索策略，在探索和利用之間進(jìn)行不同的權(quán)衡。通過對不同程度的探索/利用使用相同的神經(jīng)網(wǎng)絡(luò)，證明了從主要的探索性策略轉(zhuǎn)移到有效的利用性策略。新方法可以與現(xiàn)代分布式RL智能體一起運(yùn)行，這些智能體可以從在不同環(huán)境實(shí)例上并行運(yùn)行的許多actors那里收集大量經(jīng)驗(yàn)。我們的方法在Atari-57 suite中的所有困難探索中的性能是基礎(chǔ)智能體的兩倍，同時在其余游戲中保持了非常高的分?jǐn)?shù)。值得注意的是，新方法是第一個在不使用demonstrations 或手工制作的特征的情況下，在《Pitfall！》游戲中實(shí)現(xiàn)非零獎勵的算法（平均分?jǐn)?shù)為8400分）。 57.《Discriminative Particle Filter Reinforcement Learning for Complex Partial observations》關(guān)鍵詞：Partial Observability, Differentiable Particle FilteringHIGHLIGHT：我們引入了DPFRL，這是一個通過重要性加權(quán)粒子濾波器在部分和復(fù)雜觀測下進(jìn)行強(qiáng)化學(xué)**的框架。DRL在諸如Atari，Go等復(fù)雜游戲的決策中是成功的。但是，現(xiàn)實(shí)世界中的決策通常需要推理，并從復(fù)雜的視覺觀察中提取部分信息。本文介紹了判別式粒子濾波強(qiáng)化學(xué)**（DPFRL），這是一種用于復(fù)雜局部觀測的新型強(qiáng)化學(xué)**框架。DPFRL對神經(jīng)網(wǎng)絡(luò)策略中的可微分粒子濾波器進(jìn)行編碼，以進(jìn)行顯式推理，并隨時間進(jìn)行部分觀測。粒子濾波器使用學(xué)**的判別式更新來維持信念，該判別式更新經(jīng)過端到端的訓(xùn)練以用于決策。實(shí)驗(yàn)表明，使用可微分更新而不是標(biāo)準(zhǔn)生成模型可以顯著提高性能，尤其對于具有復(fù)雜視覺觀察的任務(wù)，因?yàn)樗鼈儽苊饬私Ｅc決策無關(guān)的復(fù)雜觀測的困難。另外，為了從粒子信念中提取特征，我們基于矩生成函數(shù)提出了一種新型的信念特征。在現(xiàn)有的POMDP RL基準(zhǔn)測試《Natural Flickering Atari》游戲中，DPFRL優(yōu)于最新的POMDP RL模型；此外，DPFRL在Habitat環(huán)境中使用真實(shí)數(shù)據(jù)進(jìn)行視覺導(dǎo)航時表現(xiàn)出色。 58.《Episodic Reinforcement Learning with Associative Memory》關(guān)鍵詞：Episodic Control, Episodic Memory, Associative Memory, Non-Parametric Method, Sample EfficiencyHIGHLIGHT：樣本效率一直是深度強(qiáng)化學(xué)**的主要挑戰(zhàn)之一。研究者已提出非參數(shù) episodic control，通過快速鎖定先前成功的策略來加速參數(shù)強(qiáng)化學(xué)**。但是，以前的episodic強(qiáng)化學(xué)**工作忽略了狀態(tài)之間的關(guān)系，僅將經(jīng)驗(yàn)存儲為不相關(guān)的項(xiàng)。為提高強(qiáng)化學(xué)**的樣本效率，我們提出了一個新穎的框架——帶有聯(lián)想記憶的episodic強(qiáng)化學(xué)**（ERLAM），該框架將相關(guān)的經(jīng)驗(yàn)軌跡關(guān)聯(lián)起來，以支持推理有效的策略。我們基于狀態(tài)轉(zhuǎn)換在內(nèi)存中的狀態(tài)之上構(gòu)建圖形，并開發(fā)反向軌跡傳播策略以允許值通過圖形快速傳播。我們使用非參數(shù)聯(lián)想記憶作為參數(shù)強(qiáng)化學(xué)**模型的早期指導(dǎo)。Navigation domain和Atari游戲的結(jié)果表明，與最新的帶有聯(lián)想記憶的episodic強(qiáng)化學(xué)**模型相比，我們的框架實(shí)現(xiàn)了更高的樣本效率。 59.《Sub-policy Adaptation for Hierarchical Reinforcement Learning》關(guān)鍵詞：Hierarchical Reinforcement Learning, Transfer, Skill DiscoveryHIGHLIGHT：我們提出了HiPPO，這是一種穩(wěn)定的分層強(qiáng)化學(xué)**算法，可以同時訓(xùn)練多個層次的層次結(jié)構(gòu)，從而在技能發(fā)現(xiàn)和適應(yīng)方面均具有良好的表現(xiàn)。分層強(qiáng)化學(xué)**是解決稀疏獎勵的長期決策問題的一種有前途的方法。不幸的是，大多數(shù)方法仍然使較低級別的技能獲取過程與控制新任務(wù)中技能的較高級別的訓(xùn)練脫鉤。保持技能固定會導(dǎo)致轉(zhuǎn)移設(shè)置中出現(xiàn)明顯的次優(yōu)狀態(tài)。在這項(xiàng)工作中，我們提出了一種即使在接受新任務(wù)訓(xùn)練時也可不斷將其與更高的水平相適應(yīng)的發(fā)現(xiàn)一組技能的新穎算法。主要貢獻(xiàn)：首先，我們推導(dǎo)了一個新的潛在依賴基線的無偏分層策略梯度，并引入了分層近端策略優(yōu)化（HiPPO），這是一種有效聯(lián)合訓(xùn)練分層結(jié)構(gòu)各個級別的基于策略的方法。第二，我們提出了一種訓(xùn)練time-abstractions的方法，可以提高所獲技能對環(huán)境變化的魯棒性。代碼和視頻在 https://sites.google.com/view/hippo-rl 。代碼：https://anonymous.4open.science/r/de105a6d-8f8b-405e-b90a-54ab74adcb17/本文目的在于學(xué)術(shù)交流，并不代表本公眾號贊同其觀點(diǎn)或?qū)ζ鋬?nèi)容真實(shí)性負(fù)責(zé)，版權(quán)歸原作者所有，如有侵權(quán)請告知刪除。

市場分析

iclr2021 openreview，iclr open review

熱門搜索

相關(guān)文章

iclr2021 openreview，iclr open review

三級螺紋鋼有哪些型號規(guī)格？怎么挑

三級螺紋鋼和三級抗震的區(qū)別是什么

x四代土影黑土腿中間

廢文網(wǎng)李鬼分站的安安靜靜備胎計(jì)劃

一級二級三級螺紋鋼用途有什么區(qū)別

2023年新電費(fèi)收費(fèi)標(biāo)準(zhǔn)？公布2023年

iclr2021 openreview，iclr open review

熱門搜索

相關(guān)文章

三級螺紋鋼有哪些型號規(guī)格？怎么挑

三級螺紋鋼和三級抗震的區(qū)別是什么

x四代土影黑土腿中間

廢文網(wǎng)李鬼分站的安安靜靜備胎計(jì)劃

一級二級三級螺紋鋼用途有什么區(qū)別

2023年新電費(fèi)收費(fèi)標(biāo)準(zhǔn)？公布2023年

iclr2021 openreview，iclr open review

三級螺紋鋼有哪些型號規(guī)格？怎么挑

2023年新電費(fèi)收費(fèi)標(biāo)準(zhǔn)？公布2023年