秋分小常識,秋分和平分秋色
chanong
不知不覺,2023年秋分即將來臨。 “中秋月,日正西,陰正東”,自然就產(chǎn)生了“陰陽相齊,晝夜相等,晝夜相等”的性質(zhì)。冷熱相等!边@里的秋分就像中性和諧的分水嶺,一旦偏離,就變得骯臟,變得寒冷或炎熱。理想的安全就是這樣的公平狀態(tài)。在這里,作者回顧了強化學(xué)**中反映安全問題的部分內(nèi)容。首先,“安全”理念涉及應(yīng)對豐富復(fù)雜的風(fēng)險和問題。實際行動者在追求利潤的過程中也面臨著各種永久性風(fēng)險和偶發(fā)性危機,處理時必須保持平衡。開放性和安全性是需要平衡的。不同的自然有機體需要獲得經(jīng)驗以提高自己的生活水平,但現(xiàn)代社會的智能有機體卻面臨著來自社會關(guān)系以及自身和群體利益的挑戰(zhàn),需要系統(tǒng)地采取行動,F(xiàn)實世界中,國際關(guān)系日益復(fù)雜,相關(guān)問題不斷出現(xiàn)。對于傳統(tǒng)的以目標為導(dǎo)向的任務(wù),避免收入的破壞性下降也可以被認為是一種保證。那么,如果我們從發(fā)展人工智能的角度來思考這個問題,我們?nèi)绾谓虝斯ぶ悄軄韺崿F(xiàn)這樣的目標呢?往往是一個值得關(guān)注的問題。作為一種跨學(xué)科的研究實踐,它往往不僅表現(xiàn)為特定的研究目標,而且表現(xiàn)為一種態(tài)度或思維方式。
強化學(xué)**主要用于解決復(fù)雜的決策問題,可以在具有自然安全約束的不確定環(huán)境中學(xué)**以實現(xiàn)既定目標。強化學(xué)**的探索往往比傳統(tǒng)的收益優(yōu)先的觀點從問題定義的角度增加了許多可能的成本函數(shù),而這種成本和回報是同源、共生的關(guān)系。安全需求比它們所基于的特定優(yōu)化目標更復(fù)雜。由于多個威脅項/損失可以同時變化,因此從單一優(yōu)化目標的角度來看,整體性能是多目標且不穩(wěn)定的。解決強化學(xué)**中的安全問題,最簡單的思路就是采用傳統(tǒng)的獎勵形成思路(直接修改和添加獎勵函數(shù),將領(lǐng)域知識引入到模型算法中,同時考慮各個方面可能的改進。從優(yōu)化你的獎勵開始。采用添加拉格朗日項(比例參數(shù))的方法,將損失乘以某個比例參數(shù),作為負收入添加到收益函數(shù)中,經(jīng)過折中(權(quán)衡)處理,轉(zhuǎn)化為綜合收益優(yōu)化?偟膩碚f,性任務(wù)獲得了良好的收斂結(jié)果。這種簡單的方法有兩個固有的缺點。首先,為了保證勘探過程的相對安全,很難避免勘探過程中可能發(fā)生的不可逆動作,避免進入破壞性條件區(qū)域。在現(xiàn)實世界中,即使是最輕微的疏忽或違規(guī)也可能造成災(zāi)難性后果。例如,無法滿足自動駕駛或醫(yī)療機器人等與人身安全密切相關(guān)的高精度要求項目部署后進一步適應(yīng)和探索的需求。其次,多維損失函數(shù)的存在需要多個元素。拉格朗日乘數(shù)。使用雙重方法很難解決優(yōu)化問題。目前有兩種可能的選擇:將某些部分作為整體,單獨對待其他部分,這涉及組合或反向優(yōu)化的風(fēng)險,以及利用斜率直接優(yōu)化綜合收益。整個東西。目前,更大的工藝更難以適應(yīng)不同的成本約束規(guī)模。在實驗中,主要的挑戰(zhàn)出現(xiàn)在拉格朗日乘子的選擇和學(xué)**率的選擇上。很容易解釋為什么一個因素太大。忽視的現(xiàn)象,即剩余部分按比例拆除。一個常見的現(xiàn)象是,如果約束比例太大,代理就不會移動,以防止成本增加。如果約束太低,則約束的效果將被忽略。動態(tài)更新拉格朗日乘子并非易事。如果你實施它,你可能會達到局部最小值。很好的問題。因此,在安全強化學(xué)**中,出現(xiàn)了幾種考慮收益和成本劃分的新技術(shù),特別是提出收益和成本的組成部分,并將它們視為單獨的優(yōu)化目標。這并不意味著你不能在這個框架中將兩者合二為一(事實上,在后續(xù)的處理過程中,很多方法仍然使用參數(shù)權(quán)重來實現(xiàn)權(quán)衡)。這意味著整個過程是明確執(zhí)行的?紤]兩個具體分配,而不僅僅是總體分配。一旦你決定了這個框架,你就可以使用不同的方法來解決它。代表作品之一是CPO1,它基于經(jīng)典算法TRPO2,解決近似約束下的優(yōu)化問題。 CPO參考TRPO的信任域方法,將需要滿足的成本放入原來的KL散度約束項中,并進行綜合權(quán)衡(從簡單的策略間隙步長到策略間隙本身和安全步長) .)。我們考慮約束滿足(constraint Saturation),并根據(jù)約束滿足和收益將相應(yīng)的更新動作解釋為四種類型。探索經(jīng)歷。
未來,將會改進更多的算法來解決CPO方法的理論局限性。 CPO使用多種代理函數(shù)來代替目標和約束,這些方法包括非凸目標的凸近似和非凸安全約束。這會產(chǎn)生兩個問題。原函數(shù)和凸近似之間沒有理論解釋。采用階次或二次泰勒展開式逼近非凸目標和約束,不會引入誤差,同時優(yōu)化過程中涉及的FIM逆運算處理高維任務(wù),計算開銷增加。針對這兩個問題,基于新替代功能的CUP3應(yīng)運而生。它提供了一種在高維安全強化學(xué)**任務(wù)中的計算中不依賴凸近似的方法。實際效果是利用GAE 推導(dǎo)出更好的邊界,同時也利用其自身的理論保證。更新過程在懲罰下最大化目標,然后使用素對偶方法求解對偶函數(shù)以滿足約束,同時縮小最終策略和最大化性能的中間策略之間的差距。除了上面提到的不斷演進的一套算法之外,我們目前已經(jīng)開發(fā)了一套安全的強化學(xué)**算法如focops、CPPO-pid、RCPO4、pcpo、bcp-lag、可微梯度法,并且多個算法庫正在不斷涌現(xiàn)。實施、收集、總結(jié)。這包括最初的Safety Gym、Safety Control Gym以及北大團隊推出的OmniSafe5。后者系統(tǒng)總結(jié)了現(xiàn)有的on-policy、off-policy、基于模型和無模型的分類算法,并可提供調(diào)用和參考。除上述內(nèi)容外,到目前為止,安全問題和某些方面的約束指標大多是人為設(shè)定的,或者是審計人員根據(jù)現(xiàn)有經(jīng)驗提出的要求。在更加獨立的場景中,代理會面臨需要獨立識別的場景,這需要對安全和事件發(fā)送邏輯的本質(zhì)有深入的理解,考慮這方面的算法有很多。
居安思危是一種文化傳統(tǒng),對安全的考慮也可以被視為學(xué)術(shù)界與社會的真誠聯(lián)系。盡管安全話題有多種表現(xiàn)形式和現(xiàn)實要求,但整體追求離不開公平、包容的出發(fā)點。安全不是一味追求特定指標的最大化,而是在優(yōu)化流程中關(guān)注整體需求,“為所欲為,不超出規(guī)則”,這或許是一種深入理解和接受的理想機制。的概念。這種方法自動考慮了所有損壞的可能性。開放但有限且平等劃分。第:章
[1] Achiam J、Held D、Tamar A 等人,約束策略優(yōu)化,ICML 2017。
[2] Schulman J、Levine S、Moritz P 等人,信任區(qū)域策略優(yōu)化,計算機科學(xué),2015:1889-1897。
[3] Yang L,Ji J,Dai J,et al.Cup:用于安全強化學(xué)**的保守更新策略算法,arXiv預(yù)印本arXiv:2202.07565,2022。
[4] Tessler C、Mankowitz D J、Mannor S. 獎勵約束政策的優(yōu)化. ICLR(海報)2019。
[5] Ji J,Zhou J,Zhang B,et al.用于加速安全強化學(xué)**研究的OmniSafe: 基礎(chǔ)設(shè)施,arXiv 預(yù)印本arXiv:2305.09304,2023。
文| 吳宇森
圖| 不包括標簽,取自互聯(lián)網(wǎng)








