您當前的位置：鋼材 > 鋼絞線 > 市場分析

秋分小常識，秋分和平分秋色

來源:頭條作者: chanong

分享到

關(guān)注德勤鋼鐵網(wǎng)在線：

掃描二維碼
關(guān)注√
德勤鋼鐵網(wǎng)微信

在線咨詢：

掃描或點擊關(guān)注德勤鋼鐵網(wǎng)在線客服

不知不覺，2023年秋分即將來臨。 “中秋月，日正西，陰正東”，自然就產(chǎn)生了“陰陽相齊，晝夜相等，晝夜相等”的性質(zhì)。冷熱相等�！边@里的秋分就像中性和諧的分水嶺，一旦偏離，就變得骯臟，變得寒冷或炎熱。理想的安全就是這樣的公平狀態(tài)。在這里，作者回顧了強化學(xué)**中反映安全問題的部分內(nèi)容。首先，“安全”理念涉及應(yīng)對豐富復(fù)雜的風(fēng)險和問題。實際行動者在追求利潤的過程中也面臨著各種永久性風(fēng)險和偶發(fā)性危機，處理時必須保持平衡。開放性和安全性是需要平衡的。不同的自然有機體需要獲得經(jīng)驗以提高自己的生活水平，但現(xiàn)代社會的智能有機體卻面臨著來自社會關(guān)系以及自身和群體利益的挑戰(zhàn)，需要系統(tǒng)地采取行動�，F(xiàn)實世界中，國際關(guān)系日益復(fù)雜，相關(guān)問題不斷出現(xiàn)。對于傳統(tǒng)的以目標為導(dǎo)向的任務(wù)，避免收入的破壞性下降也可以被認為是一種保證。那么，如果我們從發(fā)展人工智能的角度來思考這個問題，我們?nèi)绾谓虝斯ぶ悄軄韺崿F(xiàn)這樣的目標呢？往往是一個值得關(guān)注的問題。作為一種跨學(xué)科的研究實踐，它往往不僅表現(xiàn)為特定的研究目標，而且表現(xiàn)為一種態(tài)度或思維方式。

強化學(xué)**主要用于解決復(fù)雜的決策問題，可以在具有自然安全約束的不確定環(huán)境中學(xué)**以實現(xiàn)既定目標。強化學(xué)**的探索往往比傳統(tǒng)的收益優(yōu)先的觀點從問題定義的角度增加了許多可能的成本函數(shù)，而這種成本和回報是同源、共生的關(guān)系。安全需求比它們所基于的特定優(yōu)化目標更復(fù)雜。由于多個威脅項/損失可以同時變化，因此從單一優(yōu)化目標的角度來看，整體性能是多目標且不穩(wěn)定的。解決強化學(xué)**中的安全問題，最簡單的思路就是采用傳統(tǒng)的獎勵形成思路（直接修改和添加獎勵函數(shù)，將領(lǐng)域知識引入到模型算法中，同時考慮各個方面可能的改進。從優(yōu)化你的獎勵開始。采用添加拉格朗日項（比例參數(shù)）的方法，將損失乘以某個比例參數(shù)，作為負收入添加到收益函數(shù)中，經(jīng)過折中（權(quán)衡）處理，轉(zhuǎn)化為綜合收益優(yōu)化�？偟膩碚f，性任務(wù)獲得了良好的收斂結(jié)果。這種簡單的方法有兩個固有的缺點。首先，為了保證勘探過程的相對安全，很難避免勘探過程中可能發(fā)生的不可逆動作，避免進入破壞性條件區(qū)域。在現(xiàn)實世界中，即使是最輕微的疏忽或違規(guī)也可能造成災(zāi)難性后果。例如，無法滿足自動駕駛或醫(yī)療機器人等與人身安全密切相關(guān)的高精度要求項目部署后進一步適應(yīng)和探索的需求。其次，多維損失函數(shù)的存在需要多個元素。拉格朗日乘數(shù)。使用雙重方法很難解決優(yōu)化問題。目前有兩種可能的選擇：將某些部分作為整體，單獨對待其他部分，這涉及組合或反向優(yōu)化的風(fēng)險，以及利用斜率直接優(yōu)化綜合收益。整個東西。目前，更大的工藝更難以適應(yīng)不同的成本約束規(guī)模。在實驗中，主要的挑戰(zhàn)出現(xiàn)在拉格朗日乘子的選擇和學(xué)**率的選擇上。很容易解釋為什么一個因素太大。忽視的現(xiàn)象，即剩余部分按比例拆除。一個常見的現(xiàn)象是，如果約束比例太大，代理就不會移動，以防止成本增加。如果約束太低，則約束的效果將被忽略。動態(tài)更新拉格朗日乘子并非易事。如果你實施它，你可能會達到局部最小值。很好的問題。因此，在安全強化學(xué)**中，出現(xiàn)了幾種考慮收益和成本劃分的新技術(shù)，特別是提出收益和成本的組成部分，并將它們視為單獨的優(yōu)化目標。這并不意味著你不能在這個框架中將兩者合二為一（事實上，在后續(xù)的處理過程中，很多方法仍然使用參數(shù)權(quán)重來實現(xiàn)權(quán)衡）。這意味著整個過程是明確執(zhí)行的。考慮兩個具體分配，而不僅僅是總體分配。一旦你決定了這個框架，你就可以使用不同的方法來解決它。代表作品之一是CPO1，它基于經(jīng)典算法TRPO2，解決近似約束下的優(yōu)化問題。 CPO參考TRPO的信任域方法，將需要滿足的成本放入原來的KL散度約束項中，并進行綜合權(quán)衡（從簡單的策略間隙步長到策略間隙本身和安全步長） .)。我們考慮約束滿足（constraint Saturation），并根據(jù)約束滿足和收益將相應(yīng)的更新動作解釋為四種類型。探索經(jīng)歷。

未來，將會改進更多的算法來解決CPO方法的理論局限性。 CPO使用多種代理函數(shù)來代替目標和約束，這些方法包括非凸目標的凸近似和非凸安全約束。這會產(chǎn)生兩個問題。原函數(shù)和凸近似之間沒有理論解釋。采用階次或二次泰勒展開式逼近非凸目標和約束，不會引入誤差，同時優(yōu)化過程中涉及的FIM逆運算處理高維任務(wù)，計算開銷增加。針對這兩個問題，基于新替代功能的CUP3應(yīng)運而生。它提供了一種在高維安全強化學(xué)**任務(wù)中的計算中不依賴凸近似的方法。實際效果是利用GAE 推導(dǎo)出更好的邊界，同時也利用其自身的理論保證。更新過程在懲罰下最大化目標，然后使用素對偶方法求解對偶函數(shù)以滿足約束，同時縮小最終策略和最大化性能的中間策略之間的差距。除了上面提到的不斷演進的一套算法之外，我們目前已經(jīng)開發(fā)了一套安全的強化學(xué)**算法如focops、CPPO-pid、RCPO4、pcpo、bcp-lag、可微梯度法，并且多個算法庫正在不斷涌現(xiàn)。實施、收集、總結(jié)。這包括最初的Safety Gym、Safety Control Gym以及北大團隊推出的OmniSafe5。后者系統(tǒng)總結(jié)了現(xiàn)有的on-policy、off-policy、基于模型和無模型的分類算法，并可提供調(diào)用和參考。除上述內(nèi)容外，到目前為止，安全問題和某些方面的約束指標大多是人為設(shè)定的，或者是審計人員根據(jù)現(xiàn)有經(jīng)驗提出的要求。在更加獨立的場景中，代理會面臨需要獨立識別的場景，這需要對安全和事件發(fā)送邏輯的本質(zhì)有深入的理解，考慮這方面的算法有很多。

居安思危是一種文化傳統(tǒng)，對安全的考慮也可以被視為學(xué)術(shù)界與社會的真誠聯(lián)系。盡管安全話題有多種表現(xiàn)形式和現(xiàn)實要求，但整體追求離不開公平、包容的出發(fā)點。安全不是一味追求特定指標的最大化，而是在優(yōu)化流程中關(guān)注整體需求，“為所欲為，不超出規(guī)則”，這或許是一種深入理解和接受的理想機制。的概念。這種方法自動考慮了所有損壞的可能性。開放但有限且平等劃分。第：章

[1] Achiam J、Held D、Tamar A 等人，約束策略優(yōu)化，ICML 2017。

[2] Schulman J、Levine S、Moritz P 等人，信任區(qū)域策略優(yōu)化，計算機科學(xué)，2015:1889-1897。

[3] Yang L，Ji J，Dai J，et al.Cup:用于安全強化學(xué)**的保守更新策略算法，arXiv預(yù)印本arXiv:2202.07565，2022。

[4] Tessler C、Mankowitz D J、Mannor S. 獎勵約束政策的優(yōu)化. ICLR（海報）2019。

[5] Ji J，Zhou J，Zhang B，et al.用于加速安全強化學(xué)**研究的OmniSafe: 基礎(chǔ)設(shè)施，arXiv 預(yù)印本arXiv:2305.09304，2023。

文| 吳宇森

圖| 不包括標簽，取自互聯(lián)網(wǎng)

責(zé)任編輯：德勤鋼鐵網(wǎng) 標簽：

秋分小常識，秋分和平分秋色

chanong

強化學(xué)**主要用于解決復(fù)雜的決策問題，可以在具有自然安全約束的不確定環(huán)境中學(xué)**以實現(xiàn)既定目標。強化學(xué)**的探索往往比傳統(tǒng)的收益優(yōu)先的觀點從問題定義的角度增加了許多可能的成本函數(shù)，而這種成本和回報是同源、共生的關(guān)系。安全需求比它們所基于的特定優(yōu)化目標更復(fù)雜。由于多個威脅項/損失可以同時變化，因此從單一優(yōu)化目標的角度來看，整體性能是多目標且不穩(wěn)定的。解決強化學(xué)**中的安全問題，最簡單的思路就是采用傳統(tǒng)的獎勵形成思路（直接修改和添加獎勵函數(shù)，將領(lǐng)域知識引入到模型算法中，同時考慮各個方面可能的改進。從優(yōu)化你的獎勵開始。采用添加拉格朗日項（比例參數(shù)）的方法，將損失乘以某個比例參數(shù)，作為負收入添加到收益函數(shù)中，經(jīng)過折中（權(quán)衡）處理，轉(zhuǎn)化為綜合收益優(yōu)化�？偟膩碚f，性任務(wù)獲得了良好的收斂結(jié)果。這種簡單的方法有兩個固有的缺點。首先，為了保證勘探過程的相對安全，很難避免勘探過程中可能發(fā)生的不可逆動作，避免進入破壞性條件區(qū)域。在現(xiàn)實世界中，即使是最輕微的疏忽或違規(guī)也可能造成災(zāi)難性后果。例如，無法滿足自動駕駛或醫(yī)療機器人等與人身安全密切相關(guān)的高精度要求項目部署后進一步適應(yīng)和探索的需求。其次，多維損失函數(shù)的存在需要多個元素。拉格朗日乘數(shù)。使用雙重方法很難解決優(yōu)化問題。目前有兩種可能的選擇：將某些部分作為整體，單獨對待其他部分，這涉及組合或反向優(yōu)化的風(fēng)險，以及利用斜率直接優(yōu)化綜合收益。整個東西。目前，更大的工藝更難以適應(yīng)不同的成本約束規(guī)模。在實驗中，主要的挑戰(zhàn)出現(xiàn)在拉格朗日乘子的選擇和學(xué)**率的選擇上。很容易解釋為什么一個因素太大。忽視的現(xiàn)象，即剩余部分按比例拆除。一個常見的現(xiàn)象是，如果約束比例太大，代理就不會移動，以防止成本增加。如果約束太低，則約束的效果將被忽略。動態(tài)更新拉格朗日乘子并非易事。如果你實施它，你可能會達到局部最小值。很好的問題。因此，在安全強化學(xué)**中，出現(xiàn)了幾種考慮收益和成本劃分的新技術(shù)，特別是提出收益和成本的組成部分，并將它們視為單獨的優(yōu)化目標。這并不意味著你不能在這個框架中將兩者合二為一（事實上，在后續(xù)的處理過程中，很多方法仍然使用參數(shù)權(quán)重來實現(xiàn)權(quán)衡）。這意味著整個過程是明確執(zhí)行的�？紤]兩個具體分配，而不僅僅是總體分配。一旦你決定了這個框架，你就可以使用不同的方法來解決它。代表作品之一是CPO1，它基于經(jīng)典算法TRPO2，解決近似約束下的優(yōu)化問題。 CPO參考TRPO的信任域方法，將需要滿足的成本放入原來的KL散度約束項中，并進行綜合權(quán)衡（從簡單的策略間隙步長到策略間隙本身和安全步長） .)。我們考慮約束滿足（constraint Saturation），并根據(jù)約束滿足和收益將相應(yīng)的更新動作解釋為四種類型。探索經(jīng)歷。

[1] Achiam J、Held D、Tamar A 等人，約束策略優(yōu)化，ICML 2017。

[2] Schulman J、Levine S、Moritz P 等人，信任區(qū)域策略優(yōu)化，計算機科學(xué)，2015:1889-1897。

[3] Yang L，Ji J，Dai J，et al.Cup:用于安全強化學(xué)**的保守更新策略算法，arXiv預(yù)印本arXiv:2202.07565，2022。

[4] Tessler C、Mankowitz D J、Mannor S. 獎勵約束政策的優(yōu)化. ICLR（海報）2019。

[5] Ji J，Zhou J，Zhang B，et al.用于加速安全強化學(xué)**研究的OmniSafe: 基礎(chǔ)設(shè)施，arXiv 預(yù)印本arXiv:2305.09304，2023。

文| 吳宇森

圖| 不包括標簽，取自互聯(lián)網(wǎng)

市場分析

秋分小常識，秋分和平分秋色

熱門搜索

相關(guān)文章

秋分小常識，秋分和平分秋色

三級螺紋鋼有哪些型號規(guī)格？怎么挑

三級螺紋鋼和三級抗震的區(qū)別是什么

x四代土影黑土腿中間

廢文網(wǎng)李鬼分站的安安靜靜備胎計劃

一級二級三級螺紋鋼用途有什么區(qū)別

2023年新電費收費標準？公布2023年

秋分小常識，秋分和平分秋色

熱門搜索

相關(guān)文章

三級螺紋鋼有哪些型號規(guī)格？怎么挑

三級螺紋鋼和三級抗震的區(qū)別是什么

x四代土影黑土腿中間

廢文網(wǎng)李鬼分站的安安靜靜備胎計劃

一級二級三級螺紋鋼用途有什么區(qū)別

2023年新電費收費標準？公布2023年

秋分小常識，秋分和平分秋色

三級螺紋鋼有哪些型號規(guī)格？怎么挑

2023年新電費收費標準？公布2023年