加载中 ...
首页 > 股票 > B股 > 正文

DeepMind提出了空头排列一种新颖的方法来训练“安全”强化学习AI

2023-05-06 08:33:12 来源:盛楚鉫鉅网

强化学习署理程序(或经过奖赏(或赏罚)逐渐推进完成方针的AI)构成了自动驾驶轿车,灵活机器人和药物发现体系的根底。可是,因为他们倾向于探究生疏的状况,因而他们简略遭到所谓的安全探究问题的困扰,然后使他们陷入了不安全的状况(例如,移动机器人驶入水沟)。

因而,Alphabet的DeepMind研讨人员在论文中研讨了一种奖赏建模办法,该办法分为两个阶段运转,而且适用于署理商不知道或许处于不安全状况的环境。研讨人员说,他们的办法不只成功地练习了奖赏模型以检测不安全状况而不拜访它们,而且还能够在布置署理之前纠正奖赏黑客行为(奖赏标准中的缝隙),即使是在新的生疏环境中也是如此。

风趣的是,他们的作业是在坐落旧金山的研讨公司OpenAI的Safety Gym发布后不久进行的。这是一套用于开发AI的东西,该AI在练习时尊重安全束缚,并将其“安全性”与在学习中防止过错的程度进行了比较。安全体育馆相同以“束缚强化学习”为方针,针对强化学习署理,该范式要求AI体系进行权衡以完成确认的成果。

DeepMind小组的办法鼓舞署理人经过两个体系生成的假定行为来探究一系列状况:初始状况的生成模型和正向动力学模型,这两个体系都接受了随机轨道或安全专家演示等数据的练习。主管人员用奖赏来符号行为,署理人以交互方法学习战略以最大化其奖赏。只要在署理成功学会了猜测奖赏和不安全状况后,他们才被布置履行所需的使命。

正如研讨人员所指出的那样,要害思维是从头开始对假定行为进行自动归纳,使它们尽或许多地供给信息,而无需与环境直接交互。 DeepMind团队称其为经过轨道优化或ReQueST奖赏查询归纳,并解说说它一共发生四种类型的假定行为。第一种最大化奖赏模型调集的不确认性,而第二种和第三种最大化猜测的奖赏(为具有最高信息值的行为贴上标签),并最小化猜测的奖赏(对奖赏模型或许不正确的外表行为)猜测)。至于行为的第四类,它使轨道的新颖性最大化,然后不管预期的报答怎么都鼓舞探究。

最终,一旦奖赏模型到达令人满意的状况,便会布置根据方案的署理,该署理运用模型猜测操控(MPC)来挑选针对学习的奖赏进行了优化的操作。与经过试错法学习的无模型强化学习算法不同,此MPC经过运用动力学模型来猜测动作的结果,使署理能够防止不安全状况。

该研讨的合著者写道:“据咱们所知,ReQueST是第一种安全地了解不安全状况的奖赏建模算法,而且能够扩展到在具有高维,接连状况的环境中练习神经络奖赏模型。” “到目前为止,咱们仅经过相对简略的动力学就证明了ReQueST在模仿域中的有效性。未来作业的一个方向是在3D范畴中运用更传神的物理学和在环境中起作用的其他署理来测验ReQueST。”

猜你喜欢的标签:股票基金入门 外汇进入中国

“盛楚鉫鉅网-财经,证券,股票,期货,基金,风险,外汇,理财投资门户”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服邮箱,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

其观点或证实其内容的真实性。

  • 声音提醒
  • 60秒后自动更新
  • 中国8月CPI年率2.3%,预期2.1%,前值2.1%。中国8月PPI年率4.1%,预期4.0%,前值4.6%。

    08:00
  • 【统计局解读8月CPI:主要受食品价格上涨较多影响】从环比看,CPI上涨0.7%,涨幅比上月扩大0.4个百分点,主要受食品价格上涨较多影响。食品价格上涨2.4%,涨幅比上月扩大2.3个百分点,影响CPI上涨约0.46个百分点。从同比看,CPI上涨2.3%,涨幅比上月扩大0.2个百分点。1-8月平均,CPI上涨2.0%,与1-7月平均涨幅相同,表现出稳定态势。

    08:00
  • 【 统计局:从调查的40个行业大类看,8月价格上涨的有30个 】统计局:从环比看,PPI上涨0.4%,涨幅比上月扩大0.3个百分点。生产资料价格上涨0.5%,涨幅比上月扩大0.4个百分点;生活资料价格上涨0.3%,扩大0.1个百分点。从调查的40个行业大类看,价格上涨的有30个,持平的有4个,下降的有6个。 在主要行业中,涨幅扩大的有黑色金属冶炼和压延加工业,上涨2.1%,比上月扩大1.6个百分点;石油、煤炭及其他燃料加工业,上涨1.7%,扩大0.8个百分点。化学原料和化学制品制造业价格由降转升,上涨0.6%。

    08:00
  • 【日本经济已重回增长轨道】日本政府公布的数据显示,第二季度经济扩张速度明显快于最初估值,因企业在劳动力严重短缺的情况下支出超预期。第二季度日本经济折合成年率增长3.0%,高于1.9%的初步估计。经济数据证实,该全球第三大经济体已重回增长轨道。(华尔街日报)

    08:00
  • 工信部:1-7月我国规模以上互联网和相关服务企业完成业务收入4965亿元,同比增长25.9%。

    08:00
  • 【华泰宏观:通胀短期快速上行风险因素主要在猪价】华泰宏观李超团队点评8月通胀数据称,今年二、三季度全国部分地区的异常天气(霜冻、降雨等)因素触发了粮食、鲜菜和鲜果价格的波动预期,但这些因素对整体通胀影响有限,未来重点关注的通胀风险因素仍然是猪价和油价,短期尤其需要关注生猪疫情的传播情况。中性预测下半年通胀高点可能在+2.5%附近,年底前有望从高点小幅回落。

    08:00
  • 【中国信通院:8月国内市场手机出货量同比环比均下降】中国信通院公布数据显示:2018年8月,国内手机市场出货量3259.5万部,同比下降20.9%,环比下降11.8%,其中智能手机出货量为3044.8万部,同比下降 17.4%; 2018年1-8月,国内手机市场出货量2.66亿部,同比下降17.7%。

    08:00
  • 土耳其第二季度经济同比增长5.2%。

    08:00
  • 乘联会:中国8月份广义乘用车零售销量176万辆,同比减少7.4%。

    08:00
  • 央行连续第十四个交易日不开展逆回购操作,今日无逆回购到期。

    08:00
  • 【黑田东彦:日本央行需要维持宽松政策一段时间】日本央行已经做出调整,以灵活地解决副作用和长期收益率的变化。央行在7月政策会议的决定中明确承诺将利率在更长时间内维持在低水平。(日本静冈新闻)

    08:00
  • 澳洲联储助理主席Bullock:广泛的家庭财务压力并非迫在眉睫,只有少数借贷者发现难以偿还本金和利息贷款。大部分家庭能够偿还债务。

    08:00
  • 【 美联储罗森格伦:9月很可能加息 】美联储罗森格伦:经济表现强劲,未来或需采取“温和紧缩”的政策。美联储若调高对中性利率的预估,从而调升对利率路径的预估,并不会感到意外。

    08:00
  • 美联储罗森格伦:经济表现强劲,未来或需采取“温和紧缩”的政策。美联储若调高对中性利率的预估,从而调升对利率路径的预估,并不会感到意外。

    08:00
  • 美联储罗森格伦:鉴于经济表现强劲,未来或需采取“温和紧缩的”政策。

    08:00