伯克利，斯坦福，宾大联合发表：从观察和交互中学习预测模型-阿里云开发者社区

伯克利，斯坦福，宾大联合发表：从观察和交互中学习预测模型

2023-08-05 132

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 伯克利，斯坦福，宾大联合发表：从观察和交互中学习预测模型

所解决的问题？

作者在这里所关心的是，智能体采样很难采样到那些表现性能比较好的样本，就是说有些状态动作对根本就采不到，因为很难去学习这么好的策略，但是人类可以很轻松的采样得到这些样本。但是这些样本也是存在一些问题的，比如是没有带注释的，他不会有描述说为什么这么做，如果像模仿学习那样利用这些样本的话，还会存在分布漂移的问题(distributional shift)。对于第一个问题作者用图模型做，第二个问题用domain-dependent prior做。

背景

人类是很容易从别人的trajectory中进行学习，但是由于个体之间的差异，从observation学习action其实是很困难的，比如对于同一个重物，成年人可以很轻松拿起来，而对于婴儿就不是那么容易了。而作者结合历史的观测来解决这个问题。基于模型的强化学习基本上都是要学一个状态-动作的条件概率分布，如果只给observation，其实是很难学习的。而现实生活中却又存在这样大量地数据，你只能获取observation，并不知道具体所采取的动作是什么。比如一个机器人捡东西的视频，你是不可能知道当前时刻输出的电流，扭矩这些东西的。

作者提出了一种既能够从有动作标注的信息中学，也能从只有观测信息总学习model的方法。也就是action是否给定，都能学。当然了学状态转移的概率太多了,也不一一列举,今年争取做个相关的综述, 以后放在公众号的菜单栏吧,方便大家寻找.

除此之外,为了能够处理observational 和interaction data , 作者还需要解决Domain adaptation的问题. 对跨域的不变性进行正则化( regularizing for invariance across domains )是不够理想的。例如，如果人类的观察数据涉及到复杂的操作（例如，工具使用），而交互数据只涉及到简单的操作，我们不希望模型对这些差异保持不变。因此，我们采取了一种不同的方法：我们不对跨域的不变性进行正则化，而是明确地对每个域中的（潜伏）行动变量的分布进行建模( model the distributions over (latent) action variables in each of the domains)。