微软新研究:无人机获推理能力,看图就能做出决策
本篇文章1368字,读完约3分钟
雷锋网注:图片来自微软官方网站
一般来说,人类通过感知做出相应的决定,比如避开障碍物。
虽然这种“从感知到行动”的逻辑已经应用到传感器和摄像机领域,但它已经成为等待机器人自主系统的核心。然而,目前,机器的自主程度远远低于人类基于视觉数据的决策水平,尤其是在处理诸如第一人称视角(fpv)导航空导航等开放世界感知控制任务时。
然而,微软共享的新机器学习系统领域最近带来了新的希望:帮助无人驾驶飞行器通过图像推理做出正确的决策。
微软受到第一人称视角(fpv)无人机竞赛的启发,在该竞赛中,操作员可以通过单目摄像机规划和控制无人机的运行路线,从而大大降低了危险的可能性。因此,微软认为这种模式可以应用到新系统中,使视觉信息可以直接映射到实现正确决策的行动中。
具体来说,这个新系统清楚地将感知部分(理解你所看到的)与控制策略(决定做什么)分开,这便于研究人员调试深层神经模型。至于模拟器,因为模型必须能够区分模拟和真实环境之间的细微差别,微软使用了一个叫做“airsim”的高保真模拟器来训练该系统,然后将该系统直接部署到真实场景中的无人机上,无需修改。
雷锋。(公开号码:雷锋。注:上图显示的是微软在测试中使用的无人机
他们还使用了一种称为“cm-vae”的自动编码器框架,将模拟和现实之间的差异紧密联系起来,以避免合成数据的过度拟合。在
cm-vae框架下,感知模块输入的图像从高维序列压缩到低维表示,例如从2000多个变量压缩到10个变量,压缩后的像素大小为
128x72,只要能够描述其最基本的状态即可。虽然系统仅使用10个变量对图像进行编码,但解码后的图像为无人机提供了丰富的“所见场景”描述,包括物体的大小和位置以及不同的背景信息。此外,这种尺寸压缩技术是平滑和连续的。
为了更好地演示该系统的功能,微软公司测试了一种小型的带有前置摄像头的敏捷四旋翼无人机,试图让无人机根据rgb摄像头的图像进行导航。
研究人员在45米长的S形轨道和40米长的O形轨道上测试了装有该系统的无人机,S形轨道由8个障碍物框架组成。实验表明,cm-vae 自动编码框架的性能明显优于直接编码框架。即使在强视觉干扰的情况下,系统也成功地完成了任务。
雷锋网注:上图为试验场地的侧视图和俯视图
微软声称:
在模拟训练阶段,无人机在从未见过的视觉条件下进行测试,我们充分发挥了感知控制框架的作用。
经过模拟训练后,该系统可以在现实世界的挑战性环境中独立进行“自主导航”,非常适合在搜救任务中部署。该研究的参与者表示,该系统将在实际应用中显示出巨大的潜力——尽管在年龄、体型、性别、种族等因素上存在差异,但自主搜索和救援机器人能够更好地识别人类并帮助他们。
参考文献:
venturebeat/2020/03/18/Microsoft-research-train-ai-in-simulation-control-a-real-world-无人机/
www . Microsoft/en-us/research/blog/training-deep-control-policies-for-real-world/
www . Microsoft/en-us/research/uploads/prod/2020/03/1909 . 06993 . pdf
标题:微软新研究:无人机获推理能力,看图就能做出决策
地址:http://www.qdgzw.com/kjcy/32956.html
免责声明:京青年创业网是一个专业为创业者提供学习交流的创业资讯媒体,更新的资讯来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,京青年创业网编辑将予以删除。