#头条创作挑战赛#
北京时间2022年10月1日,在特斯拉2022AIDay活动上,Tesla Bot人形机器人“Optimus”原型机完成全球首秀。
据透露,“擎天柱”(Optimus)是第一个没有外部稳定辅助、没有遥控、没有外带电源,完全依靠AI算法、自身电池电控和高集成电驱执行器驱动的人形机器人。
“擎天柱”(Optimus)人形机器人相关参数
1、身高约170cm,体重73kg,整体外观已接近成年人类体型;
2、躯干内置全身供电的2.3kWh电池组,工作电压为52V,可支持机器人工作一整天;电池采用4680圆柱电池,并将充电、功率等功能进行集成,采用金属壳体解决散热问题;静坐和快走功耗分别为100W和500W;
3、全身集成了各类传感器、控制系统,配置28个驱动模块,拥有超过200个自由度;可以较好地模拟人类全身的各种运动模式;
4、手指配置了6个执行器,拥有11个自由度,并搭载了能够驱动手指的传感器,具备感知功能;
5、采用特斯拉SoC芯片,支持WiFi和LTE网络连接。
量化人体运动轨迹和力学结构,四肢运动更加灵敏
相较于传统的在末端配置压力传感器进行力反馈,特斯拉机器人在全身所有组件中均实现压力计算和实时反馈机制,从而解决了机器人运动僵硬的问题。
以腿部膝关节为例,特斯拉构建了人类在运动过程中,膝盖及联动关节的动力学数据,让机器人学习不同运动模式下,腿部的发力规划和力度控制,实现了膝盖弯曲等动作的流畅和自然。擎天柱机器人膝关节机械结构
擎天柱机器人膝关节机械结构 VS 人类膝关节力学结构
模拟人类双手,手部抓握及触觉感知层面实现重大突破
人类的双手集触觉感知、灵活性、多功能等特点于一身,机器人手臂要实现人类手部的各项功能有着极高的难度。擎天柱(Optimus)的手指配置了6个执行器,拥有11个自由度,并搭载了能够驱动手指的传感器,具备感知功能。
人类日常生活中大多数物品均基于人手部生物结构特征而设计,因此机器人需要在识别物体的同时,基于手部的触觉感知对不同物体的抓握方式进行模型训练。目前擎天柱(Optimus)可实现对水壶的抓握并完成浇水动作,反映出在手部运动感知层面的迭代和进步。
双手拥有6种不同的关节驱动器
承接自动驾驶技术,视觉导航和运动平衡算法迭代令人关注
借鉴自动驾驶技术,通过“占用网络”实现机器人视觉导航。擎天柱机器人采用了和特斯拉电动车同样的神经网络来训练识别可行驶区域,并实现路径规划,引导机器人更快、更精准地到达目的地。
机器人的视觉导航技术
实时步伐规划,保证运动平稳的同时不断迭代运动速度
为模拟人类自然流畅的运动模式,特斯拉预先基于运动学和动力学,形成运动模型,然后根据不同的环境特征进行训练。在实际运动中,擎天柱可基于预先规划的行动路线,不断添加轨迹并实时规划下一步的落脚点,驱动执行器执行。
在保证运动平衡性的基础上实现运动速率的持续迭代,未来有望真正实现人类高速和复杂化的运动模式。为解决运动速度增加后全身平衡的问题,特斯拉基于机器人骨盆、重心等位置的传感器数据输入到运动模型进行训练,以提高机器人在运动过程中保持平衡的能力。
擎天柱(Optimus)实时步伐规划 VS波士顿动力机器人步伐规划
数据积累推动FSD技术迭代,关注机器人细分场景的模型学习
技术路线逐渐确定,自动化和数据闭环体系成为特斯拉自动驾驶技术迭代驱动力。在本次AIDay上,特斯拉也公布了FSD技术的最新进展,通过对超过75000个神经网络模型,对自动驾驶场景中的不同目标物识别进行更深入的训练。
在数据层面,特斯拉开发3D自动“打标工厂”,为模型提供海量高质量数据,大幅优化训练效率。特斯拉通过汽车的8个摄像头,基于Transformer架构生成3D场景下的实际数据;而特斯拉自研的Lanegraph工具可以快速重建模拟环境,基于对车道线、道路宽度、交通标志等信息的学习和训练,快速生成模拟场景,生成高质量的训练场景,从而优化训练效果。
以路口静止车辆的识别任务为例,特斯拉通过真实场景的数据积累和模型训练,在过去一年内将识别准确率从85%提升到接近100%。
基于车载摄像头收集实际场景数据
Lanegraph工具
可以确信,在特斯拉引领下,基于注意力机制的Transformer架构下的数据融合技术,以及借鉴NLP领域思路的模型优化手段已经逐渐成为行业主流,未来细分场景下的数据采集和模型训练将成为AI迭代速度的重要因素。随着特斯拉人形机器人逐步布局到工厂、办公室、家庭等场景内,将为AI模型训练提供更多高质量的真实场景数据,有望推动人工智能从感知到认知,从弱人工智能到强人工智能的加速迈进。
Tesla 超算Dojo新进展,未来超算中心有望提供更强算力
擎天柱机器人大脑将采用Dojo D1超级计算芯片,可提升约30%的神经网络训练速度。D1采用台积电7nm制程工艺,在645mm²的面积上塞了500亿颗晶体管,BF16、CFP8算力可达362TFLOPS,FP32算力可达22.6TFLOPS,TDP(热设计功耗)为400W。
有望在3~5年后深入消费者家庭场景
特斯拉人形机器人“Optimus”借鉴在汽车领域中的技术积累,在视觉感知、安全防护等方面实现技术迭代。可完成部分工作任务,未来有望实现量产并深入家庭服务场景。
通过发布会的视频,可以看到擎天柱已经可以完成浇花、搬运包裹和在工厂里搬运钢管等任务,基于机器人视角的图像可以发现机器人已经具备了高准确度和实时的环境及物体识别能力。
特斯拉CEO马斯克表示,擎天柱有望在3~5年后深入消费者家庭场景,完成做饭、修剪草坪、老人陪伴等工作,并预计届时售价可降至约两万美元。
写在最后
环境识别决定机器人感知能力,承袭自动驾驶技术,特斯拉机器人采用纯视觉方案实现对环境的感知和目标识别。
在视觉领域激光雷达能够为感知系统提供深度信息,辅助机器视觉实现三维信息构建;同时未来机器人还会模拟人类在触觉、嗅觉、温度感知等多维度的感知能力,基于对多模态环境信息的加工处理,实现更精确的行为决策和人机交互,因此在传感器和数据处理芯片领域具备竞争优势的厂商将会迎来新发展机遇。
国内小米等公司相继入局人形机器人,人工智能应用从自动驾驶场景逐步延伸到更多细分场景,训练数据和模型需求将随着场景的拓展而指数级成长,同时对算力也提出更高要求。参考特斯拉在自动驾驶领域的布局和发力点,国内未来也将逐步在场景数据积累、模型训练和算力建设方面加速布局。
结合当前情况看,人形机器人的情况并不理想,主要受制于AI技术迭代、以及核心零部件(减速器、伺服系统、控制器)在体积、重量、负载性能和精密度的更高要求都不及预期。