今年，是人形机器人的“ iPhone 时刻”吗？

2023-08-25 00:43:11 来源：ZAKER科技

最近，人形机器人变得非常火热。2023 世界机器人大会近日在北京开幕，人潮涌动。同时，宇树科技、智元机器人等创业公司，相继发布了自己的人形机器人，当这些站立行走，能跑能跳的机器人真真切切地出现在人们面前时，把人们的期待推向了最高潮。

智元机器人的首款产品：远征 A1。图片来源：智元

机器人一直是说起来容易，很科幻，但做起来非常难。哪怕是在不少工厂的流水线里，机器人还是很难适应很多复杂场景。不过自去年底，特斯拉发布了人形机器人 Optimus（擎天柱）以来，人形机器人赛道就在逐渐升温。

那么，为什么人形机器人火了？现在到技术爆发的临界点了吗？相比于工业机器人（是一个比较成熟的赛道，更像传统机械设备），这一波大家对机器人的想象，与工业机器人有什么底层不同？

(资料图)

首先，我们总结说结论，人形机器人赛道之所以变热，核心是智能泛化能力大幅加强，让通用机器人成为可能。以前机器人行业之所以迭代得很慢，是因为每学一套新动作，就需要重新编程一次，只是 " 机械的自动化 "。而现在有了智能泛化能力的突破，甚至只需要语音控制，机器人就能实现新功能，这是从自动化到智能化的底层转变，机器人的通用性被大大增强。

英国机器人公司 Engineered Arts 的人形机器人 Ameca，在接入 Stable Diffusion 之后，可以完成一些简笔画，比如画一只猫。图片来源：Engineered Arts

基于这个认知，我们还可以延展出很多新问题：

当机器人触达技术爆发临界点，更智能的机器人能用在哪里？

机器人是否要做成 " 人形 "？

训练数据是瓶颈，数据还能从哪里来？

今天这篇文章，我们就来探讨以上这些问题，不过人形机器人是一个高速发展中的新赛道，很多问题还没有准确答案，对于一些有争议的部分，欢迎在评论区聊聊，Enjoy：

人形机器人是一个大赛道，能带动众多细分赛道。以特斯拉机器人 Optimus 为代表的人形机器人硬件全景图。图片来源：中信证券

当机器人触达技术爆发临界点，

更智能的机器人能用在哪里？

曾经，机器人是一个迭代速度不算太快的领域，现在的汽车工厂里已有很多工业机器人，并且有着几十年的应用历史，但基本都是非通用智能机器人。

其中的瓶颈在于，像工业机器人这样的非通用智能机器人（往往只是一个机械臂），是在特定场景里做特定任务，各种动作和反应的算法都是写定的，一旦遇到新的情况或环境，如果没有预先写好算法，就会立即变成 " 智障 "。

如今有可能出现真正的通用机器人，这也极大扩展了机器人潜在的应用场景。以往工业机器人只能在流水线的单点上，比如拧好某个螺丝，或是组装好某个部件，但如今有了通用机器人之后，只需要让机器人学会安装逻辑和评估标准就可以了，并且它不仅可以拧好螺丝，当螺丝用完了还可以自己从仓库里取来，或是给机器人装上灵巧手，它就可以使用一些工具，来处理螺丝之外更复杂的事情。

此外，结合 LLM 我们还可以实现语音控制，只需要说出 " 请给我拿杯水 "，先把语音转换成代码，再把代码转换成机器人的动作。这不是影视剧里很遥远的事情，而是正在发生的。今年谷歌发布了 Robotics Transformer-2（RT-2），微软发布了 " ChatGPT for Robotics " 论文，给整个机器人行业带来了轰动。

今年的这些新进展，与以前 " 每做一套新动作，就需要重新编程一次 " 的机器人，有着天壤之别。未来无论是在工厂车间，还是商场、家庭，都很有可能出现一个通用机器人，它能适应不同的环节，不需要重新编程就能在不同任务之间切换自如。

目前，对于大多数通用机器人创业公司来说，第一目标还不是 ToC，而是 ToB，比如工业或是商业场景。先在 B 端场景中打磨好能力，再最终应用到 C 端，是不少机器人公司的计划。

很多公司都把汽车生产作为首要场景。汽车工厂规模很大，较早实现自动化，其中很多环节已经形成流水线用工业机器人替代，但仍有不少环节需要人工操作。比如在汽车工厂的总装车间，仍然需要大量人力，人形机器人可以替代这些环节，并非替代已经通过工业机器人实现自动化的环节。

智元的人形机器人应用在汽车工厂

如果按照马斯克的计划，特斯拉的第一批机器人主要在 B 端应用，替代那些危险、无聊、重复的工作，或是人们不想做的工作。第二批大规模使用的机器人，会拥有在现实世界中的导航能力，也是复用特斯拉电动车的视觉导航技术，无需特定指令也能做有用的事；第三批则是 10 年左右，人们可以在家里使用机器人。

除了汽车工厂，还有 3C 的组装、检测等环节；以及在商业场景中，比如零售业的货架管理、清洁等，也仍有需要大量人工的场景。随着社会老龄化及人力成本的攀升，将有不小的劳动力缺口需要填补。

当然，有些场景也并非一定需要人形机器人，而是根据需求来选择。比如宇树科技创始人兼 CEO 王兴兴曾说，四足机器人与双足机器人相比，具备更高的载荷能力和极强的平衡能力，也更易于控制、设计和维护，在工业端和消费端等都有广泛的应用场景，尤其能在一些危险场景代替人类进行作业。

宇树科技的机器狗可用于消防。图片来源：宇树科技鸿海、软银投资的日本机器人初创公司 Telexistence，可作为商超货架的补货机器人。

不过，今天的通用机器人，离真正商业化落地还有诸多障碍。最明显的就是成功率、执行速度和精度都还不太够。比如谷歌的 RT-2 比起 RT-1，执行成功率提高到了 80%，但在实机演示中，还是错误地识别了一罐柠檬味苏打水，说成了 " 橘子味 "；以及被问到桌子上有什么水果时，机器人回答成 " 白色 "，但实际是香蕉。谷歌解释说，因为 WiFi 临时中断，机器人使用了缓存的答案来回答。虽然 80% 的准确率在一些场景够用，但在另一些需要精度的场景仍然不够，比如一些精密仪器的操作等等。

当然，我们说了这么多具身智能、通用机器人，也并不是说原来的工业机器人领域就没有机会了，只是逻辑不同。在传统机械设备领域，仍有大量机器人零部件创新，和国产替代的机会。比如工业机器人的核心零部件减速器，就长期被日本和德国公司垄断；工业机器人整体的国产化率也仅有 35%，特别是在大六轴、汽车 3C、焊接等工业机器人细分赛道，国产化率都是偏低的，结合智能化仍然有成长空间与创新潜力。

机器人是否要做成 " 人形 "？

在无数科幻影视作品中，人形机器人一直才是人们对机器人的终极想象，比起工业机器人，人形机器人是一种更高维的存在。但由于实现难度太大，一直不是机器人行业的主要形态，直到最近 1 年特斯拉的人形机器人发布，才成为市场焦点。

市场也存在很多质疑声：到底我们需不需要人形机器人？既然难度这么大，到底需要多少年才能在现实生活中落地？是否应该先从机械狗、多轮底盘 + 机械臂等形态入手，而不是一上来就做人形？

当然这个问题还没有答案，我们看到谷歌搭载 RT-2 的机器人，就是四个轮子作为底盘 + 一个机械臂，已经能实现很多功能，比如捡起小东西、开窗户或是垃圾筛选。这种单臂、轮式服务机器人不需要灵巧手（利用空心杯电机实现的仿人手设计）、不需要仿人腿的运动控制系统，也能实现很多家庭、工厂场景的功能。当然它也会有限制，比如不能上下楼梯。

Google 的机器人就是轮式底盘 + 单臂 + 摄像头的形态。图片来源：Google Deepmind

当然，我们的观点是人形肯定是终极形态，因为我们相信最终机器人是会进入千家万户的。但根据不同场景需求，其他形态的机器人也会共存，比如不一定是双足双臂，更早到来的可能是轮式单臂。

人形的好处是：首先是应用范围。如果用终局思维来思考，人形机器人的应用范围肯定是最广的，因为人形才是最适合社会中所有场景的形态，我们所有的建筑、工具等等，都是基于人类的身形而设计的，所以无需改变场景来适应机器人，就能直接使用人类社会中所有工具。这也符合马斯克所提出的愿景，他希望今后人类不想干的事全都可以交给机器人来干，甚至发掘出目前我们还预料不到的用途。

比如最典型的，就是人类的腿和手，在仿生步态下，机器人的运动能力比传统履带、四轮、双轮机器人都有大幅提升，机器人可以上下楼，可以跳跃过障碍物等等。对于手来说，基于空心杯电机的灵巧手，可以实现双手配合和工具替换，这比起传统的工业机器人，能用更广泛的人类工具，技能更广。

特斯拉使用空心杯电机设计的灵巧手。图片来源：东吴证券

其次如果考虑交互，" 人形 " 才能传递出的肢体语言、面部表情等等信息。比如在梅拉宾法则中，心理学家就在强调肢体语言的作用。肢体语言也最符合人类的认知，人类无需重新学习任何新东西，就能轻松理解机器人的动作。在结合大语言模型之后，能够更好的与人类交互。

例如英国 Engineered Arts 公司的人形机器人 Ameca，输入了大量真人表情数据，通过立体 3D 打印机制作出精确的模具，实现了生动的面部表情和肢体语言。

英国机器人公司 Engineered Arts 的人形机器人 Ameca，能够在橡胶皮肤上表现出超过 62 种面部表情，这是 Ameca 著名的 " 苏醒时刻 "。

我们都知道人形有这么多好处，但对人形机器人最大的制约，还是软硬件技术的高难度，小到每一个关节的设计，再到运动控制、对环境的感知等等，每一个环节都存在技术难题，综合在一起更是对系统的集成度、鲁棒性要求很高。

比如运动控制的标杆波士顿动力，已经成立了 31 年，历经被谷歌收购、被软银收购、被韩国现代集团收购，一直都在不断投入，虽然实现了 " 跑酷 " 等炫酷的功能，但背后是不计成本的投入、功耗极高、噪音很大，离量产落地还差很远。

不过，如果一家公司把最终目标定位成人形机器人，不代表它的产品只有一款人形机器人。在高难度的技术研发中，无论是移动、抓取还是视觉感知等等，都可以在这个过程中迭代出新的产品，而最终把各项技术组合在一起，简单来说就是：人形机器人是最难的机器人形态，谁能做好人形，谁就也能做好其他形态的机器人。

总之，机器人的通用性和智能化是接下来的重点，但不一定非要是人形，当下还需要看场景需求。

训练数据是瓶颈

数据还能从哪里来？

能否获得高质量且足够便宜的数据，是当下制约智能机器人发展的瓶颈，也是拉开公司之间竞争的重要手段。

前车之鉴是 Everday Robots，它曾是谷歌的明星独立项目，但在今年 2 月被谷歌因成本控制而解散，并入谷歌其他部门。造成 Everday Robots 成本高昂的一个重要原因，就是数据采集成本过于昂贵。OpenAI 曾经也有一个机器人部门，但后来放弃了，问题也出在数据收集上。

为什么采集成本这么高？主要是因为 Everday Robots 基于真实环境来收集数据。谷歌为了训练 PaLM-E，用了 13 台机器人，收集了 17 个月，才拿到足够的数据量，如果是在更复杂的工业场景，数据采集成本会更高。

目前对于人形机器人来说，主流的数据获取手段有四种：

遥操作数据：这是目前最主流的方式，特斯拉等很多机器人公司都在使用。这种方式基于人工遥操作，先学习和分解人是怎么做到的，然后对应机器人要怎么做到。由于是真实世界的数据，所以数据质量最高，但数据采集成本也是最高的。

机器人的遥操作

模拟器数据：由于遥操作成本过高，更低成本的基于模拟器，来生产仿真数据也有越来越多人使用。一方面通过合成仿真数据可以大幅扩展数据集，此外仿真场景还可以去补充日常现实中比较少出现的任务。在一些任务中，比如导航或是抓取物品等，仿真表现不错，但在另一些对真实物理数据要求比较高的场景，比如在流体中的运动、或是物体破裂等等，还比较难在仿真里做到。但模拟器不是万能的，如何构建丰富的 3D 内容、如何设置合适的奖励机制等，也是这种方式所面临的问题，当然还有算力成本。

视频数据：鉴于线上视频网站中，有大量第一人称视角的视频，这些视频完全可以让机器人或者 AI 来学习，这些都是很好的人类真实活动的视频，通过这些图像来训练机器人的行为决策，可以快速且低成本的实现数据积累和泛化能力。目前学界和谷歌等大厂，都在尝试这种方式来加快训练。

模仿学习：这种方式还在研究中，就是让人直接在机器人面前演示一遍，机器人就学会了。比如在家庭场景中的一些动作，扫地或是把脏衣服放进洗衣机，可能只需要教几遍，不需要额外采集数据，也不需要动作捕捉。有不少相关的论文已经发表。

总之，具身大数据对于机器人来说是一个重要瓶颈，在缺乏具身数据的情况下，很难训练出真正好用的具身基础模型。

目前在每条数据获取的技术路径上，都有很多公司或高校在尝试，很多公司也是几种方式混合在一起使用，以最快的速度和尽量低的成本来获取高质量数据。

今年，机器人在真实环境中的规划、感知、决策、执行等能力大幅提升，通过语音直接控制成为可行，人机交互也大大增强。在这种智能化、通用性的发展趋势下，通用机器人的应用领域被大大拓宽，人形机器人的商业化也成为了可能。

Ameca 已经可以与人类互动，比如讨论音乐。2017 年 10 月，Ameca 成为沙特阿拉伯公民，这是世界上第一个获得国籍的机器人。图片来源：Engineered Arts

通用机器人还将带来工业制造能力的腾飞，从以前只能机械完成代码指令的工业机器人，变成能使用大量人类工具、载具的通用机器人。而在工业制造领域，无论是在机器人零件端，还是工业制造的应用场景、训练所需要的数据成本等方面，中国都更具优势。

在 ITF World 2023 大会上，英伟达创始人黄仁勋说，人工智能的下一个浪潮将是具身智能，即能理解、推理、并与物理世界互动的智能系统。而通用机器人，无疑是最理想的载体。

关键词：

今年，是人形机器人的“ iPhone 时刻”吗？

外交部发言人就日本政府启动福岛核污染水排海发表谈话

俄方：已就坠机“刑事立案”

北京部分地铁车站出入口今起采取临时封闭措施

中国式现代化的京津冀实践｜“医康养”结合的标杆

午间公告：多家公司控股股东承诺不减持亿纬锂能拟1.5亿-3亿元回购公司股份

今年，是人形机器人的“ iPhone 时刻”吗？

外交部发言人就日本政府启动福岛核污染水排海发表谈话

俄方：已就坠机“刑事立案”

北京部分地铁车站出入口今起采取临时封闭措施

中国式现代化的京津冀实践｜“医康养”结合的标杆

午间公告：多家公司控股股东承诺不减持 亿纬锂能拟1.5亿-3亿元回购公司股份

午间公告：多家公司控股股东承诺不减持亿纬锂能拟1.5亿-3亿元回购公司股份