逐帧时代终结自变量机器人全球首发事件级预测能力

生活快报Lifestyle 2026-05-31

生成海报

举报/投诉

全球具身智能产业正面临技术路线与商业化进程的双重转折点。

近期，自变量机器人宣布推出全球首个具备"事件级预测能力"的世界模型WALL-WM。这一创新标志着具身智能领域告别了沿用数十年的"按时间均匀采样"传统模式，首次以现实中的"事件"作为世界模型的基本分析单位。

自变量机器人在技术突破方面取得显著进展。其最新模型不再局限于对每一帧画面进行机械预测，而是能够自主识别关键瞬间，并以抓取、归置等语义事件为基本预测单元。这种创新方式大幅降低了无效计算，使机器人的决策模式更接近人类的"重点捕捉"思维。

在资本方面，自变量机器人于今年4月底完成B轮融资，融资规模近20亿元，由小米战投与红杉中国共同领投。值得注意的是，自变量是目前国内唯一同时获得字节跳动、美团、阿里巴巴和小米四家顶级互联网企业投资的具身智能公司。

技术革新：从"轨迹模仿"到"事件理解"

过去三年，VLA（视觉-语言-动作）架构主导了全球具身智能领域的发展。然而随着机器人实际部署规模的扩大，该架构的固有缺陷逐渐显现。

自变量团队深入分析发现，文本、视觉和动作这三个要素本质上处于不同的数据流中：文本是低熵离散语义，视觉呈现为高维连续观测流，而动作则受物理规律严格约束。这三者在空间邻域和时间尺度上缺乏统一性，直接联合优化会导致视频基础模型先验能力严重损耗。

针对这些挑战，自变量机器人WALL-WM实现了重大突破。该模型摒弃了传统的"固定时间长度动作块"定义方式，创新性地将"以动作为中心的语义事件"设为最小学习单元。这一变革使得伸手、抓取、提起等连贯行为片段能够被语言准确描述，并在视频和动作执行层面实现自然衔接。

资本市场的活跃进一步推动了行业发展。自2026年以来，国内具身智能领域的投资总额已超过2025年全年水平，单笔融资额过10亿元的案例多达10起。这些资金正加速流向产业链各个环节：上游零部件、中游具身大脑以及下游RaaS（机器人即服务）平台。

关于吸引顶级投资机构的原因，自变量创始人王潜曾表示："所有这些投资人支持我们的核心逻辑非常简单——技术领先性。这些大厂本身在大模型领域处于全球领先地位，他们的技术判断力非常强，倾向于支持那些具有技术驱动性质的项目。"

王潜认为，当前具身机器人的硬件技术已相对成熟，数据和技术是未来发展的关键瓶颈。他展望称："我们期望在2至3年内实现对物理世界的'顿悟时刻'，就像当年ChatGPT带来的变革一样。"