全球具身智能产业正面临技术路线与商业化进程的双重转折点。

近期,自变量机器人宣布推出全球首个具备"事件级预测能力"的世界模型WALL-WM。这一创新标志着具身智能领域告别了沿用数十年的"按时间均匀采样"传统模式,首次以现实中的"事件"作为世界模型的基本分析单位。

自变量机器人在技术突破方面取得显著进展。其最新模型不再局限于对每一帧画面进行机械预测,而是能够自主识别关键瞬间,并以抓取、归置等语义事件为基本预测单元。这种创新方式大幅降低了无效计算,使机器人的决策模式更接近人类的"重点捕捉"思维。

在资本方面,自变量机器人于今年4月底完成B轮融资,融资规模近20亿元,由小米战投与红杉中国共同领投。值得注意的是,自变量是目前国内唯一同时获得字节跳动、美团、阿里巴巴和小米四家顶级互联网企业投资的具身智能公司。

技术革新:从"轨迹模仿"到"事件理解"

过去三年,VLA(视觉-语言-动作)架构主导了全球具身智能领域的发展。然而随着机器人实际部署规模的扩大,该架构的固有缺陷逐渐显现。

自变量团队深入分析发现,文本、视觉和动作这三个要素本质上处于不同的数据流中:文本是低熵离散语义,视觉呈现为高维连续观测流,而动作则受物理规律严格约束。这三者在空间邻域和时间尺度上缺乏统一性,直接联合优化会导致视频基础模型先验能力严重损耗。

针对这些挑战,自变量机器人WALL-WM实现了重大突破。该模型摒弃了传统的"固定时间长度动作块"定义方式,创新性地将"以动作为中心的语义事件"设为最小学习单元。这一变革使得伸手、抓取、提起等连贯行为片段能够被语言准确描述,并在视频和动作执行层面实现自然衔接。

行业新格局:规模化商用竞争开启

资本市场的活跃进一步推动了行业发展。自2026年以来,国内具身智能领域的投资总额已超过2025年全年水平,单笔融资额过10亿元的案例多达10起。这些资金正加速流向产业链各个环节:上游零部件、中游具身大脑以及下游RaaS(机器人即服务)平台。

关于吸引顶级投资机构的原因,自变量创始人王潜曾表示:"所有这些投资人支持我们的核心逻辑非常简单——技术领先性。这些大厂本身在大模型领域处于全球领先地位,他们的技术判断力非常强,倾向于支持那些具有技术驱动性质的项目。"

王潜认为,当前具身机器人的硬件技术已相对成熟,数据和技术是未来发展的关键瓶颈。他展望称:"我们期望在2至3年内实现对物理世界的'顿悟时刻',就像当年ChatGPT带来的变革一样。"