上海创智学院师生“研创学”，边部署边进化通用机器人训练

2026-04-30 青年 

青年报·青春上海记者刘昕璐

具身智能作为人工智能发展的下一个浪潮，是培育和发展新质生产力的重要引擎。如何让机器人在复杂的真实物理世界中稳定运行，是当前产业界亟待攻克的核心命题。

上海创智学院4月30日传出消息，上海创智学院与智元机器人具身研究中心联合推出最新自主研发成果——LWD（Learning While Deploying）强化学习框架。这一框架在业界首次打通了面向大规模真实世界部署的闭环训练管线，使通用机器人具备在物理环境中“持续学习、自主进化”的能力，为具身智能跨越商业化落地鸿沟提供了坚实的技术底座。

※ 静态模型制约机器人规模化应用 ※

当下，具身智能大模型已初步具备通用的感知与执行能力。然而，推动科技成果转化、让机器人真正从实验室走向千行百业，仍面临严峻的工程与产业挑战。真实的工业生产与商业环境复杂多变，充满了非标准化的长尾场景。而当前行业主流的机器人训练范式高度依赖“离线示教”——即人工采集数据进行固定模型的训练。这种模式导致机器人的能力在部署时即被固化，无法系统性地吸收在真实运行中因环境变化引发的偏差与失败经验。

如果无法摆脱高昂的人工二次开发成本，通用机器人的规模化部署将面临极高的门槛，难以真正下沉到实体经济场景中发挥应用价值。

※ 新型研创型大学深度赋能产业 ※

针对这样的产业痛点，上海创智学院与智元具身研究中心深化产学研合作，将此次联合攻坚作为“创智模式”在探索前沿科技与拔尖人才培养上的一个小型试点，这也成为了创智作为新型研创型大学深度赋能产业的一个生动实例。

该项研究第一作者王一及多位核心研发成员均为上海创智学院在读博士生，由创智全职导师罗剑岚老师担任负责人并主导完成，大批创智学子深度参与了从底层算法设计到真机集群测试的全流程研发。

在罗剑岚老师的带领下，联合团队推出了LWD强化学习框架，成功实现具身模型训练方式从“人工示教驱动”向“真实交互驱动”的范式转移。

在LWD框架下，机器人的能力演进分为两个连贯阶段：首先，在部署前利用历史数据进行离线强化学习预热，为系统建立对物理世界的稳定认知，防止模型在接入复杂环境时性能退化。其次，在投入真实场景部署后，机器人每一次的自主交互（无论成败）都将实时回流至系统，与离线数据混合抽样进行在线后训练。优化后的策略将无缝同步至机器人集群。

为保障该过程的稳定性，联合研发团队攻克了异构集群数据回放和分布偏移等技术难题，创新性地提出DIVL（分布式隐式价值学习）与 QAM（伴随匹配策略提升）底层算法。这使得模型能在缺乏人工干预的情况下，高效处理长程任务中的稀疏奖励，确保机器人在真实世界中的安全、稳定进化。

※ 攻克复杂任务加速场景落地 ※

技术的价值最终要在真实业务场景中得到检验。为此，研发团队在由16台双臂机器人组成的物理集群上，针对商超补货，以及泡茶、榨汁、物品收纳等8个典型的真实世界复杂任务进行了系统测试。

这些任务通常涉及跨度数分钟的多步骤规划与精细物理操作，评测结果显示：搭载LWD框架的机器人取得了平均95%的成功率，显著优于传统基线方案。在难度最高的长程任务中，在线LWD框架带来了最高17%的成功率提升，且单次任务平均操作周期缩短了约23.75秒。这充分印证了机器人能够在自主探索中收敛到更优的执行路径，实现了从“机械执行”到“智能纠错”的跨越。

团队相信，LWD工作的联合发布，不仅是具身训练范式的突破，更将对我国具身智能产业的高质量发展具有深远意义。一方面，它大幅降低了通用机器人的部署门槛与边际成本。另一方面，此项成果作为“创智模式”试点的成功缩影，也是创智践行“研创型大学”理念的生动实例。

未来，上海创智学院与智元具身研究中心还将继续依托真实世界的产业场景，不断优化通用机器人的可靠性与泛化能力，同时为国家人工智能产业输送更多具备国际视野和实战能力的顶尖科技人才。

青年报·青春上海记者刘昕璐

编辑：陆天逸

来源：青春上海News—24小时青年报

返回上页回到首页