本周,2025全球开发者先锋大会(GDC)将在上海开幕。在大会开幕前夕,记者走访了上海多家在人工智能领域具有代表性的企业,既有“四小龙”之一的商汤科技,也有“AI六小虎”中的阶跃星辰和MiniMax等。DeepSeek横空出世后,“小龙”“小虎”们在人工智能赛道上又有哪些创新实践与前沿探索?
■03
本周,2025全球开发者先锋大会(GDC)将在上海开幕。在大会开幕前夕,记者走访了上海多家在人工智能领域具有代表性的企业,既有“四小龙”之一的商汤科技,也有“AI六小虎”中的阶跃星辰和MiniMax等。DeepSeek横空出世后,“小龙”“小虎”们在人工智能赛道上又有哪些创新实践与前沿探索?
青年报记者 陈嘉音
[阶跃星辰]
首次开源贡献多模态力量
DeepSeek引发的“鲶鱼效应”还在持续。
2月18日,大模型创业公司阶跃星辰开源了两款阶跃Step系列多模态大模型——Step-Video-T2V 视频生成模型和Step-Audio语音模型,进一步加入AI开源生态的竞争。
这一动作与行业趋势不谋而合:2月13日凌晨,OpenAI宣布GPT-5即将到来,并将全面免费开放(Pro用户将获得更高阶智能的版本)。而在同一日,百度也宣布文心一言将于4月1日0时起全面免费,所有PC端和App端用户均可体验文心系列最新模型。
而在年初,DeepSeek凭借开源迅速走红。这匹横空出世的“黑马”带来的“DeepSeek现象”,也被外界视为激发行业活力的“鲶鱼效应”。
面对“开源还是闭源更优”的争议,阶跃星辰副总裁李璟在媒体探营中向青年报记者表示:“对模型公司而言,拥抱开源生态能获得更多支持者。从阶跃的角度来看,我们看到了开源社区的蓬勃生机和力量。”他用了一个形容词——“震撼人心”。
根据企业官方技术报告中的评测结果,阶跃Step-Video-T2V的参数量和模型性能目前在全球开源视频生成领域都处于领先水平;而阶跃Step-Audio则是业内首款产品级的开源语音交互模型。
“去年的GDC大会是阶跃在公众亮相的起点。”阶跃星辰副总裁李璟回顾道,在随后不到一年的时间里,公司在模型与生态建设上取得了显著进展。此次GDC,他们不仅拥有专属板块和即将举行的生态大会,还将举办聚焦金融与内容及开发者两个领域的生态分论坛,以更深的参与度和更广的覆盖面展现成果。
“我们期待通过GDC这一平台,与更多开发者、社区及企业交流,碰撞思想,为行业带来新的洞见,深化对未来方向的认知。”李璟告诉记者。
[MiniMax]
开源提高了AI的渗透率
上海稀宇科技有限公司,更为人熟知的名字是MiniMax。
今年1月MiniMax也做了一次大模型开源,开源的是新一代01系列模型,包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。
据了解,该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈,在综合性能比肩GPT-4o、Claude-3.5等海外头部大模型的基础上,能高效处理高达400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
“开源提高了AI的渗透率,吸引更多的开发者一起参与大模型的研发,也让更多人免费接触到了高水平的大模型。”副总裁刘华表示,MiniMax未来也会继续开源,持续推出更好的多模态模型,在更多复杂场景落地应用。
据了解,MiniMax是国内领先的拥有文本、图像、语音&音乐、视频等多种模态大模型,并打通产品全链路的创业公司。2023年8月,公司自主研发的“MiniMax-abab”大模型通过了国家第一批大模型服务备案。
刘华表示MiniMax借此次参会,举办技术交流论坛,搭建开放的合作平台,与学界、业界专家以及全球开发者社区代表、AI创作者代表,共同探讨人工智能的前沿技术、应用场景与未来趋势。MiniMax将通过多场主题分享、圆桌对话环节,共同探讨大模型开源技术的最新发展、多模态大模型在各行业的应用落地、人工智能在智能硬件等领域的创新实践、助力智能硬件领域产业转型升级等话题。
[商汤科技]
即将发布新应用开发框架
“DeepSeek不仅让更多人感到AI技术的巨大潜力,也让企业和个人逐步意识到AI在各行各业中的应用价值,对于AI生态的蓬勃发展无疑是个利好消息。”商汤科技产品总监,小浣熊家族产品负责人贾安亚告诉记者。
在本届GDC开发者大会上,商汤即将发布代码小浣熊2.0版本。不同于过去,编程助手只是进行简单的代码补全和问答交互,代码小浣熊2.0可以在一个任务单点做修改的同时,跨文件进行多个任务修改,并且可以执行更多的具体开发流程操作,提供更加全面的编程辅助能力。
“现在,它已经脱离了个人生产力工具的范畴,成为一个完整面向企业软件研发端到端的解决方案。”贾安亚说。为了让强大的代码能力赋能更多场景,商汤科技办公小浣熊也集成了代码模型的能力,用户可以借助代码的能力更好地完成更通用的日常工作,比如文档处理、数据分析等。
青年报记者了解到,在本周六的GDC开发者大会上,商汤将在“大模型生产力”分论坛分享更多实际用户经验,并提供现场应用体验。
值得一提的是,商汤在大模型训练和推理等环节都实现了更低的成本。“随着整体推理成本的降低,我们可以在相同硬件上部署更大、更通用的模型,为客户提供更好、更低成本的方案,服务更多客户。”贾安亚说。
在探营中,商汤大装置产品总监刘叶枫介绍了即将在2025开发者大会上亮相,面向开发者的一站式开源Agent应用开发框架——LazyLLM。该框架以数据为核心,支持在应用开发过程中持续迭代数据,从而不断提升数据效果。这一框架可满足国内开发者面向行业和垂域的特定需求,弥补国外工具的不足,同时确保软件自主可控。
刘叶枫介绍,LazyLLM通过精细化模块设计和符合直觉的代码风格,使开发者能够更快地实现。产品落地,同时真正像搭积木一样,把意图识别、知识库检索能力、大模型能力等快速拼到一起,实现完整应用。
同时,LazyLLM利用轻量网关实现分布式应用一键部署,当智能体开发完成后,应用者能够一键将其部署到网页、企业微信、钉钉等平台。同时,框架还支持跨平台、不同操作系统,以及不同底层云的基础设施。
依托商汤大装置的万象大模型平台,包括模型管理、微调、开发、调用,以及应用全链路服务,提供完整的企业级原生开发工具链和完善的技术服务能力。模型开发平台与大模型Agent应用开发平台能够助力原生AI应用全流程最优落地。
举个具体案例,假设开发一个多模态客服问答机器人,传统方法可能需要开发者花费一周时间进行模型微调、串联各个功能,最终才形成一个完整的Agent应用。而通过以LazyLLM为核心引擎的大模型Agent应用开发平台,客户可以通过低代码拖拉拽快速实现各种功能,无论是查询快递、智能客服,还是转接人工服务,通过大模型的意图识别和分割,能够将客户指向不同的意图识别的流程,让开发更加高效。