阿里通义千问团队在6月2日正式公开了多模态智能体模型Qwen3.7-Plus,官方强调其与以往“看图说话”式的多模态模型有本质区别:在完成图像识别的基础之上,模型进一步打通了界面感知、工具调用、代码生成与任务交付的能力闭环。这意味着AI不再只是对视觉内容做出文字描述,而是能够像人类一样直接操作软件界面、调用API、生成前端代码并输出可用的应用成果。

根据智东西第一时间体验及官方案例的披露,Qwen3.7-Plus展现出一些令人印象深刻的亮点,例如能够根据一张地铁线路图的截图进行视觉推理和图片搜索,又如在局部场景下,能够在约11小时内搭建出一款帮助用户学习英语的交互式应用。但在实测中也暴露了现阶段尚不稳定的问题:面对较复杂的网页或界面,会出现图片文字乱码、交互按钮失效、3D预览黑屏等现象,最终交付的成果仍需要人工检查和调试。

放在更大的技术演进脉络中看,这一发布并不孤立。早在5月20日,阿里就发布了Qwen3.7系列中的旗舰模型Qwen3.7-Max。在Artificial Analysis发布的全球大模型综合榜单中,Qwen3.7-Max的Intelligence Index得分为57,这个成绩与GPT-5.5(medium)、Claude Opus 4.7(max)、Gemini 3.1 Pro Preview等顶尖海外模型处于同一区间,并明显领先于Kimi K2.6、Mimo-V2.5-Pro等国产同类模型。Qwen3.7-Plus的推出,可以看作是阿里在模型迭代上走出的第二步——从“更强的认知”延展到“更强的执行”。

在“五层蛋糕”的产业框架中,Qwen3.7-Plus处于模型层,但它对界面感知和工具调用的强调,直接向上释放了应用层的想象空间。过去投资界对多模态模型的关注多集中于参数规模和基准测评分数,而此次智能体模型将能力落脚到“动手完成任务”,实际上是在模型层和应用层之间架设了一道关键的桥梁。若后续复杂界面的稳定性和可靠性得到提升,这类模型有望降低Agent类产品的开发门槛,也会反过来拉动对推理算力的需求,从而影响基础设施与芯片层的资本叙事。与此同时,国内模型与国际巨头在评测分数上日益接近的事实,也再度提醒市场,国产AI公司在多模态和智能体方向上的迭代速度不容忽视,这可能会加速云厂商和算力供应链的内部竞争与投资布局。