阿里Qwen3.7-Plus：能看会做还能造App

阿里通义千问发布多模态智能体模型Qwen3.7-Plus，能以11小时开发学英语App并识别地铁线路图

阿里通义千问团队在6月2日正式公开了多模态智能体模型Qwen3.7-Plus，官方强调其与以往“看图说话”式的多模态模型有本质区别：在完成图像识别的基础之上，模型进一步打通了界面感知、工具调用、代码生成与任务交付的能力闭环。这意味着AI不再只是对视觉内容做出文字描述，而是能够像人类一样直接操作软件界面、调用API、生成前端代码并输出可用的应用成果。

根据智东西第一时间体验及官方案例的披露，Qwen3.7-Plus展现出一些令人印象深刻的亮点，例如能够根据一张地铁线路图的截图进行视觉推理和图片搜索，又如在局部场景下，能够在约11小时内搭建出一款帮助用户学习英语的交互式应用。但在实测中也暴露了现阶段尚不稳定的问题：面对较复杂的网页或界面，会出现图片文字乱码、交互按钮失效、3D预览黑屏等现象，最终交付的成果仍需要人工检查和调试。

放在更大的技术演进脉络中看，这一发布并不孤立。早在5月20日，阿里就发布了Qwen3.7系列中的旗舰模型Qwen3.7-Max。在Artificial Analysis发布的全球大模型综合榜单中，Qwen3.7-Max的Intelligence Index得分为57，这个成绩与GPT-5.5(medium)、Claude Opus 4.7(max)、Gemini 3.1 Pro Preview等顶尖海外模型处于同一区间，并明显领先于Kimi K2.6、Mimo-V2.5-Pro等国产同类模型。Qwen3.7-Plus的推出，可以看作是阿里在模型迭代上走出的第二步——从“更强的认知”延展到“更强的执行”。

在“五层蛋糕”的产业框架中，Qwen3.7-Plus处于模型层，但它对界面感知和工具调用的强调，直接向上释放了应用层的想象空间。过去投资界对多模态模型的关注多集中于参数规模和基准测评分数，而此次智能体模型将能力落脚到“动手完成任务”，实际上是在模型层和应用层之间架设了一道关键的桥梁。若后续复杂界面的稳定性和可靠性得到提升，这类模型有望降低Agent类产品的开发门槛，也会反过来拉动对推理算力的需求，从而影响基础设施与芯片层的资本叙事。与此同时，国内模型与国际巨头在评测分数上日益接近的事实，也再度提醒市场，国产AI公司在多模态和智能体方向上的迭代速度不容忽视，这可能会加速云厂商和算力供应链的内部竞争与投资布局。

阿里Qwen3.7-Plus：能看会做还能造App

延伸阅读

相关每日新闻