阿里巴巴旗下的通义千问团队近日推出了Qwen3.7-Plus,这是一款旨在将多模态AI推向全功能自主智能体的新模型。与此前主要聚焦文本或图像理解的版本不同,Qwen3.7-Plus将视觉感知、图形用户界面操作和代码生成能力整合进一个闭环系统,使AI能够观察屏幕、理解界面元素,并直接编写和执行代码来完成指定任务。

在团队公开的演示中,基于Qwen3.7-Plus构建的智能体被要求独立开发一款词汇学习应用。整个过程完全自主,无需人类逐步指导:智能体自行规划功能模块、设计界面布局、编写前端与后端代码,并持续调试修正。在长达11小时的运行中,它发起了超过1000次内部调用,最终产出了超过一万行代码。这展示了AI从辅助编码工具向独立承担完整项目开发的潜力跃迁。

从技术指标看,Qwen3.7-Plus在通义千问自建的屏幕理解基准测试中取得了领先成绩,意味着它在解析网页、桌面应用或移动端界面方面具备较强能力。然而,综合性能表现并不均衡。根据官方披露,该模型在部分通用推理和数学任务上并未全面超越前代或竞品,反映出当前智能体模型在专精能力与通用智能之间仍存在权衡。

商业模式上,Qwen3.7-Plus采取了闭源路线,未开放模型权重,仅通过阿里云API提供服务。这与通义千问此前部分开源版本形成对比,可能反映出阿里在商业化落地上的策略调整。定价方面,该模型每百万token输入费用远低于OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet,意在吸引对成本敏感的企业开发者。

这一发布将AI产业的焦点进一步拉向“智能体”叙事。在黄仁勋提出的五层蛋糕框架中,Qwen3.7-Plus直接作用于模型层与应用层:它本身是更复杂的多模态模型,同时其设计目标就是驱动上层自动化应用。如果这类智能体被广泛部署,可能拉动对底层推理芯片和云基础设施的需求,因为长时间自主任务会消耗大量算力。

不过,行业观察者指出,自主智能体仍面临可靠性挑战。11小时生成万行代码的演示虽亮眼,但实际企业场景中,代码质量、安全合规和异常处理是否达标尚待验证。此外,闭源策略可能限制学术研究和社区生态的扩展,而开源阵营的Meta Llama 4或Mistral等模型也在快速追赶多模态能力。

阿里此举可视为对全球AI智能体竞赛的回应。微软、谷歌和OpenAI均在开发类似产品,试图让AI不仅能聊天,还能操作软件、预订服务或管理数据。中国市场的特殊之处在于,阿里云拥有庞大的企业客户基础,若Qwen3.7-Plus能无缝集成到钉钉或电商运营工具中,可能率先在商业场景形成闭环。

总体而言,Qwen3.7-Plus的发布揭示了AI产业的一个关键转向:竞争正从“模型能回答多准”转向“模型能独立干多少活”。这对投资者意味着,算力消耗的持续增长逻辑得到强化,而应用层公司可能迎来新一轮效率革命。