英伟达 GTC 大会上,黄仁勋身后的 PPT 曾打满 74 个生态合作伙伴 Logo,这张图因信息密集、部分 Logo 抽象且排列重叠,常被圈内视为测试多模态模型视觉硬实力的“野生基准”。近日,量子位团队用刚发布的 MiniMax M3 模型 进行了一轮压力实测,结果令人意外:M3 不仅逐个准确叫出了全部 74 个 Logo 对应的公司名,还能结合用户需求做出进一步推理。

测试中,作者还发起了“老黄同款南锣路线”挑战——要求模型识别一张南锣鼓巷实景照片,并规划出一条类似老黄此前在公开活动中体验过的游览路线。M3 在准确识别地标的基础上,结合空间理解给出了分步引导,甚至标注了网红店铺与历史背景。虽然官方并未披露 M3 的具体架构参数,从表现推断,多模态输入下的细粒度识别与逻辑链推理已较前代显著增强。

MiniMax 是国内由前商汤核心研发负责人创立的 AI 公司,此前在长文本、语音大模型领域已有积累。M3 的推出,意味着其正式向多模态赛道发起冲击。值得注意的是,此次测试并未使用专用 OCR 或 Logo 识别模型,而是直接调用通用对话接口,更贴近真实用户的使用场景。

从产业链视角看,这一实测划入了“五层蛋糕”中的 应用层,但对底层的算力牵引同样不容忽视。更强的多模态交互需要更多推理算力的支撑,也会加速模型在手机、智能座舱等端侧的部署。近期,OpenAI、Google 和国内厂商均在多模态模型上密集迭代,视觉理解与空间思维已成为衡量模型实用性的核心指标。M3 的亮眼表现,或许会让市场重新审视中国 AI 应用公司的技术储备与产品化速度。在海外巨头尚未建立起绝对壁垒的当下,这类原生的中文多模态能力,有望在文旅、消费、教育等垂直场景率先找到变现窗口。