热门文章

过去一段时间,华尔街对AI叙事的态度发生了根本性位移。投资者不再为宏伟的路线图鼓掌,也不再为动辄千亿的资本开支买单。市场要的是证据:证明这些烧掉的钱,正在变成某种能够解决真实世界问题的工具。谷歌刚刚发布的Gemini 3“深度思考”升级版,恰好卡在这个情绪转折的关口。
基准测试分数说明升级分量
在ARC-AGI-2——一个被设计用来测试通用人工智能核心推理能力、且极难通过训练数据记忆来“刷分”的基准上,Gemini 3 Deep Think拿下了84.6% 的准确率,经ARC Prize基金会验证 。作为参照:Claude Opus 4.6(Thinking Max)是68.8%,GPT-5.2(Thinking xhigh)是52.9%,而三个月前的Gemini 3 Pro Preview仅为31.1% 。
在“人类的最后大考”(Humanity‘s Last Exam)——一个汇集了博士级跨学科知识的极限测试中,该模型在不借助外部工具的情况下取得了48.4% 的得分,远超GPT-5.2的34.5% 。更关键的不是这个绝对值,而是此前一周一份独立研究显示,当前最先进的7款前沿模型在该基准上的平均失败率高达85.2% 。
在Codeforces竞技编程平台上,它的Elo评级飙升至3455 。这是一个什么概念?在人类顶级选手中,3000分已是传奇;而3455意味着,在绝大多数限时算法竞赛中,它已具备稳定的金牌竞争力。在2025年国际数学奥林匹克中,它达到了金牌水平 。
其能力的具象化说明
谷歌此次着重展示了一项具体能力:将手绘草图转化为可3D打印的实体模型文件 。用户只需画一张粗略的示意图,Deep Think即可分析图形、建模复杂几何结构,并生成可用于增材制造的打印文件。这不再是一个“未来可能有用”的概念演示——它直接切入了一个年产值数百亿美元的计算机辅助设计(CAD)软件市场。
另一个更具说服力的实证来自学术界。罗格斯大学数学家Lisa Carbone使用Deep Think审阅一篇技术数学论文时,模型识别出了一处人类同行评审流程中未被发现的微妙逻辑缺陷 。这不仅是辅助工具,这是正在成为智力劳动的平行验证者。在科学出版每年产出数百万篇论文、而合格审稿人严重稀缺的当下,这项能力的商业与社会价值被严重低估。
谷歌在此次公告中特意强调,此次升级是与“科学家和研究人员紧密合作”完成的 。这句话值得细读。过去两年,大模型厂商的产品迭代更多是由“架构工程师”驱动的——更大的参数、更长的上下文、更高效的注意力机制。但科学研究有其独特的知识形态:问题往往没有明确边界,数据常常残缺不全,正确答案不止一个,甚至正确答案本身也是动态演进的 。这与代码生成、文档摘要、客服问答等标准化任务存在本质差异。此次Deep Think升级在化学、物理(包括理论物理)以及其他科学领域均显示出可验证的性能提升 。
它甚至重构了 AI 竞争
如果将此次发布放在更长的产业周期中审视,它标志着一个关键转折:AI巨头之间的竞争维度,正在从“谁有更聪明的模型”转向“谁能为专业智力劳动提供更高密度的生产力工具”。
OpenAI拥有GPT-5.2的先发优势,微软凭借Azure与OpenAI的深度绑定占据企业入口,Anthropic在安全对齐领域建立壁垒。而谷歌此次亮出的底牌是:在最难被自动化、最能定义人类智力边界的科研领域,它跑在了最前面 。
这不是一个孤立的模型发布。它是一个信号:谷歌正在将DeepMind的基础研究能力、Google Cloud的算力基建、以及Gemini的产品化引擎,整合成一个针对“高智力密度行业”的垂直解决方案。它的对手不仅是OpenAI,更是那些长期以来依赖知识不对称和工具门槛而存活的专业软件公司。
这才是当前AI投资叙事中真正的稀缺品。算力可以被复制,参数可以被堆叠,但将前沿模型深度嵌入专业工作流、并让终端用户切实感知到效率跃迁的能力,需要的是对垂直场景的理解、与科研社群的长期磨合、以及将产品复杂度降至“无需说明书”的设计功力。







