“地球上最聪明的AI”来了？_黄金赌城娱乐经济网——国家经济门户_黄金赌城

　　本报记者黄海华

　　由埃隆·马斯克创办的人工智能公司xAI推出的大模型Grok 3之所以备受瞩目，是因为在发布会前夕马斯克就将其描述为“地球上最聪明的AI”。

　　Grok 3真的如此聪明吗？“这是xAI公司厚积薄发的一个版本，从发布会上的多项测评指标来看确实如此，甚至超越DeepSeek R1相当大的幅度，肯定可以列入国际上的头部大语言模型之一。”师从图灵奖得主、深度学习创始人约书亚·本吉奥的上海交通大学人工智能学院副教授林洲汉接受了本报记者的采访。

　　马斯克在发布会上解释了Grok的由来，在罗伯特·海因莱因的小说《异乡异客》中，它被一个在火星长大的角色使用，代表充分而深刻地理解某事。

　　Grok 3在发布会上的表现确实不负这一词汇的内涵。它在数学、科学和编程基准测试中，“优于目前所有已发布的产品”，包括GPT-4o、Claude3.5 Sonnet、DeepSeek V3等。

　　当它面对一个太空飞船任务——用3D动画代码演示从地球发射、着陆火星以及返回地球的全过程时，Grok 3展现出强大的推理和编程能力，且生成的代码可以直接运行。马斯克透露，Grok 3给的答案正是SpaceX公司未来探索火星的轨道。

　　让林洲汉印象深刻的是，不同于DeepSeek的算法优化路径和低成本训练，Grok 3由一台超级计算机训练完成，由10万至20万个英伟达的H100 GPU驱动，提供了超过2亿GPU小时的计算资源，是Grok 2的10多倍。

　　“这应该是全球首次在单一集群里用这么大规模的GPU来训练单一模型，不知道xAI公司是如何保持模型在如此规模的集群里训练时的稳定性，发布会上没有透露具体细节。”林洲汉说。

　　“不过，发布会上展示的能力与实际落地后的用户反馈有时会有偏差。”林洲汉说，这是因为在开发过程中，研发人员会对公开测试集所涉及的领域做专门优化，如此一来测评分数会很高。比如，大多数语言模型都会针对数学奥赛题做专门优化，就会有一个很好的答题效果，但并不意味着这个模型就真的像奥赛金牌得主那么聪明，一旦偏离奥赛题领域，模型能力可能会大幅下降。

　　“目前尚未出现能像人一样能力泛化的大语言模型。一个模型的好坏不仅取决于它在训练数据上的表现，更重要的是其在未见过的数据上的泛化能力。”林洲汉说。

　　值得关注的是，随着DeepSeek等开源模型的崛起，犹如在大模型的湖面投下一颗石头，激起层层涟漪。OpenAI公司发布o3-mini系列模型以及GPT-4.5和GPT-5的路线图，Anthropic公司也表示将推出Claude4。

　　在林洲汉看来，这意味着OpenAI公司不会一家独大，不太能维持过去几年的“断层式领先”。与此同时，新冒出来的人工智能企业和模型，为了避免同质化竞争，也将谋求不同的技术路线，进行差异化发展。

（责任编辑：孙丹）