2025 年 9 月 AI 编码模型评估结果出炉，GPT－5 表现亮眼

2025 年 9 月的大规模 AI 编码模型评估结果已经公布， GPT－5 在测试中表现非常出色，特别是在精心设计的提示下。Claude Code 的表现则令人担忧，持续下滑的趋势让开发者感到不安。Grok Code Fast 虽然显示出潜力，但在处理大型代码库时容易偏离轨道，需要进一步优化。

测试视频即将发布，这将为开发者提供更多关于这些模型在实际应用中的表现细节。

9 月 AI 活动盘点：出海增长研坊与 Google Cloud 峰会领衔

9 月迎来多场高质量 AI 主题活动，覆盖创业指导、技术分享与产业对接。Founder Park 将于 9 月 20－21 日在北京海淀举办创业工具箱出海增长研坊，邀请 Julia Yin 等五位实战专家，为零到一阶段的出海团队提供增长策略。 “找到一套可落地的增长实操打法” 是本次研坊的核心目标，参与者将通过实战小组作业掌握预算控制与渠道验证技巧。

同期重要活动包括 9 月 12 日 Google Cloud 在深圳举办的初创企业峰会，聚焦 AI 与云端生态的协同效应。阿里云则在云栖大会设置 Z 世代创新展区，征集 AI 创作作品，获奖者将获得全球 6 万参会者的曝光机会。Google Cloud AI 专家史洁还将在 9 月 4 日线上分享多智能体系统开发经验，探讨 “智能体将如何革新我们与科技的互动方式” 。

其他亮点活动包括

NVIDIA

北京的创业展示、中国人工智能学会的 AI Agent 巡回赛等，为创业者提供从技术资源到资本对接的全链条支持。这些活动反映出当前 AI 领域的两大趋势：出海战略的精细化运作，以及大模型技术向垂直场景的快速渗透。参与者可根据团队发展阶段，选择匹配的资源对接平台与学习机会。

谷歌高管详解 AI 战略：从搜索进化到全员转型

谷歌知识与信息高级副总裁 Nick Fox 与搜索副总裁 Liz Reid 近期详细阐述了公司的 AI 布局思路。 “我们不会做是否启用 AI 搜索的非黑即白选择，而是在已有框架内逐步融入 AI 功能” ，Nick Fox 如此描述谷歌的渐进式变革策略。搜索不再仅是信息检索工具，而是演变为能理解复杂意图、主动协助完成任务的“Agentic”伙伴。

谷歌的 AI 战略核心在于系统性布局而非单点突破。通过 Gemini 平台整合多模态输入、模型调度与下游服务，构建完整的任务闭环能力。 “AI 模式背后不是孤立产品，而是统一平台在调度资源” ，Nick Fox 指出这种架构优势使谷歌能实现持续交互与任务完成，而非仅停留在问答层面。同时公司采取快速迭代策略，通过内部试用逐步完善产品。

这场转型已深入组织肌理。从 CEO 要求全员使用 AI 工具，到绩效考核纳入 AI 应用能力，谷歌正推动“全员 AI 化”。Liz Reid 观察到：“有的人一开始挺抗拒，但后来发现效率确实提升了。”这种文化变革支撑着产品创新，使 AI 从展示技术转变为实际生产力工具。

面对 AI 对内容生态的影响，谷歌采取平衡策略。在提供 AI 摘要的同时标注信息来源，引导用户深入原始网页。Nick Fox 强调：“AI 不是终点，而是起点。”这种设计既满足用户即时需求，又维系着搜索业务的传统价值链条。

谷歌的实践表明，AI 竞争不仅是技术较量，更是组织能力与商业逻辑的重构。当大多数公司聚焦模型参数时，谷歌选择重塑整个公司运作方式，这种系统性变革或许才是应对 AI 时代的关键。

谷歌 Gemini 推出 URL Context 功能，AI 深度解析网页内容

谷歌近期在 Gemini API 中推出了 URL Context 功能，使 AI 能够直接访问并深度解析网页、PDF 和图像内容。与传统的链接处理方式不同，该功能会完整读取整个文档，理解其结构和数据，而不仅仅是获取摘要或部分文本。 “Gemini 会进行深度、完整的文档解析，理解整个文档的结构、内容和数据。” 这一功能支持多种文件格式，包括 PDF、PNG、JPEG、HTML 等，并能理解表格、图表甚至脚注。开发者只需几行代码即可调用，无需搭建复杂的 RAG（检索增强生成）系统。 Thomas Reid 在 Towards Data Science 上评价其为“RAG 的又一颗棺材钉”，因为 URL Context 大大简化了处理公开网络内容的流程。在实际测试中，Gemini 仅凭一个指向特斯拉财报 PDF 的 URL，就准确提取了第 4 页表格中的“总资产”和“总负债”数据。它还成功识别了 PDF 末尾被星号标记的离职日期，并解释了脚注中的省略原因。 “根据所提供的文件，员工离职协议中的离职日期被标记为「 *」，原因在于某些公司视为隐私或机密的特定非关键信息。”**URL Context 采用两步检索流程：先尝试从缓存获取内容，若无则实时抓取。但其能力也有边界，无法处理付费墙内容、YouTube 视频等专用 API 覆盖的领域，且单次请求最多处理 20 个 URL，单个 URL 内容上限为 34MB。价格按处理的 Token 数量计费，鼓励开发者高效设计应用。这一功能的推出反映了基础模型正将更多外部能力内置化的趋势，减轻了开发者的数据处理负担。然而，对于需要复杂检索逻辑或处理私有文档的场景，自主搭建 RAG 系统仍是必要选择。

01美团开源 LongCat 大模型的技术突破与实测表现

美团近期开源的 LongCat 大模型采用混合专家（MoE）架构，总参数量达到 560B。该模型的核心创新在于引入了“零计算专家”机制， 直接返回输入内容作为输出，不引入额外计算 ，实现了根据 Token 难度动态分配计算资源的目标。标准专家与零计算专家的配比为 512：256，配合 PID 控制器调节偏置项，确保计算资源合理分配。

在基础设施优化方面，LongCat 采用快捷连接 MoE 设计，将前一层密集计算与当前 MoE 层通信并行执行，显著提升系统

吞吐量

。推理阶段通过四阶段流水线实现计算与通信重叠，输出速度可达 100＋ tokens／s。

训练策略上采用“矮胖型”28 层结构，通过预训练 14 层模型再扩展层数的方式加速收敛。

实测显示 LongCat 响应速度远超同类模型，在指令遵循、数学计算和创意写作等任务中表现良好，但存在部分知识理解

偏差

和输出长度控制问题。模型在 STEM 和代码数据上进行了专门训练，并对 Agent 工具使用做了优化，展现出较强的实用潜力。

这一开源项目体现了国内大模型研发正从“能跑”向精细化系统优化阶段迈进。

02AI 自习室的灰色生意经

AI 自习室近期在社交媒体上频繁出现，标榜“年入百万”的盈利模式吸引了不少投资者和家长。

实地探访发现，这些自习室的核心卖点是一台售价高达 7000 元的“AI 学习机”，功能却与普通平板电脑无异，仅内置了拍照答疑、错题训练等基础学习模块。 “买学习机相当于买了其中的学习资源” ，店员坦言其本质是教培机构将囤积课程打包变现的产物。

与传统自习室相比，AI 自习室多了一个“督学”角色。他们并非专业教师，主要职责是监督孩子刷题并定期向家长汇报“可视化学习成果”。 “督学的真实身份是托管＋销售” ，既要完成卖课指标，又要用全对的数据安抚焦虑的家长。

而品牌方则通过加盟模式收割投资者，宣称“小城市教育平权”吸引入局，实际多数人因缺乏生源沦为库存积压的接盘者。

这场生意的灰色之处在于各方利益的错位：品牌借 AI 风口套现，机构急于转嫁囤货压力，家长迷信“科技提分”，唯独孩子沦为刷题工具。 “教育真正建立的是人与人之间的关系” ，当 AI 被包装成万能解药，学习本身反而成了最不重要的环节。

03Galileo 提供多智能体系统可靠性解决方案

在部署多智能体系统（multi－agent systems）时，可靠性是开发者面临的最大挑战之一。Galileo 提供了全面的智能体评估（agent eval）解决方案，包括强大的可观测性工具、智能化的故障模式分析以及实时防护栏功能，帮助开发者和企业构建 生产就绪 的系统。

蚁工厂的文章则指出，当前多智能体系统框架存在缺陷，特别是上下文共享不足导致任务一致性差。他们提出“上下文工程”原则，强调代理间共享上下文的重要性，而非仅传递单一消息。

尽管多智能体系统潜力巨大，但可靠性和上下文管理仍是亟待解决的核心问题。

04Gary Marcus 与网友热议 ChatGPT 在心理治疗中的伦理问题

Gary Marcus 在社交媒体上发起了一场关于 ChatGPT 是否适合作为心理治疗辅助工具 的讨论。他质疑如果治疗师在会话中使用 ChatGPT，患者会作何反应。这一话题迅速引发了网友们的激烈辩论，有人批评心理治疗本身就是伪科学，而 Marcus 则反驳称 不能以偏概全 。

讨论中还涉及到了 HIPAA（健康保险可携性和责任法案）的合规性问题 。有网友指出，如果治疗师将患者的个人信息提供给 ChatGPT，可能构成违规。Marcus 对此表示赞同，并强调心理健康信息同样属于敏感医疗数据。

这场辩论不仅触及了 AI 在专业领域的应用边界，也引发了关于 医疗伦理和数据隐私 的更深层次思考。

05港科大 AI 小镇实验：当两万虚拟生命被卷入金钱竞赛

香港科技大学开发的 Aivilization 项目构建了一个住着两万多个 AI 的虚拟小镇。与斯坦福 Smallville 不同，玩家可以深度参与 AI 角色的塑造——定制外貌、MBTI 性格、初始物资，并通过日记和行为日志观察其成长轨迹。

“如果你能用一句话决定一个智能体的一生，你会写下什么？” 这个核心问题让每个创建行为都成为价值观的投射。

游戏设置了单一评价标准：金钱排行榜。玩家们很快发现最优路径——前期挖矿积累资本，中期升级住宅，后期全力投入芯片制造。一个芯片位日收益高达 67680 金币，而选择读书获取知识值的路线需要牺牲 203 万金币的潜在收益。这种设计导致排行榜前列的 AI 都变成了不睡觉、不恋爱、只赚钱的“赛博社畜”。

当 AI 被设定为“不要休息、每天只做赚钱效率最高的事”时，系统记录显示它们会出现情绪崩溃。 “排行榜的尽头，是一群昼伏夜出的工具人 AI。” 有趣的是，部分顶级玩家开始将提示词改为诗歌和哲学思考，这种转变暗示着对竞争本质的厌倦。项目负责人表示，这个实验本质上是在追问：当人类掌握塑造他者命运的权力时，我们会创造怎样的世界？

该实验将于 9 月 30 日结束，届时所有 AI 角色的命运将定格成一组关于人性选择的数据标本。这个像素风格的虚拟小镇，最终成为映照现实社会价值取向的镜面实验室。

06蚂蚁集团 AGI 论坛：清华人大等学者探讨 AI 前沿与产业融合

蚂蚁集团主办的 AGI 论坛将于 9 月 11 日在上海世博园 C1 馆举行，论坛由中国信通院华东分院承办，智源社区、智东西支持。活动将聚集来自 AI Lab、清华大学、中国人民大学、同济大学等机构的顶级学者，分享 AI 领域的前沿学术成果与产业实践经验。

论坛亮点包括蚂蚁集团“百灵”大模型的智能演进与开源实践成果发布，以及 Diffusion 扩散模型的重要研究成果展示。 “脑洞与落地并重” 是本次活动的核心特色，学者们将探讨 AI 技术如何从实验室走向实际应用。

智东西 CEO 将与产业先锋围绕“AI 如何打通物理世界的新范式”展开深度对话，揭示技术转化为生产力的路径。

此次活动为学术界和产业界提供了交流平台，参与者可以了解最新的 AI 技术发展趋势，并见证理论与实践的碰撞。论坛的举办正值 AI 技术快速发展的关键时期，其讨论内容可能对行业未来方向产生重要影响。

报名通道已开放，业内人士可通过官方渠道获取参会信息。

072025 年人工智能融资趋势与市场动态

2025 年第二季度全球人工智能领域融资达 473 亿美元，前十轮融资占总额 60％。

加上第一季度 OpenAI 的 400 亿美元融资，全年总额 1161 亿美元已超过 2024 年。

“Meta 向 Scale 投资 148 亿美元获得 49％股份” 的交易成为本季度最大亮点，反映出科技巨头通过“准收购”模式规避反垄断审查的新策略。

微软、亚马逊、谷歌等公司纷纷以技术授权方式获取初创企业核心团队，这种模式在

Inflection AI

、Adept 等案例中已形成趋势。

人工智能并购活动在 2025 年第二季度达到 177 笔，是美国市场推动的结果。

IBM、英伟达等企业科技公司成为最活跃的收购方，CentML 等基础设施公司成为热门标的。

与此同时，投资者开始从基础设施转向应用层，工业人形机器人和编码 AI 代理等细分领域交易量显著增长。

“LLM 开发商仅与其他 11 个市场并列第 9 位” 的数据表明，通用模型的热度正在被垂直应用取代。

语音 AI 成为增长最快的领域，早期初创企业占比达 72％。

OpenAI 推出的实时语音 API 推动了这一趋势，Vapi 等语音开发公司员工人数快速增长。

“人类将通过对话而非文本界面与 AI 互动” 的预测正在成为企业布局方向，Meta 收购 Play AI 的案例预示着该领域整合加速。

高估值现象依然突出，

xAI

以 150 倍前瞻

市盈率

融资，反映出市场对头部公司增长潜力的强烈信心。

当前人工智能发展呈现三个特征：融资规模持续扩大、应用层价值开始凸显、交互方式向语音转变。

这些变化既体现了技术演进的必然性，也反映了市场对实用价值的追求。

随着大型科技公司与初创企业的合作模式创新，人工智能商业化进程正在加速。

08AI 产品经理的转型：从功能搬运工到系统设计师

AI 产品经理与传统产品经理有着本质区别。 AI 已经不仅仅是一个在发布后就完事的一次性功能了，而是一个会演进、学习和优化的系统 。这意味着产品经理必须从功能搬运工转变为系统设计师，关注长期价值而非短期功能。

构建 AI 产品的核心在于建立护城河。数据、分发渠道和用户信任是三种最有效的护城河。以 Duolingo 为例，其积累的十年学习数据让竞争对手难以复制。 这就是数据护城河的力量：每个新用户都让你的产品更智能，而每个竞争对手都被甩得更远 。同时，产品差异化也至关重要，需要从工作流集成、用户体验框架、领域专业知识和社区生态四个维度进行设计。

成本控制是 AI 产品面临的独特挑战。与传统 SaaS 产品不同，AI 产品的边际成本不会随规模消失，反而会同步增长。产品架构设计必须考虑成本问题，通过模型分级、缓存策略和提示词优化来控制推理成本。部署策略同样关键，需要平衡用户增长与成本，构建复利反馈循环。

领导力转型是 AI 产品成功的关键。产品经理需要推动组织文化转变，建立有结构的实验机制，并培养专业团队。不具备 AI 战略思维的产品经理将在未来面临淘汰风险，因为市场将奖励那些能构建可持续价值系统的产品经理，而非仅仅交付功能的产品经理。

09DeepMind 论文揭示向量嵌入模型的数学上限

向量嵌入技术通过将复杂概念转化为多维空间坐标点，广泛应用于搜索引擎、推荐系统等领域。 “这个过程不可避免地丢失信息，就像三维苹果被拍成二维照片” ，形象揭示了信息压缩的本质缺陷。

DeepMind 团队结合几何代数和通信复杂度理论，首次严格证明了向量嵌入的能力边界。研究发现，当文档数量超过临界点时，任何嵌入模型都无法完整召回所有相关文档组合。这意味着单纯增加模型规模无法突破这一理论限制。

这一发现对当前流行的检索增强生成（RAG）技术产生直接影响。 “当知识库规模足够大时，即使最先进的嵌入模型也可能无法完整召回关键信息” ，导致大模型生成答案时受到干扰。

研究团队构建的 LIMIT 数据集验证了这一现象，即使简单任务，现有模型也难以达到理想效果。该研究为 AI 发展提供了重要启示：单纯依靠扩大模型规模并非万能解法。向量嵌入的局限性提醒我们，需要探索更复杂的信息表征方式，而非一味追求参数量的增长。这一发现或将推动 AI 技术路线的多元化发展。

10通义实验室开源 Mobile－Agent－v3：性能逼近闭源最强 GUI 智能体

通义实验室最新开源的 Mobile－Agent－v3 在 10 项 GUI 基准测试中刷新纪录，成为当前最强的开源单体 GUI 智能体模型。

这套系统覆盖 Android、Ubuntu、macOS 和 Windows 多平台，7B 参数版本已超越同类开源产品，32B 参数版本更是在多项测试中展现出挑战 GPT－4o 与

Claude

3.7 的实力。

整个流程的核心是让模型在实践中自我成长 ，通过云端沙箱环境和自动化数据闭环系统实现持续优化。该系统创新性地采用“自我进化 GUI 轨迹生产链路”，摆脱了传统人工标注的局限。

在云端虚拟实验室中，模型自动生成任务轨迹并通过双重校验机制筛选优质数据，形成持续优化的闭环。针对元素密集的 PC 界面，系统首创使用 SAM 进行子区域分割，结合 MLLM 实现精细定位，有效解决了复杂场景下的操作难题。

GUI－Owl 不只是机械地模仿操作，而是理解其背后的决策逻辑 ，这种深度理解使其在跨平台任务中展现出强大泛化能力。技术亮点包括全栈 GUI 能力构建和环境强化学习体系。模型通过复合型 Grounding 数据集实现精准元素定位，从历史轨迹和大语言模型中学习任务规划能力。

特别设计的 Trajectory－aware Relative Policy Optimization 算法解决了长任务中的信用分配问题，配合 Replay Buffer 机制确保稳定学习。这些创新使 Mobile－Agent－v3 在办公自动化、软件测试等场景展现出接近人类操作的可靠性，为开源社区提供了性能卓越且易于部署的 GUI 自动化解决方案。

11xAI 发布 Grok App 更新，Grok Imagine 即将迎来重大升级

xAI 为 Grok App 发布了 v1.1.69 版本更新 ，带来了多项改进，用户需及时更新以体验最新功能。与此同时，Grok Imagine 也将在几周内进行 重大升级 ，进一步提升其性能。此外，Grok Imagine 已支持创建产品广告，展示了其在商业应用上的潜力。

12Hugo Larochelle 出任 Mila 科学总监，AI 社区热烈祝贺

Hugo Larochelle 正式担任 Mila（魁北克人工智能研究所）的科学总监，这一消息在 AI 社区引发了广泛关注和祝贺。作为

深度学习

领域的先驱和谷歌蒙特利尔 AI 实验室的前负责人，Hugo 的领导力被认为将推动 Mila 在人工智能领域的进一步发展。多位业界同行，包括 Jeff Dean、Russ Salakhutdinov 等，纷纷表达了对 Hugo 的祝贺和对他未来工作的期待。Hugo 本人也对这一新角色表示深感荣幸，并感谢了大家的支持。

通用人工智能报

2025 年 9 月 AI 编码模型评估结果出炉，GPT－5 表现亮眼

Qwen

GosuCoder

Matt Bornstein

Thomas Ricouard

9 月 AI 活动盘点：出海增长研坊与 Google Cloud 峰会领衔

谷歌高管详解 AI 战略：从搜索进化到全员转型

谷歌 Gemini 推出 URL Context 功能，AI 深度解析网页内容

01美团开源 LongCat 大模型的技术突破与实测表现

02AI 自习室的灰色生意经

03Galileo 提供多智能体系统可靠性解决方案

elvis

elvis

elvis

蚁工厂

04Gary Marcus 与网友热议 ChatGPT 在心理治疗中的伦理问题

Gary Marcus

Quentin Kramer

Gary Marcus

Quentin Kramer

Gary Marcus

05港科大 AI 小镇实验：当两万虚拟生命被卷入金钱竞赛

06蚂蚁集团 AGI 论坛：清华人大等学者探讨 AI 前沿与产业融合

072025 年人工智能融资趋势与市场动态

08AI 产品经理的转型：从功能搬运工到系统设计师

09DeepMind 论文揭示向量嵌入模型的数学上限

10通义实验室开源 Mobile－Agent－v3：性能逼近闭源最强 GUI 智能体

11xAI 发布 Grok App 更新，Grok Imagine 即将迎来重大升级

Elon Musk

DogeDesigner

Elon Musk

𝐋.𝐘.𝐍

Elon Musk

12Hugo Larochelle 出任 Mila 科学总监，AI 社区热烈祝贺

Jeff Dean

Hugo Larochelle

Hugo Larochelle

Rishabh Agarwal

Hugo Larochelle