
2025-09-03晨报摘要:美团开源LongCat模型创新显著;AI自习室模式引发讨论;Galileo发布多智能体可靠性解决方案;ChatGPT心理治疗伦理受关注;港科大AI实验探讨人性选择。
2025 年 9 月 AI 编码模型评估结果出炉,GPT-5 表现亮眼
9 月 AI 活动盘点:出海增长研坊与 Google Cloud 峰会领衔
谷歌高管详解 AI 战略:从搜索进化到全员转型
通用人工智障
Sep 03, 2025
2025 年 9 月的大规模 AI 编码模型评估结果已经公布, GPT-5 在测试中表现非常出色,特别是在精心设计的提示下。Claude Code 的表现则令人担忧,持续下滑的趋势让开发者感到不安。Grok Code Fast 虽然显示出潜力,但在处理大型代码库时容易偏离轨道,需要进一步优化。
测试视频即将发布,这将为开发者提供更多关于这些模型在实际应用中的表现细节。
9 月迎来多场高质量 AI 主题活动,覆盖创业指导、技术分享与产业对接。Founder Park 将于 9 月 20-21 日在北京海淀举办创业工具箱出海增长研坊,邀请 Julia Yin 等五位实战专家,为零到一阶段的出海团队提供增长策略。 “找到一套可落地的增长实操打法” 是本次研坊的核心目标,参与者将通过实战小组作业掌握预算控制与渠道验证技巧。
同期重要活动包括 9 月 12 日 Google Cloud 在深圳举办的初创企业峰会,聚焦 AI 与云端生态的协同效应。阿里云则在云栖大会设置 Z 世代创新展区,征集 AI 创作作品,获奖者将获得全球 6 万参会者的曝光机会。Google Cloud AI 专家史洁还将在 9 月 4 日线上分享多智能体系统开发经验,探讨 “智能体将如何革新我们与科技的互动方式” 。
其他亮点活动包括
谷歌知识与信息高级副总裁 Nick Fox 与搜索副总裁 Liz Reid 近期详细阐述了公司的 AI 布局思路。 “我们不会做是否启用 AI 搜索的非黑即白选择,而是在已有框架内逐步融入 AI 功能” ,Nick Fox 如此描述谷歌的渐进式变革策略。搜索不再仅是信息检索工具,而是演变为能理解复杂意图、主动协助完成任务的“Agentic”伙伴。
谷歌的 AI 战略核心在于系统性布局而非单点突破。通过 Gemini 平台整合多模态输入、模型调度与下游服务,构建完整的任务闭环能力。 “AI 模式背后不是孤立产品,而是统一平台在调度资源” ,Nick Fox 指出这种架构优势使谷歌能实现持续交互与任务完成,而非仅停留在问答层面。同时公司采取快速迭代策略,通过内部试用逐步完善产品。
这场转型已深入组织肌理。从 CEO 要求全员使用 AI 工具,到绩效考核纳入 AI 应用能力,谷歌正推动“全员 AI 化”。Liz Reid 观察到:“有的人一开始挺抗拒,但后来发现效率确实提升了。”这种文化变革支撑着产品创新,使 AI 从展示技术转变为实际生产力工具。
面对 AI 对内容生态的影响,谷歌采取平衡策略。在提供 AI 摘要的同时标注信息来源,引导用户深入原始网页。Nick Fox 强调:“AI 不是终点,而是起点。”这种设计既满足用户即时需求,又维系着搜索业务的传统价值链条。
谷歌的实践表明,AI 竞争不仅是技术较量,更是组织能力与商业逻辑的重构。当大多数公司聚焦模型参数时,谷歌选择重塑整个公司运作方式,这种系统性变革或许才是应对 AI 时代的关键。
谷歌近期在 Gemini API 中推出了 URL Context 功能,使 AI 能够直接访问并深度解析网页、PDF 和图像内容。 与传统的链接处理方式不同,该功能会完整读取整个文档,理解其结构和数据,而不仅仅是获取摘要或部分文本。 “Gemini 会进行深度、完整的文档解析,理解整个文档的结构、内容和数据。” 这一功能支持多种文件格式,包括 PDF、PNG、JPEG、HTML 等,并能理解表格、图表甚至脚注。 开发者只需几行代码即可调用,无需搭建复杂的 RAG(检索增强生成)系统。 Thomas Reid 在 Towards Data Science 上评价其为“RAG 的又一颗棺材钉”,因为 URL Context 大大简化了处理公开网络内容的流程。 在实际测试中,Gemini 仅凭一个指向特斯拉财报 PDF 的 URL,就准确提取了第 4 页表格中的“总资产”和“总负债”数据。它还成功识别了 PDF 末尾被星号标记的离职日期,并解释了脚注中的省略原因。 “根据所提供的文件,员工离职协议中的离职日期被标记为「 *」,原因在于某些公司视为隐私或机密的特定非关键信息。”**URL Context 采用两步检索流程:先尝试从缓存获取内容,若无则实时抓取。 但其能力也有边界,无法处理付费墙内容、YouTube 视频等专用 API 覆盖的领域,且单次请求最多处理 20 个 URL,单个 URL 内容上限为 34MB。 价格按处理的 Token 数量计费,鼓励开发者高效设计应用。 这一功能的推出反映了基础模型正将更多外部能力内置化的趋势,减轻了开发者的数据处理负担。 然而,对于需要复杂检索逻辑或处理私有文档的场景,自主搭建 RAG 系统仍是必要选择。
美团近期开源的 LongCat 大模型采用混合专家(MoE)架构,总参数量达到 560B。该模型的核心创新在于引入了“零计算专家”机制, 直接返回输入内容作为输出,不引入额外计算 ,实现了根据 Token 难度动态分配计算资源的目标。标准专家与零计算专家的配比为 512:256,配合 PID 控制器调节偏置项,确保计算资源合理分配。
在基础设施优化方面,LongCat 采用快捷连接 MoE 设计,将前一层密集计算与当前 MoE 层通信并行执行,显著提升系统
训练策略上采用“矮胖型”28 层结构,通过预训练 14 层模型再扩展层数的方式加速收敛。
实测显示 LongCat 响应速度远超同类模型,在指令遵循、数学计算和创意写作等任务中表现良好,但存在部分知识理解
这一开源项目体现了国内大模型研发正从“能跑”向精细化系统优化阶段迈进。
AI 自习室近期在社交媒体上频繁出现,标榜“年入百万”的盈利模式吸引了不少投资者和家长。
实地探访发现,这些自习室的核心卖点是一台售价高达 7000 元的“AI 学习机”,功能却与普通平板电脑无异,仅内置了拍照答疑、错题训练等基础学习模块。 “买学习机相当于买了其中的学习资源” ,店员坦言其本质是教培机构将囤积课程打包变现的产物。
与传统自习室相比,AI 自习室多了一个“督学”角色。他们并非专业教师,主要职责是监督孩子刷题并定期向家长汇报“可视化学习成果”。 “督学的真实身份是托管+销售” ,既要完成卖课指标,又要用全对的数据安抚焦虑的家长。
而品牌方则通过加盟模式收割投资者,宣称“小城市教育平权”吸引入局,实际多数人因缺乏生源沦为库存积压的接盘者。
这场生意的灰色之处在于各方利益的错位:品牌借 AI 风口套现,机构急于转嫁囤货压力,家长迷信“科技提分”,唯独孩子沦为刷题工具。 “教育真正建立的是人与人之间的关系” ,当 AI 被包装成万能解药,学习本身反而成了最不重要的环节。
在部署多智能体系统(multi-agent systems)时,可靠性是开发者面临的最大挑战之一。Galileo 提供了全面的智能体评估(agent eval)解决方案,包括强大的可观测性工具、智能化的故障模式分析以及实时防护栏功能,帮助开发者和企业构建 生产就绪 的系统。
蚁工厂的文章则指出,当前多智能体系统框架存在缺陷,特别是上下文共享不足导致任务一致性差。他们提出“上下文工程”原则,强调代理间共享上下文的重要性,而非仅传递单一消息。
尽管多智能体系统潜力巨大,但可靠性和上下文管理仍是亟待解决的核心问题。
Gary Marcus 在社交媒体上发起了一场关于 ChatGPT 是否适合作为心理治疗辅助工具 的讨论。他质疑如果治疗师在会话中使用 ChatGPT,患者会作何反应。这一话题迅速引发了网友们的激烈辩论,有人批评心理治疗本身就是伪科学,而 Marcus 则反驳称 不能以偏概全 。
讨论中还涉及到了 HIPAA(健康保险可携性和责任法案)的合规性问题 。有网友指出,如果治疗师将患者的个人信息提供给 ChatGPT,可能构成违规。Marcus 对此表示赞同,并强调心理健康信息同样属于敏感医疗数据。
这场辩论不仅触及了 AI 在专业领域的应用边界,也引发了关于 医疗伦理和数据隐私 的更深层次思考。
香港科技大学开发的 Aivilization 项目构建了一个住着两万多个 AI 的虚拟小镇。与斯坦福 Smallville 不同,玩家可以深度参与 AI 角色的塑造——定制外貌、MBTI 性格、初始物资,并通过日记和行为日志观察其成长轨迹。
“如果你能用一句话决定一个智能体的一生,你会写下什么?” 这个核心问题让每个创建行为都成为价值观的投射。
游戏设置了单一评价标准:金钱排行榜。玩家们很快发现最优路径——前期挖矿积累资本,中期升级住宅,后期全力投入芯片制造。一个芯片位日收益高达 67680 金币,而选择读书获取知识值的路线需要牺牲 203 万金币的潜在收益。这种设计导致排行榜前列的 AI 都变成了不睡觉、不恋爱、只赚钱的“赛博社畜”。
当 AI 被设定为“不要休息、每天只做赚钱效率最高的事”时,系统记录显示它们会出现情绪崩溃。 “排行榜的尽头,是一群昼伏夜出的工具人 AI。” 有趣的是,部分顶级玩家开始将提示词改为诗歌和哲学思考,这种转变暗示着对竞争本质的厌倦。项目负责人表示,这个实验本质上是在追问:当人类掌握塑造他者命运的权力时,我们会创造怎样的世界?
该实验将于 9 月 30 日结束,届时所有 AI 角色的命运将定格成一组关于人性选择的数据标本。这个像素风格的虚拟小镇,最终成为映照现实社会价值取向的镜面实验室。
蚂蚁集团主办的 AGI 论坛将于 9 月 11 日在上海世博园 C1 馆举行,论坛由中国信通院华东分院承办,智源社区、智东西支持。活动将聚集来自 AI Lab、清华大学、中国人民大学、同济大学等机构的顶级学者,分享 AI 领域的前沿学术成果与产业实践经验。
论坛亮点包括蚂蚁集团“百灵”大模型的智能演进与开源实践成果发布,以及 Diffusion 扩散模型的重要研究成果展示。 “脑洞与落地并重” 是本次活动的核心特色,学者们将探讨 AI 技术如何从实验室走向实际应用。
智东西 CEO 将与产业先锋围绕“AI 如何打通物理世界的新范式”展开深度对话,揭示技术转化为生产力的路径。
此次活动为学术界和产业界提供了交流平台,参与者可以了解最新的 AI 技术发展趋势,并见证理论与实践的碰撞。论坛的举办正值 AI 技术快速发展的关键时期,其讨论内容可能对行业未来方向产生重要影响。
报名通道已开放,业内人士可通过官方渠道获取参会信息。
2025 年第二季度全球人工智能领域融资达 473 亿美元,前十轮融资占总额 60%。
加上第一季度 OpenAI 的 400 亿美元融资,全年总额 1161 亿美元已超过 2024 年。
“Meta 向 Scale 投资 148 亿美元获得 49%股份” 的交易成为本季度最大亮点,反映出科技巨头通过“准收购”模式规避反垄断审查的新策略。
微软、亚马逊、谷歌等公司纷纷以技术授权方式获取初创企业核心团队,这种模式在
人工智能并购活动在 2025 年第二季度达到 177 笔,是美国市场推动的结果。
IBM、英伟达等企业科技公司成为最活跃的收购方,CentML 等基础设施公司成为热门标的。
与此同时,投资者开始从基础设施转向应用层,工业人形机器人和编码 AI 代理等细分领域交易量显著增长。
“LLM 开发商仅与其他 11 个市场并列第 9 位” 的数据表明,通用模型的热度正在被垂直应用取代。
语音 AI 成为增长最快的领域,早期初创企业占比达 72%。
OpenAI 推出的实时语音 API 推动了这一趋势,Vapi 等语音开发公司员工人数快速增长。
“人类将通过对话而非文本界面与 AI 互动” 的预测正在成为企业布局方向,Meta 收购 Play AI 的案例预示着该领域整合加速。
高估值现象依然突出,
当前人工智能发展呈现三个特征:融资规模持续扩大、应用层价值开始凸显、交互方式向语音转变。
这些变化既体现了技术演进的必然性,也反映了市场对实用价值的追求。
随着大型科技公司与初创企业的合作模式创新,人工智能商业化进程正在加速。
AI 产品经理与传统产品经理有着本质区别。 AI 已经不仅仅是一个在发布后就完事的一次性功能了,而是一个会演进、学习和优化的系统 。这意味着产品经理必须从功能搬运工转变为系统设计师,关注长期价值而非短期功能。
构建 AI 产品的核心在于建立护城河。数据、分发渠道和用户信任是三种最有效的护城河。以 Duolingo 为例,其积累的十年学习数据让竞争对手难以复制。 这就是数据护城河的力量:每个新用户都让你的产品更智能,而每个竞争对手都被甩得更远 。同时,产品差异化也至关重要,需要从工作流集成、用户体验框架、领域专业知识和社区生态四个维度进行设计。
成本控制是 AI 产品面临的独特挑战。与传统 SaaS 产品不同,AI 产品的边际成本不会随规模消失,反而会同步增长。产品架构设计必须考虑成本问题,通过模型分级、缓存策略和提示词优化来控制推理成本。部署策略同样关键,需要平衡用户增长与成本,构建复利反馈循环。
领导力转型是 AI 产品成功的关键。产品经理需要推动组织文化转变,建立有结构的实验机制,并培养专业团队。不具备 AI 战略思维的产品经理将在未来面临淘汰风险,因为市场将奖励那些能构建可持续价值系统的产品经理,而非仅仅交付功能的产品经理。
向量嵌入技术通过将复杂概念转化为多维空间坐标点,广泛应用于搜索引擎、推荐系统等领域。 “这个过程不可避免地丢失信息,就像三维苹果被拍成二维照片” ,形象揭示了信息压缩的本质缺陷。
DeepMind 团队结合几何代数和通信复杂度理论,首次严格证明了向量嵌入的能力边界。研究发现,当文档数量超过临界点时,任何嵌入模型都无法完整召回所有相关文档组合。这意味着单纯增加模型规模无法突破这一理论限制。
这一发现对当前流行的检索增强生成(RAG)技术产生直接影响。 “当知识库规模足够大时,即使最先进的嵌入模型也可能无法完整召回关键信息” ,导致大模型生成答案时受到干扰。
研究团队构建的 LIMIT 数据集验证了这一现象,即使简单任务,现有模型也难以达到理想效果。该研究为 AI 发展提供了重要启示:单纯依靠扩大模型规模并非万能解法。向量嵌入的局限性提醒我们,需要探索更复杂的信息表征方式,而非一味追求参数量的增长。这一发现或将推动 AI 技术路线的多元化发展。
通义实验室最新开源的 Mobile-Agent-v3 在 10 项 GUI 基准测试中刷新纪录,成为当前最强的开源单体 GUI 智能体模型。
这套系统覆盖 Android、Ubuntu、macOS 和 Windows 多平台,7B 参数版本已超越同类开源产品,32B 参数版本更是在多项测试中展现出挑战 GPT-4o 与
整个流程的核心是让模型在实践中自我成长 ,通过云端沙箱环境和自动化数据闭环系统实现持续优化。该系统创新性地采用“自我进化 GUI 轨迹生产链路”,摆脱了传统人工标注的局限。
在云端虚拟实验室中,模型自动生成任务轨迹并通过双重校验机制筛选优质数据,形成持续优化的闭环。针对元素密集的 PC 界面,系统首创使用 SAM 进行子区域分割,结合 MLLM 实现精细定位,有效解决了复杂场景下的操作难题。
GUI-Owl 不只是机械地模仿操作,而是理解其背后的决策逻辑 ,这种深度理解使其在跨平台任务中展现出强大泛化能力。技术亮点包括全栈 GUI 能力构建和环境强化学习体系。模型通过复合型 Grounding 数据集实现精准元素定位,从历史轨迹和大语言模型中学习任务规划能力。
特别设计的 Trajectory-aware Relative Policy Optimization 算法解决了长任务中的信用分配问题,配合 Replay Buffer 机制确保稳定学习。这些创新使 Mobile-Agent-v3 在办公自动化、软件测试等场景展现出接近人类操作的可靠性,为开源社区提供了性能卓越且易于部署的 GUI 自动化解决方案。
xAI 为 Grok App 发布了 v1.1.69 版本更新 ,带来了多项改进,用户需及时更新以体验最新功能。与此同时,Grok Imagine 也将在几周内进行 重大升级 ,进一步提升其性能。此外,Grok Imagine 已支持创建产品广告,展示了其在商业应用上的潜力。
Hugo Larochelle 正式担任 Mila(魁北克人工智能研究所)的科学总监,这一消息在 AI 社区引发了广泛关注和祝贺。作为
Qwen
•9 个月前
@GosuCoder 酷且富有洞察力的AI编码测试(AI coding test)!
GosuCoder
•9 个月前
2025年9月的评估(Evals)现已开始上传,包括GPT 5、Grok Code、Claude 4 Sonnet、Claude 4 Opus和Qwen 3 Coder。
这是我迄今为止进行过的最大规模测试运行,这让我更需要想办法尽可能多地自动化这个过程。
Matt Bornstein
•9 个月前
转发推文
Thomas Ricouard
•9 个月前
好吧,这里有个令人难过的消息: