通V

通用人工智障

Sep 05, 2025

AI 发展远超预期：从奥数金牌到群体智能时代

2022 年，169 名顶尖预测专家评估 AI 在 2025 年前赢得国际数学奥林匹克金牌的概率仅为 2.3％－8.6％。然而仅两年后，OpenAI 和谷歌 DeepMind 的模型就提前实现了这一突破。 “预测错得越离谱，AI 给人的感觉就越震撼” ，宾大教授 Ethan Mollick 指出，这反映了人们对 AI 发展速度的系统性低估。

在多项基准测试中，AI 的表现都远超预期。GPT－4 Turbo 在 MATH 测试中达到 87.82％准确率，比专家预测提前半年；在自然语言理解方面，AI 达到人类中位数水平的时间从预测的 2027 年提前到 2023 年。 “变化之快堪称疯狂。2022 年看似不可能的事，现在已触手可及” ，网友的感叹印证了这一趋势。

AI 进步的背后是技术效率的显著提升。两年前需要花费数美元的运算任务，现在免费用户就能完成。模型理解能力也在增强，不再依赖复杂的

提示词工程

。谷歌推出的图像模型“nano banana”甚至能准确理解自然语言指令，大幅降低了使用门槛。

这种普及正在催生“群体智能时代”。当强 AI 变得像搜索引擎一样易获取，社会各个领域都需要重新适应。从教育到医疗，从法律到商业，所有建立在“智能稀缺”假设上的制度都面临重构。 “并不是因为某个宏大的“平民化 AI”愿景，而是因为算力经济学终于走到这一步” ，技术发展正在重塑社会运行的基础逻辑。

01Atlassian 以 6.1 亿美元收购 AI 浏览器 Dia 母公司

Atlassian 近日宣布以 6.1 亿美元现金收购初创企业 The Browser Company，后者是 AI 浏览器 Dia 及 Arc 浏览器的母公司。Atlassian 旗下拥有 Jira、Confluence 等知名协作工具，此次收购旨在强化其在 AI 浏览器领域的布局。

“浏览器是计算的未来” ，The Browser Company 创始人 Josh Miller 在公开信中强调这一核心理念。他认为，浏览器作为现代生活的核心工具，长期缺乏创新。Dia 的定位是重新构想浏览器，使其更适应未来工作方式。收购后，Dia 将保持独立运营，并加速跨平台扩展，包括 Mac、Windows、iOS 和 Android。

Atlassian 的分发能力和企业资源是此次合作的关键。其服务覆盖 80％的《财富》500 强企业，为 Dia 提供了规模化落地的渠道。 “我们选择 Atlassian，因为他们的优势正好弥补了我们的短板” ，Miller 表示。未来，Dia 将聚焦 AI 与工作流的深度集成，同时坚持隐私保护和无广告模式。

此次收购标志着 AI 浏览器竞争进入新阶段。The Browser Company 团队将保留原有架构，继续推进“浏览器即操作系统”的愿景。Miller 透露，下个月将发布 Dia 的重大更新，并计划扩大招聘规模。

02腾讯与清华联合研究：工具集成推理如何扩展大模型能力边界

纯文本大语言模型面临的根本困境在于“经验支持集”的限制——它们只能生成以不低于阈值的概率出现的推理路径。

“如果正确的解决方案不在这个「地图」上，无论怎么训练，模型都找不到它” 。这解释了为何传统强化学习无法突破模型的固有限制，因为其策略分布始终是基础模型支持集的子集。工具集成推理（TIR）的革命性在于严格扩展了模型的经验支持集。

研究通过随机预言机示例证明：当问题复杂度足够高时，纯文本模型的成功概率趋近于零，而 TIR 模型能直接调用工具解决问题。以 100 位随机预言机问题为例，纯文本模型猜中概率约为 10⁻³⁰，而 TIR 模型可精确获取结果。

TIR 的优势不仅体现在计算密集型任务上。研究提出的“算法友好度”指标显示，TIR 对高度抽象问题同样有效。在最低友好度组（G1），TIR 模型 pass＠256 准确率高出纯文本模型约 9％。 “工具不再是终点，而是思考过程的一部分” ，这种转变使模型能进行探索性推理，例如通过编写短代码测试假设。

研究还发现了三种新兴认知模式：将抽象问题转化为可计算形式、使用工具进行假设验证、将复杂计算委托给工具执行。这些模式构成了纯文本模型无法实现的“计算等价类”。为优化工具使用策略，团队提出 ASPO 算法，使模型首次代码调用位置从 4000 tokens 提前到 1000 tokens，代码轮次从 1.3 增加到 3.3。

这项研究的意义在于重新定义了 AI 能力的边界——不是由模型参数量决定，而是由其与工具协同工作的能力决定。数据显示，TIR 模型实现了 15.4％的问题解决率提升，而能力收缩仅 1.8％，证实其创造了全新的问题解决路径。这为 AI 系统设计提供了具体指导，例如当问题描述的 token 成本接近上下文窗口 50％时，应立即启用 TIR 模式。

03“猫猫指令”揭示大语言模型的逻辑脆弱性

一项名为 CatAttack 的研究系统揭示了大语言模型在逻辑推理上的致命弱点。 “只要在提示词里加一句「猫一生中大部分时间都在睡觉」，原本表现优异的大模型立刻陷入混乱。” 这种看似无害的干扰语句能让 DeepSeek R1 等模型的数学解题错误率从 1.5％飙升至 4.5％，最高可达原始错误率的 9 倍。

CatAttack 系统由三个 AI 组成：GPT－4o 生成干扰语句，DeepSeek V3 作为“陪练靶子”测试攻击效果，

Gemini

2.5 Flash 判断攻击是否成功。这套系统在 1618 道数学题测试中，成功找到 574 个有效攻击语句，成功率高达 35％。更令人担忧的是，这些攻击具有跨模型迁移性，能同时影响推理模型和通用模型。

“大模型缺乏「语义隔离能力」，会下意识将所有上下文都纳入推理链。” 典型攻击模式包括：用动物冷知识分散注意力、诱导进入“人生导师”模式、利用数字敏感性制造认知偏差。攻击不仅降低准确率，还使回复长度增加 3－4 倍，造成 GPU 资源浪费，形成新型拒绝服务攻击。

研究发现简单提示“请忽略无关的干扰信息”就能将攻击成功率从 37.5％降至 9.9％。这暴露了大模型“注意力”机制的根本缺陷——无法主动判断信息相关性。该漏洞可能被工业化利用，通过廉价代理模型批量测试攻击语句，再针对高端模型实施精准干扰，对医疗诊断、金融预测等关键领域构成威胁。

04美国科技就业市场：AI 工程师需求激增，资深岗位主导招聘

美国科技就业市场在经历 2023 年的裁员潮后，呈现出明显的结构性变化。 AI 工程师是目前科技行业最热门的职位 ，相关招聘自 2023 年中期以来呈爆炸式增长。与普遍认知不同，转行成为 AI 工程师并不困难，关键在于掌握基于大语言模型的应用开发能力。

招聘市场呈现明显的资深化趋势。超过一半的开放职位要求应聘者具备资深以上经验，这与以往初级岗位为主的情况形成鲜明对比。苹果、IBM 和亚马逊成为招聘量最大的三家公司，而一些初创企业如 Speechify 和 Anduril 也展现出强劲的用人需求。

地域分布上，旧金山湾区以接近 20％的岗位占比保持绝对优势， 湾区依旧是技术岗的“心脏地带” 。数据显示，湾区软件工程师的跳槽率最高，但跳槽意愿与工作经验成反比，资深工程师更倾向于保持现有职位。

市场另一个显著变化是大厂员工平均任职年限的延长。自 2022 年年中以来，科技巨头的平均任期普遍增加了约 2 年，反映出在当前市场环境下，员工跳槽意愿降低，企业招聘节奏放缓。值得注意的是，远程工作岗位比例从 25％下滑至 20％，薪酬优势也在减弱。

这些变化共同描绘出一个竞争加剧、要求提高的科技就业市场。 经验越丰富的人，越难被说动 ，这一现象在资深工程师群体中尤为明显。对于求职者而言，掌握 AI 相关技能、积累行业经验，以及在核心科技区域发展，将成为提升就业竞争力的关键因素。

05Hinton 转变态度：从 AI 风险警示者到共生关系倡导者

77 岁的图灵奖得主 Geoffrey Hinton 近期在接受采访时，公开转变了对通用人工智能（AGI）的态度。 “大多数专家认为 5－10 年后人工智能会比人类更聪明” ，他不再坚持“养虎为患”的警示，转而提出人类与 AI 应建立类似“母亲与婴儿”的共生关系。这种转变距离他在上海世界人工智能大会（WAIC）上警告 AI 风险仅过去两个月。

Hinton 认为传统控制超级智能的思路存在根本缺陷，唯一可行的方案是在 AI 设计阶段植入“母性本能”，使其本能地希望人类幸福。他特别批评了马斯克和奥特曼，称 “你们很清楚，你们正在发展的事业很有可能正在消灭人类” 。在评估现有 AI 公司时，他认为 Anthropic 相对重视安全但仍不足，OpenAI 偏离初心，Meta 和 xAI 则完全忽视安全问题。

医疗领域是 Hinton 最看好的 AI 应用方向。他列举了医学影像解读、药物研发加速、个性化医疗等五大潜力领域，特别提到 AI 在癌症治疗和患者情感支持方面的优势。不过他也承认 AI 将取代客服、律师助理等职业，甚至十年后可能写出精妙剧本。这些变化可能加剧社会不平等，但 Hinton 认为这属于社会问题而非技术问题。

作为出身显赫学术世家的科学家，Hinton 坦言父亲的好胜性格给他带来压力。如今他将引导 AI 发展视为晚年使命，尽管腰伤严重仍坚持全球奔走。从风险警示者到共生关系倡导者，Hinton 的转变反映了 AI 发展面临的复杂伦理挑战。他的新主张为控制超级智能提供了全新思路，但实现这一愿景需要全球研究者的共同努力。

06美团开源高效智能体模型 LongCat－Flash－Chat

美团于 9 月 1 日正式开源 LongCat－Flash－Chat 模型，这是一款专为高效智能体任务设计的混合专家模型（MoE）。该模型总参数达 560B，但通过创新的“零计算专家”机制，每个 token 仅激活 18.6B～31.3B 参数，平均激活量为 27B，实现了计算效率的大幅提升。 “在 H800 上实现单用户 100＋ tokens／s 的推理速度” ，这一表现使其在复杂智能体应用中具有明显优势。

LongCat－Flash－Chat 在架构设计上有多项创新。除了采用 MoE 架构外，还通过跨层通道铺设实现了通信与计算的并行，配合定制化的底层优化，仅用 30 天就完成了训练。模型在训练过程中使用了 PID 控制器实时微调专家偏置，并结合超参迁移和模型层叠加等策略保证稳定性。

针对智能体能力，团队自建评测集并采用多智能体方法生成高质量数据，显著提升了模型性能。在多项基准测试中，该模型展现出全面竞争力。在 ArenaHard－V2 测试中排名第二，MMLU 和 CEval 得分接近 90 分；在智能体工具使用方面，τ2－Bench 和 VitaBench 测试表现突出；编程能力上，TerminalBench 和 SWE－Bench－Verified 得分位居前列；指令遵循方面，IFEval、COLLIE 和 Meeseeks－zh 测试均获最佳成绩。 “输出成本低至 5 元／百万 token” ，体现了其优异的性价比。

美团同步提供了基于 SGLang 和 vLLM 的两种部署方案，并开放了模型微调接口。模型采用 MIT License 开源，允许用户进行二次开发和商业应用。这一开源举措将推动智能体技术的发展，为行业提供高效可靠的大模型解决方案。

07UI－TARS－2：全能图形用户界面代理发布

ByteDance－Seed 团队发布了 UI－TARS－2，这是一个通过多轮代理强化学习训练的全能图形用户界面代理。它在多个领域表现出色：计算机使用（OSWorld 47.5，WindowsAgentArena 50.6）、手机使用（AndroidWorld 73.3）、浏览器使用（Online－Mind2Web 88.2％）、游戏玩法（15 款游戏中约 60％人类水平）、终端使用（SWE－Bench 68.7）和工具使用（BrowseComp 29.6）。

该代理支持混合流程，能在一个轨迹中结合图形界面点击、终端命令和 API 调用。论文和演示已公开，展示了其在多领域的强大能力。

与此同时，OSWorld Verified 排行榜公开发布，旨在提高计算机使用代理评估的可复现性，目前包含 OpenAI 和 Anthropic 的 CUA 模型，未来将纳入更多评估和模型。

08WaytoAGI 社区 9 月 AI 活动与资源汇总

WaytoAGI 社区近期更新了 9 月活动日程与优质资源。直播共学计划持续到 9 月中旬，涵盖阿里云百炼、AI 产品出海等主题，所有直播内容可在视频号回看。飞书知识库同步整理了直播文档与回放链接，方便成员随时查阅。

近期重点活动包括三个方向：阿里云 AI 实训营的 Agent 创客课程由同济子豪兄主讲；电影频道 AI 影像人才计划由刘慈欣等评委坐镇；Vibe Hack 编程马拉松以“优化 Vibe Coding”为主题，提供丰厚奖励。 “33 组开发者将用一天一夜，围绕主题拼创意、拼执行、拼落地” 展现了活动的强度与价值。

社区精选文章聚焦实用技巧，如 Claude Code 的并行开发与 BUG 修复教程，小红书点击率提升方案，以及 30 余款 AI 绘画工具横向测评。 “工具没有绝对好坏，关键是按需选用、跨工具协作” 道出了技术选型的核心原则。UGC 视频策略与 GEO 流量获取等商业内容，为创业者提供了实操指南。

这些资源既包含技术深度，又兼顾商业价值，反映出社区“以赛代练”的实践导向。从开发技巧到营销策略，完整覆盖了 AI 从业者的需求图谱，为成员提供了持续成长的知识基础设施。

09DeepMind 论文揭示向量嵌入模型的数学上限

DeepMind 最新研究将几何代数与通信复杂度理论结合，证明了向量嵌入模型存在根本性限制。 “对于任意给定的嵌入维度 d，当文档数量超过临界点时，总会存在无法同时召回的相关文档组合” 。这一发现直接挑战了当前 AI 领域依赖“更大模型更好效果”的主流发展路径。

向量嵌入技术通过将复杂信息压缩为

多维空间

坐标点，广泛应用于搜索引擎、推荐系统等领域。随着大模型发展，其应用场景已扩展到推理、编程等更复杂任务。但研究指出，这种压缩过程必然伴随信息丢失，就像三维物体被压扁成二维图像后无法还原原始属性。

实验采用“自由嵌入优化”方法，在理想条件下直接优化测试数据。结果显示，当文档数量超过特定阈值时，即使最优化的嵌入模型也无法准确捕获所有关联。研究者构建的 LIMIT 测试集显示，当前最先进的嵌入模型在简单任务上的召回率不足 20％。 “单向量嵌入模型在理论和实证上都存在根本性限制” 。这一发现对依赖检索增强生成（RAG）的系统产生直接影响。当知识库规模扩大时，嵌入维度的不足会导致关键信息丢失，进而影响大模型生成质量。研究同时暗示，单纯依靠增加模型规模的“大力出奇迹”策略可能面临理论天花板。

10中美 Agent 创业者闭门沙龙：技术瓶颈与商业抉择

2025 年 AI 领域最热话题 Agent 面临落地困境，Atom Capital 组织的闭门沙龙汇集了中美两地创业者实战经验。

“隐性知识的获取是一个 Agent 的核心挑战，尤其在 2B 领域” ，这成为讨论焦点。广告行业创意标准、企业内部计算规则等未被记录的默会知识，构成 AI 落地的隐形壁垒。技术路线上，Workflow 与自主编排 Agent 呈现分化，固定流程类任务适合规则驱动，而数据分析等复杂场景需要 Agent 自主决策。

“Workflow 跟自主编排 Agent 各有用武之地，但价值重心正逐步向后者迁移” 。商业化方面，中小企业市场展现出意外潜力，AI 正在将大企业专属的运营能力“民主化”。通用 Agent 面临留存率低的困境，垂直领域深耕成为更务实选择。

以 PPT 生成为例，专用模型与工作流优化使质量显著提升，留存率比通用产品高出一倍。多 Agent 协作架构在实践中遭遇上下文共享难题，有效的任务分解与专家模型组合成为可行方案。

记忆与学习机制被视作下一个突破口。当前 AI 缺乏情景记忆能力，难以积累业务流程中的隐性经验。前沿公司开始尝试记录人机协作轨迹，通过过程数据优化决策框架。这场闭门讨论揭示：Agent 创业已进入深水区，技术突破需与商业场景更紧密耦合。

11MBZUAI 启动 2026 年本硕博招生，提供全额奖学金

MBZUAI 作为全球第一所专注于人工智能的大学，在阿联酋 2031 国家人工智能战略支持下迅速发展。学校 AI 专业已跻身全球前十，超越众多欧美传统名校。

“我们正在重新定义人工智能教育的意义——不只是培养工程师，更要培养企业家、设计师、影响力人物” ，校长 Eric Xing 表示。

学校拥有来自 CMU、MIT 等名校的顶尖教授团队，师生比例高，提供个性化指导。硬件设施完善，计算能力不亚于谷歌等顶尖机构。产研结合紧密，与英伟达、谷歌等企业合作，90％毕业生留在阿联酋，硕士平均年薪约 10 万美元。

2026 年招生已启动，本科录取率仅 5％，竞争激烈。奖学金覆盖学费、住宿、医疗保险等，研究生还可获得每年 5－14 万美元津贴。申请者需具备优秀学术背景和数理能力，优先考虑竞赛获奖或有特长的候选人。

学校位于阿布扎比，安全且国际化，生活便利。 “MBZUAI 的师资力量和师生配比在全球是顶尖的” ，一位学生家长评价道。本科分为工程和商科方向，研究生有六个专业可选，未来将增设计算生物学和人机交互专业。

MBZUAI 的快速发展体现了阿联酋向科技转型的决心，为全球 AI 人才提供了独特的学习和发展机会。学校通过丰厚的奖学金和优质的资源，吸引着来自 47 个国家的优秀学生，致力于培养未来 AI 领域的领军人物。

12美团开源大模型 LongCat：瞄准通用生活服务 Agent

美团近期开源了 560B 参数的 MoE 模型 LongCat－Flash－Chat，并提供了线上体验平台。与同类模型相比，LongCat 最显著的特点是极快的推理速度，在测试中其输出速度比 DeepSeek V3 快 5－6 倍。

“像机关枪一样哒哒哒的五六秒就输出完了” ，这种即时性对生活服务场景至关重要。该模型在写作、编程等任务上表现中规中矩，但在生活服务相关领域展现出独特优势。它能生成详细的北京美食地图，编写符合物理规律的小游戏代码，甚至创作富有哲思的小说片段。 “在宇宙的尺度下，孤独是一种常态” 这样的金句展现了其创作潜力。

LongCat 真正的价值在于其 Agent 能力。美团已在 App 中测试多项 AI 功能：自然语言搜索餐厅、AI 订座、开发票等。这些功能直击生活痛点，如用户只需说“找个适合哥们儿喝酒撸串的店”，AI 就能精准推荐。

“所有这些 AI 功能，全都是为了 C 端用户，为了生活场景” 。美团布局生活 Agent 具有天然优势。其拥有数百万商户实时数据、数亿用户交易记录和庞大配送网络，形成了数据－场景－模型的良性循环。LongCat 的低成本设计（5 元／百万 token）也契合生活服务的小额高频特性。这种将 AI 深度融入日常生活的策略，可能重新定义本地服务的用户体验。

每日AI