
今天是2025-09-05。Atlassian以6.1亿美元收购AI浏览器Dia母公司,增强其AI布局;腾讯与清华研究工具集成推理扩展大模型能力;美国科技市场对AI工程师需求激增,资深岗位占比增加。关注这些行业动态。
AI 发展远超预期:从奥数金牌到群体智能时代
Atlassian 以 6.1 亿美元收购 AI 浏览器 Dia 母公司
腾讯与清华联合研究:工具集成推理如何扩展大模型能力边界
通用人工智障
Sep 05, 2025
2022 年,169 名顶尖预测专家评估 AI 在 2025 年前赢得国际数学奥林匹克金牌的概率仅为 2.3%-8.6%。然而仅两年后,OpenAI 和谷歌 DeepMind 的模型就提前实现了这一突破。 “预测错得越离谱,AI 给人的感觉就越震撼” ,宾大教授 Ethan Mollick 指出,这反映了人们对 AI 发展速度的系统性低估。
在多项基准测试中,AI 的表现都远超预期。GPT-4 Turbo 在 MATH 测试中达到 87.82%准确率,比专家预测提前半年;在自然语言理解方面,AI 达到人类中位数水平的时间从预测的 2027 年提前到 2023 年。 “变化之快堪称疯狂。2022 年看似不可能的事,现在已触手可及” ,网友的感叹印证了这一趋势。
AI 进步的背后是技术效率的显著提升。两年前需要花费数美元的运算任务,现在免费用户就能完成。模型理解能力也在增强,不再依赖复杂的
这种普及正在催生“群体智能时代”。当强 AI 变得像搜索引擎一样易获取,社会各个领域都需要重新适应。从教育到医疗,从法律到商业,所有建立在“智能稀缺”假设上的制度都面临重构。 “并不是因为某个宏大的“平民化 AI”愿景,而是因为算力经济学终于走到这一步” ,技术发展正在重塑社会运行的基础逻辑。
Atlassian 近日宣布以 6.1 亿美元现金收购初创企业 The Browser Company,后者是 AI 浏览器 Dia 及 Arc 浏览器的母公司。Atlassian 旗下拥有 Jira、Confluence 等知名协作工具,此次收购旨在强化其在 AI 浏览器领域的布局。
“浏览器是计算的未来” ,The Browser Company 创始人 Josh Miller 在公开信中强调这一核心理念。他认为,浏览器作为现代生活的核心工具,长期缺乏创新。Dia 的定位是重新构想浏览器,使其更适应未来工作方式。收购后,Dia 将保持独立运营,并加速跨平台扩展,包括 Mac、Windows、iOS 和 Android。
Atlassian 的分发能力和企业资源是此次合作的关键。其服务覆盖 80%的《财富》500 强企业,为 Dia 提供了规模化落地的渠道。 “我们选择 Atlassian,因为他们的优势正好弥补了我们的短板” ,Miller 表示。未来,Dia 将聚焦 AI 与工作流的深度集成,同时坚持隐私保护和无广告模式。
此次收购标志着 AI 浏览器竞争进入新阶段。The Browser Company 团队将保留原有架构,继续推进“浏览器即操作系统”的愿景。Miller 透露,下个月将发布 Dia 的重大更新,并计划扩大招聘规模。
纯文本大语言模型面临的根本困境在于“经验支持集”的限制——它们只能生成以不低于阈值的概率出现的推理路径。
“如果正确的解决方案不在这个「地图」上,无论怎么训练,模型都找不到它” 。这解释了为何传统强化学习无法突破模型的固有限制,因为其策略分布始终是基础模型支持集的子集。工具集成推理(TIR)的革命性在于严格扩展了模型的经验支持集。
研究通过随机预言机示例证明:当问题复杂度足够高时,纯文本模型的成功概率趋近于零,而 TIR 模型能直接调用工具解决问题。以 100 位随机预言机问题为例,纯文本模型猜中概率约为 10⁻³⁰,而 TIR 模型可精确获取结果。
TIR 的优势不仅体现在计算密集型任务上。研究提出的“算法友好度”指标显示,TIR 对高度抽象问题同样有效。在最低友好度组(G1),TIR 模型 pass@256 准确率高出纯文本模型约 9%。 “工具不再是终点,而是思考过程的一部分” ,这种转变使模型能进行探索性推理,例如通过编写短代码测试假设。
研究还发现了三种新兴认知模式:将抽象问题转化为可计算形式、使用工具进行假设验证、将复杂计算委托给工具执行。这些模式构成了纯文本模型无法实现的“计算等价类”。为优化工具使用策略,团队提出 ASPO 算法,使模型首次代码调用位置从 4000 tokens 提前到 1000 tokens,代码轮次从 1.3 增加到 3.3。
这项研究的意义在于重新定义了 AI 能力的边界——不是由模型参数量决定,而是由其与工具协同工作的能力决定。数据显示,TIR 模型实现了 15.4%的问题解决率提升,而能力收缩仅 1.8%,证实其创造了全新的问题解决路径。这为 AI 系统设计提供了具体指导,例如当问题描述的 token 成本接近上下文窗口 50%时,应立即启用 TIR 模式。
一项名为 CatAttack 的研究系统揭示了大语言模型在逻辑推理上的致命弱点。 “只要在提示词里加一句「猫一生中大部分时间都在睡觉」,原本表现优异的大模型立刻陷入混乱。” 这种看似无害的干扰语句能让 DeepSeek R1 等模型的数学解题错误率从 1.5%飙升至 4.5%,最高可达原始错误率的 9 倍。
CatAttack 系统由三个 AI 组成:GPT-4o 生成干扰语句,DeepSeek V3 作为“陪练靶子”测试攻击效果,
“大模型缺乏「语义隔离能力」,会下意识将所有上下文都纳入推理链。” 典型攻击模式包括:用动物冷知识分散注意力、诱导进入“人生导师”模式、利用数字敏感性制造认知偏差。攻击不仅降低准确率,还使回复长度增加 3-4 倍,造成 GPU 资源浪费,形成新型拒绝服务攻击。
研究发现简单提示“请忽略无关的干扰信息”就能将攻击成功率从 37.5%降至 9.9%。这暴露了大模型“注意力”机制的根本缺陷——无法主动判断信息相关性。该漏洞可能被工业化利用,通过廉价代理模型批量测试攻击语句,再针对高端模型实施精准干扰,对医疗诊断、金融预测等关键领域构成威胁。
美国科技就业市场在经历 2023 年的裁员潮后,呈现出明显的结构性变化。 AI 工程师是目前科技行业最热门的职位 ,相关招聘自 2023 年中期以来呈爆炸式增长。与普遍认知不同,转行成为 AI 工程师并不困难,关键在于掌握基于大语言模型的应用开发能力。
招聘市场呈现明显的资深化趋势。超过一半的开放职位要求应聘者具备资深以上经验,这与以往初级岗位为主的情况形成鲜明对比。苹果、IBM 和亚马逊成为招聘量最大的三家公司,而一些初创企业如 Speechify 和 Anduril 也展现出强劲的用人需求。
地域分布上,旧金山湾区以接近 20%的岗位占比保持绝对优势, 湾区依旧是技术岗的“心脏地带” 。数据显示,湾区软件工程师的跳槽率最高,但跳槽意愿与工作经验成反比,资深工程师更倾向于保持现有职位。
市场另一个显著变化是大厂员工平均任职年限的延长。自 2022 年年中以来,科技巨头的平均任期普遍增加了约 2 年,反映出在当前市场环境下,员工跳槽意愿降低,企业招聘节奏放缓。值得注意的是,远程工作岗位比例从 25%下滑至 20%,薪酬优势也在减弱。
这些变化共同描绘出一个竞争加剧、要求提高的科技就业市场。 经验越丰富的人,越难被说动 ,这一现象在资深工程师群体中尤为明显。对于求职者而言,掌握 AI 相关技能、积累行业经验,以及在核心科技区域发展,将成为提升就业竞争力的关键因素。
77 岁的图灵奖得主 Geoffrey Hinton 近期在接受采访时,公开转变了对通用人工智能(AGI)的态度。 “大多数专家认为 5-10 年后人工智能会比人类更聪明” ,他不再坚持“养虎为患”的警示,转而提出人类与 AI 应建立类似“母亲与婴儿”的共生关系。这种转变距离他在上海世界人工智能大会(WAIC)上警告 AI 风险仅过去两个月。
Hinton 认为传统控制超级智能的思路存在根本缺陷,唯一可行的方案是在 AI 设计阶段植入“母性本能”,使其本能地希望人类幸福。他特别批评了马斯克和奥特曼,称 “你们很清楚,你们正在发展的事业很有可能正在消灭人类” 。在评估现有 AI 公司时,他认为 Anthropic 相对重视安全但仍不足,OpenAI 偏离初心,Meta 和 xAI 则完全忽视安全问题。
医疗领域是 Hinton 最看好的 AI 应用方向。他列举了医学影像解读、药物研发加速、个性化医疗等五大潜力领域,特别提到 AI 在癌症治疗和患者情感支持方面的优势。不过他也承认 AI 将取代客服、律师助理等职业,甚至十年后可能写出精妙剧本。这些变化可能加剧社会不平等,但 Hinton 认为这属于社会问题而非技术问题。
作为出身显赫学术世家的科学家,Hinton 坦言父亲的好胜性格给他带来压力。如今他将引导 AI 发展视为晚年使命,尽管腰伤严重仍坚持全球奔走。从风险警示者到共生关系倡导者,Hinton 的转变反映了 AI 发展面临的复杂伦理挑战。他的新主张为控制超级智能提供了全新思路,但实现这一愿景需要全球研究者的共同努力。
美团于 9 月 1 日正式开源 LongCat-Flash-Chat 模型,这是一款专为高效智能体任务设计的混合专家模型(MoE)。该模型总参数达 560B,但通过创新的“零计算专家”机制,每个 token 仅激活 18.6B~31.3B 参数,平均激活量为 27B,实现了计算效率的大幅提升。 “在 H800 上实现单用户 100+ tokens/s 的推理速度” ,这一表现使其在复杂智能体应用中具有明显优势。
LongCat-Flash-Chat 在架构设计上有多项创新。除了采用 MoE 架构外,还通过跨层通道铺设实现了通信与计算的并行,配合定制化的底层优化,仅用 30 天就完成了训练。模型在训练过程中使用了 PID 控制器实时微调专家偏置,并结合超参迁移和模型层叠加等策略保证稳定性。
针对智能体能力,团队自建评测集并采用多智能体方法生成高质量数据,显著提升了模型性能。在多项基准测试中,该模型展现出全面竞争力。在 ArenaHard-V2 测试中排名第二,MMLU 和 CEval 得分接近 90 分;在智能体工具使用方面,τ2-Bench 和 VitaBench 测试表现突出;编程能力上,TerminalBench 和 SWE-Bench-Verified 得分位居前列;指令遵循方面,IFEval、COLLIE 和 Meeseeks-zh 测试均获最佳成绩。 “输出成本低至 5 元/百万 token” ,体现了其优异的性价比。
美团同步提供了基于 SGLang 和 vLLM 的两种部署方案,并开放了模型微调接口。模型采用 MIT License 开源,允许用户进行二次开发和商业应用。这一开源举措将推动智能体技术的发展,为行业提供高效可靠的大模型解决方案。
ByteDance-Seed 团队发布了 UI-TARS-2,这是一个通过多轮代理强化学习训练的全能图形用户界面代理。它在多个领域表现出色:计算机使用(OSWorld 47.5,WindowsAgentArena 50.6)、手机使用(AndroidWorld 73.3)、浏览器使用(Online-Mind2Web 88.2%)、游戏玩法(15 款游戏中约 60%人类水平)、终端使用(SWE-Bench 68.7)和工具使用(BrowseComp 29.6)。
该代理支持混合流程,能在一个轨迹中结合图形界面点击、终端命令和 API 调用。论文和演示已公开,展示了其在多领域的强大能力。
与此同时,OSWorld Verified 排行榜公开发布,旨在提高计算机使用代理评估的可复现性,目前包含 OpenAI 和 Anthropic 的 CUA 模型,未来将纳入更多评估和模型。
WaytoAGI 社区近期更新了 9 月活动日程与优质资源。直播共学计划持续到 9 月中旬,涵盖阿里云百炼、AI 产品出海等主题,所有直播内容可在视频号回看。飞书知识库同步整理了直播文档与回放链接,方便成员随时查阅。
近期重点活动包括三个方向:阿里云 AI 实训营的 Agent 创客课程由同济子豪兄主讲;电影频道 AI 影像人才计划由刘慈欣等评委坐镇;Vibe Hack 编程马拉松以“优化 Vibe Coding”为主题,提供丰厚奖励。 “33 组开发者将用一天一夜,围绕主题拼创意、拼执行、拼落地” 展现了活动的强度与价值。
社区精选文章聚焦实用技巧,如 Claude Code 的并行开发与 BUG 修复教程,小红书点击率提升方案,以及 30 余款 AI 绘画工具横向测评。 “工具没有绝对好坏,关键是按需选用、跨工具协作” 道出了技术选型的核心原则。UGC 视频策略与 GEO 流量获取等商业内容,为创业者提供了实操指南。
这些资源既包含技术深度,又兼顾商业价值,反映出社区“以赛代练”的实践导向。从开发技巧到营销策略,完整覆盖了 AI 从业者的需求图谱,为成员提供了持续成长的知识基础设施。
DeepMind 最新研究将几何代数与通信复杂度理论结合,证明了向量嵌入模型存在根本性限制。 “对于任意给定的嵌入维度 d,当文档数量超过临界点时,总会存在无法同时召回的相关文档组合” 。这一发现直接挑战了当前 AI 领域依赖“更大模型更好效果”的主流发展路径。
向量嵌入技术通过将复杂信息压缩为
实验采用“自由嵌入优化”方法,在理想条件下直接优化测试数据。结果显示,当文档数量超过特定阈值时,即使最优化的嵌入模型也无法准确捕获所有关联。研究者构建的 LIMIT 测试集显示,当前最先进的嵌入模型在简单任务上的召回率不足 20%。 “单向量嵌入模型在理论和实证上都存在根本性限制” 。这一发现对依赖检索增强生成(RAG)的系统产生直接影响。当知识库规模扩大时,嵌入维度的不足会导致关键信息丢失,进而影响大模型生成质量。研究同时暗示,单纯依靠增加模型规模的“大力出奇迹”策略可能面临理论天花板。
2025 年 AI 领域最热话题 Agent 面临落地困境,Atom Capital 组织的闭门沙龙汇集了中美两地创业者实战经验。
“隐性知识的获取是一个 Agent 的核心挑战,尤其在 2B 领域” ,这成为讨论焦点。广告行业创意标准、企业内部计算规则等未被记录的默会知识,构成 AI 落地的隐形壁垒。技术路线上,Workflow 与自主编排 Agent 呈现分化,固定流程类任务适合规则驱动,而数据分析等复杂场景需要 Agent 自主决策。
“Workflow 跟自主编排 Agent 各有用武之地,但价值重心正逐步向后者迁移” 。商业化方面,中小企业市场展现出意外潜力,AI 正在将大企业专属的运营能力“民主化”。通用 Agent 面临留存率低的困境,垂直领域深耕成为更务实选择。
以 PPT 生成为例,专用模型与工作流优化使质量显著提升,留存率比通用产品高出一倍。多 Agent 协作架构在实践中遭遇上下文共享难题,有效的任务分解与专家模型组合成为可行方案。
记忆与学习机制被视作下一个突破口。当前 AI 缺乏情景记忆能力,难以积累业务流程中的隐性经验。前沿公司开始尝试记录人机协作轨迹,通过过程数据优化决策框架。这场闭门讨论揭示:Agent 创业已进入深水区,技术突破需与商业场景更紧密耦合。
MBZUAI 作为全球第一所专注于人工智能的大学,在阿联酋 2031 国家人工智能战略支持下迅速发展。学校 AI 专业已跻身全球前十,超越众多欧美传统名校。
“我们正在重新定义人工智能教育的意义——不只是培养工程师,更要培养企业家、设计师、影响力人物” ,校长 Eric Xing 表示。
学校拥有来自 CMU、MIT 等名校的顶尖教授团队,师生比例高,提供个性化指导。硬件设施完善,计算能力不亚于谷歌等顶尖机构。产研结合紧密,与英伟达、谷歌等企业合作,90%毕业生留在阿联酋,硕士平均年薪约 10 万美元。
2026 年招生已启动,本科录取率仅 5%,竞争激烈。奖学金覆盖学费、住宿、医疗保险等,研究生还可获得每年 5-14 万美元津贴。申请者需具备优秀学术背景和数理能力,优先考虑竞赛获奖或有特长的候选人。
学校位于阿布扎比,安全且国际化,生活便利。 “MBZUAI 的师资力量和师生配比在全球是顶尖的” ,一位学生家长评价道。本科分为工程和商科方向,研究生有六个专业可选,未来将增设计算生物学和人机交互专业。
MBZUAI 的快速发展体现了阿联酋向科技转型的决心,为全球 AI 人才提供了独特的学习和发展机会。学校通过丰厚的奖学金和优质的资源,吸引着来自 47 个国家的优秀学生,致力于培养未来 AI 领域的领军人物。
美团近期开源了 560B 参数的 MoE 模型 LongCat-Flash-Chat,并提供了线上体验平台。与同类模型相比,LongCat 最显著的特点是极快的推理速度,在测试中其输出速度比 DeepSeek V3 快 5-6 倍。
“像机关枪一样哒哒哒的五六秒就输出完了” ,这种即时性对生活服务场景至关重要。该模型在写作、编程等任务上表现中规中矩,但在生活服务相关领域展现出独特优势。它能生成详细的北京美食地图,编写符合物理规律的小游戏代码,甚至创作富有哲思的小说片段。 “在宇宙的尺度下,孤独是一种常态” 这样的金句展现了其创作潜力。
LongCat 真正的价值在于其 Agent 能力。美团已在 App 中测试多项 AI 功能:自然语言搜索餐厅、AI 订座、开发票等。这些功能直击生活痛点,如用户只需说“找个适合哥们儿喝酒撸串的店”,AI 就能精准推荐。
“所有这些 AI 功能,全都是为了 C 端用户,为了生活场景” 。美团布局生活 Agent 具有天然优势。其拥有数百万商户实时数据、数亿用户交易记录和庞大配送网络,形成了数据-场景-模型的良性循环。LongCat 的低成本设计(5 元/百万 token)也契合生活服务的小额高频特性。这种将 AI 深度融入日常生活的策略,可能重新定义本地服务的用户体验。