
2025-08-19动态:软件快时尚挑战;AI重塑HR;富士康AI服务器超苹果代工;清华UoMo模型;Arm推进自研芯片。📊
Sam Altman 承认 AI 行业存在泡沫,Gary Marcus 发文调侃
OpenAI 开源模型 gpt-oss 的技术解析与横向对比
AI 时代下软件行业的“快时尚化”与升维路径
通用人工智障
Aug 19, 2025
OpenAI 首席执行官 Sam Altman 近日在接受 The Verge 采访时直言不讳地表示,AI 行业正处于类似 90 年代互联网泡沫的狂热阶段。他认为虽然 AI 技术确实重要,但市场对只有三个人和一个点子的初创公司给予高估值的现象 简直疯狂 。
与此同时,知名 AI 评论家 Gary Marcus 在社交媒体上连续发文,戏称"Sam Altman 开始听起来像 Gary Marcus",暗示 Altman 对 AI 泡沫的警告与自己长期以来的观点不谋而合。Marcus 甚至专门撰写文章分析这一现象,标题直指 OpenAI 当前处境的"绝望"。
Altman 预测未来 OpenAI 将在数据中心建设上投入数万亿美元,并表示尽管泡沫终将破裂,但 AI 技术最终将为经济带来巨大净收益。
OpenAI 近期发布的 gpt-oss-120b 和 gpt-oss-20b 开源模型标志着其技术策略的重要转变。这两个基于
“gpt-oss-20b 模型可以在配备 16GB RAM 的消费级 GPU 上运行” ,这得益于创新的 MXFP4 量化方案,使大模型部署门槛显著降低。与 2019 年 GPT-2 相比,gpt-oss 进行了多项架构革新:用旋转位置嵌入(RoPE)替代绝对位置编码,采用 SwiGLU 激活函数取代 GELU,并引入分组查询注意力机制。
特别值得注意的是其交替使用的滑动窗口注意力设计,每两层中就有一层将注意力范围限制在 128 个 token 内,这种局部注意力模式在 Gemma 系列模型中也有类似应用。在与同期开源模型 Qwen3 的对比中,两者均采用 MoE 架构但实现策略迥异。
gpt-oss 选择少量大型专家模块(32 专家/4 激活),而 Qwen3 采用更多小型专家(128 专家/8 激活)。 “在总参数大小不变的情况下,更多小型专家模型被证明更有利” ,这源于 DeepSeekMoE 等研究的结论。
基准测试显示,gpt-oss-120b 参数量仅为 Qwen3 同级别模型一半,但推理性能接近。技术细节方面,gpt-oss 保留了注意力
实际测试表明,该系列模型在数学推理方面表现突出,但存在
软件行业正经历从“死系统”到“活系统”的转变。传统软件本质上是数据库前端,而未来的 system of intelligence 将具备元学习能力,通过实时数据构建“易逝数据护城河”。 “控制独特、高通量、实时数据流的公司,可以构建起竞争对手难以逾越的护城河” 。Anthropic 的 Dario 指出,训练能实时更新权重的模型是可行方向,这将使 UI/UX 退居次要地位。
定价机制也在发生根本性变革。AI 使经济颗粒度变细,软件公司可能获得近乎垄断的定价权。根据结果定价的新模式将取代现有的席位或用量收费,显著改善毛利结构。这种转变类似于银行吸收储蓄再进行借贷的过程,模型建设相当于“吸收智能储蓄阶段”。
当前市场对 Atlassian、Salesforce 等公司的悲观情绪反映了转型期的阵痛。但真正具备“活系统”能力的公司将实现升维,就像 Anthropic 探索的实时学习模型那样。 “软件公司应该主动参与到颠覆自己的过程中” ,通过 ambient agent 重构供需匹配度,这远比简单复制现有软件更有价值。
AI 不仅改变了软件的生产方式,更在重塑整个行业的价值链条。那些能够把握数据
通信软件公司 RingCentral 在疫情期间将 HR 团队从 300 人缩减近半,其 HR 主管 Alvin Lam 坦言,借助 AI 聊天机器人 Ringo,即使继续减员也能维持服务水准。 “几乎所有的硅谷 HR 同行都在挣扎,因为高管层不断要求「利用 AI 减少人力」” ,Lam 的困境折射出生成式 AI 给企业管理带来的普遍挑战。 摩根大通预计其运营部门未来五年将减员 10%,同时业务增长 25%。目前约 9%的美国企业将生成式 AI 应用于生产服务,这一数字正在快速增长。HR 领域最集中的 AI 应用是招聘,近三分之二采用 AI 的企业将其用于人才获取。 IBM 的 AskHR 工具已处理 94%的员工常规咨询,加拿大 Vendasta 公司用 AI 筛选候选人,每年节省超 1000 小时人力时间。 但 AI 也带来新问题:求职者开始用 AI 批量生成完美简历,迫使企业以 AI 对抗 AI。法律风险成为 AI 在 HR 领域扩张的阻碍。欧盟《AI 法案》将部分 HR 相关 AI 活动列为“高风险”,加州拟立法禁止无人工监督的 AI 人事决策。 谷歌前 HR 主管 Laszlo Bock 指出, “HR 高管正面临终极考验:他们到底是企业秘密警察,还是员工代言人?” IBM 通过自研大模型 Granite 确保 AI 回答符合法规,展现了合规与创新的平衡。尽管麦肯锡报告显示 HR 是 AI 降本最显著的部门之一,但多数企业尚未全面部署。高盛分析认为,AI 短期内不会导致大规模失业,人类在多数领域仍具优势。Salesforce CEO 强调“人类必须处于故事中心”,AI 的真正价值在于释放人力处理更高阶任务。Bock 预测 HR 职能 80%将自动化,但最后 20%仍需人工完成,因为“有些事人们就是更愿意对人倾诉”。
富士康近期财报显示,其云服务和网络产品收入占比达 41%,首次超过占比 35%的消费电子业务。这一转变源于公司早期对 AI 服务器领域的布局,目前已成为英伟达最大服务器制造商。 “公司多年来一直从事这项业务,满足更高品质要求,实现多地运营和垂直整合” ,分析师郭明錤指出。
富士康早在 2002 年就开始为英伟达
台湾科技行业整体呈现相似转型趋势。广达和纬创等传统消费电子代工企业也转向 AI 服务器,推动营收大幅增长。行业顾问魏志强估计,台湾企业占据全球服务器出货量的 80%,AI 服务器份额超过 90%。分析师郑文隆表示:“无论以何种形式,向 AI 服务器的转变对台湾科技行业都是有利的。”
这一转型既反映了消费电子市场增长放缓的现实,也体现了台湾供应链快速响应客户需求的能力。随着全球 AI 基础设施投资持续升温,富士康等企业的提前布局正获得市场回报。 “在长期合作中,富士康更愿意主动出击” ,郭明錤评价道。
在 ACM KDD 2025 大会上,清华大学电子系团队与中国移动合作发布了全球首个面向移动网络的通用流量预测模型 UoMo。该模型突破性地将扩散模型与 Transformer 结构结合,能够理解城市地理信息与人流变化, “把网络规划和优化做得更聪明、更精准” 。
UoMo 解决了传统方法的三大痛点:针对不同城市特征缺乏泛化能力、单一模型无法适应多任务需求、新区域预测需要重复建模。通过数据词元化技术,它将异构时空流量转化为统一 token 序列,再通过扩散模型预训练和城市环境微调两个阶段,实现对移动流量时空分布的精准建模。 “UoMo 能同时支持短期预测、长期预测、生成三类任务” ,这种“一模多用”的特性大幅降低了部署复杂度。
实验数据显示,UoMo 在 9 个不同规模城市的测试中全面超越现有算法。特别是在小样本场景下,仅用 5%训练数据就能接近完整数据的预测效果。实际部署案例表明,该模型在基站选址、资源分配等场景中能提升 15-30%的规划准确率。这种通用预测能力为 5G/6G 时代的智能网络运营提供了重要技术支撑。
研究团队已开源模型代码和数据,其创新性的掩码-复原训练范式也为时空预测领域提供了新思路。随着移动流量持续增长,这类通用模型将帮助运营商更高效地应对网络扩容、节能等复杂挑战。
芯片设计巨头 Arm Holdings 近期聘请了亚马逊 AI 芯片项目负责人 Rami Sinno,这是其战略转型的关键一步。 “Sinno 曾负责开发亚马逊自研 AI 芯片 Trainium 和 Inferentia,这些芯片专为构建和运行大型 AI 应用设计。” 这位在奥斯汀 Annapurna 实验室任职的工程总监,将为 Arm 带来实际芯片开发经验。
Arm 长期以出售处理器架构授权为主要商业模式,客户包括苹果、英伟达等巨头。但今年 7 月,公司 CEO Rene Haas 首次披露将投入部分利润自研芯片,包括功能模块化的小芯片(chiplets)和完整系统。这一转变意味着 Arm 将直接参与芯片制造环节,而不仅是提供设计蓝图。
为推进新战略,Arm 已组建专业团队。除 Sinno 外,公司还招募了惠普系统设计专家 Nicolas Dube,以及来自英特尔和高通的芯片工程师 Steve Halter。这些人事变动显示,Arm 正从纯技术授权商向具备完整解决方案能力的半导体企业转型。
目前基于 Arm 架构的芯片已占据全球智能手机市场,并在数据中心领域逐渐侵蚀 AMD 和英特尔份额。
此次挖角也反映了 AI 芯片领域的激烈竞争。亚马逊自研芯片的目标本是替代英伟达 GPU,而 Arm 的入局可能进一步改变行业格局。随着各大科技公司纷纷自研芯片,半导体产业正经历结构性调整,传统分工模式面临挑战。
当前 AI 编码助手如 GitHub Copilot 虽提升效率,但存在关键缺陷: “超过 70%的开发者曾因不理解 AI 建议的来源而引入错误” 。多伦多大学研究团队开发的 COPILOTLENS 通过事后解释层设计,将黑箱操作转化为透明事件。
其核心是动态双层界面:Level 1 提供修改概览,Level 2 展示代码库影响、规范遵循等深度分析。
传统工具仅呈现最终代码,而 COPILOTLENS 揭示完整决策链条。例如当建议使用单例模式时,会同时显示参考的项目文件、设计规范考量及替代方案。这种设计有效解决了三大挑战:模糊推理导致的心理模型错位、缺乏上下文抑制批判性评估、以及不透明性造成的信任校准困难。
“当 AI 的思考过程变得透明,我们与工具的关系将从盲目信任转向批判性协作” 。研究显示,理解 AI 推理过程的开发者对建议的信任度显著改善。
该框架特别有利于新手学习编程模式,同时帮助资深开发者快速验证复杂建议。目前 COPILOTLENS 作为研究原型,为未来 AI 编码工具设计提供了重要
这一创新不仅适用于编码领域,其“事后解释”“动态信息深度”等原则,对其他 AI 辅助工具的开发具有普遍参考价值。随着技术发展,透明度可能成为衡量 AI 工具质量的新标准,推动人机协作进入更成熟的阶段。
Palo Alto Networks 在周一发布的 2026 财年营收和利润预测均超过华尔街预期,主要受益于其人工智能驱动的网络安全解决方案需求增长。 这一利好消息推动公司股价在盘后交易中上涨 5%。 “公司既受益于新的 AI 支出,也受益于从服务到产品(通过自动化)的重新分配” ,Morningstar 分析师 Malik Ahmed Khan 如此评价。
近期全球范围内针对微软、联合健康集团、迪士尼和甲骨文等公司的高调网络攻击事件频发,促使企业对更强大的安全解决方案需求激增。Palo Alto Networks 推出的云安全平台 “Cortex Cloud” 和保护 AI 应用的安全平台 “Prisma AIRS” 等新产品,加上其计划以 250 亿美元收购 CyberArk,进一步强化了其网络安全产品组合。
公司同时宣布重大人事变动:创始人兼首席技术官 Nir Zuk 在任职 20 多年后退休,长期产品负责人 Lee Klarich 被任命为新任 CTO 并加入董事会。Klarich 还将担任董事会安全委员会主席,以加强公司 AI 驱动的平台战略。 “我们认为收购 CyberArk Software 能让他们接触到更多客户,实现身份管理产品与现有 Palo Alto 客户的交叉销售” ,Khan 补充道。
财务数据显示,Palo Alto Networks 预计年度营收在 104.8 亿至 105.3 亿美元之间,高于分析师平均预期的 104.3 亿美元。调整后每股收益预计为 3.75 至 3.85 美元,也高于 3.67 美元的预期。公司第四季度营收同比增长 16%至 25.4 亿美元,调整后每股收益 95 美分,超出 88 美分的预期。
斯坦福 HAI 与西蒙斯基金会联手启动了一项突破性的跨学科研究计划, 将物理学、数学和计算机科学的工具应用于神经计算领域 。该项目由 HAI 高级研究员 Surya Ganguli 和 Yann LeCun 共同领导,旨在揭示大型神经网络如何实现学习、推理和想象等认知功能。
这项名为「西蒙斯学习物理与神经计算合作计划」的项目, 标志着理论神经科学与人工智能基础研究的深度融合 。研究者们计划开发新型分析工具,从根本原理上解析 AI 系统的运作机制,为下一代智能系统奠定科学基础。
教育出版集团 Wiley 为其 zyBooks 在线课程平台新增了四款人工智能工具,将于今年秋季免费向现有用户开放。这些工具主要面向大学 STEM 课程,覆盖教学、学习评估和学术诚信监测等多个环节。
“我们的终极目标是帮助学生学习,因此我们努力确保创新成果能为师生提供实际价值。” Wiley 课程软件集团副总裁 Lyssa Vanderbeek 强调了工具开发的教育初衷。
四款工具中,zyLabs AI Hints 作为编程实验室的 AI 导师,能在学生遇到障碍时提供针对性提示而非直接答案;Generate with AI for zyLabs 则支持教师快速生成定制化实验作业。
另外两款工具侧重教学管理:zyBooks Assessments 允许教师直接调用教材内容创建课程测试,Student Behavior Insights 则能分析学生学习行为数据,并识别可能存在的 AI 生成作业内容。这些功能都保留了教师控制权,例如 AI 提示系统可以按课程或具体实验单独启用或关闭。
该系列工具的推出反映了教育技术领域对 AI 应用的两个核心诉求:既要提升教学效率,又要维护学术诚信。作为已有十年历史的互动式课程平台,zyBooks 此次更新显示出传统教育出版商正在加速融合智能技术,其实际效果仍有待秋季学期验证。
Grok Imagine 的图像生成技术正在快速迭代,最新展示的实时反射效果、鲜艳色彩表现和精细细节处理令人印象深刻。来自 Grok Imagine Fans 社区的创作作品《仰望天堂》等案例,进一步验证了该技术在艺术创作领域的强大潜力。
多所顶尖高校联合研究表明,在 AI 性能提升中,提示词优化与模型升级几乎同等重要。马里兰大学、MIT 和斯坦福的团队通过 1893 名参与者的对照实验发现,DALL-E 3 相比 DALL-E 2 的性能提升中,49%归功于用户对提示词的持续优化。 “模型升级本身仅贡献了 51%的性能,剩余的 49%全靠受试者优化的提示词” ,这一发现颠覆了单纯依赖模型改进的传统认知。
实验设计严谨科学,参与者被随机分配使用不同版本的 DALL-E 模型,通过 10 次尝试复现目标图像。研究人员采用 CLIP 嵌入向量的余弦相似度量化评估生成效果,发现 DALL-E 3 使用者的提示文本平均比 DALL-E 2 组长 24%,且增加的词汇主要提供实质性描述信息。 “提示文本的延长反映的是语义信息的丰富化,而非无意义的冗长” ,这种优化策略使非技术背景用户也能显著提升输出质量。
研究将性能提升分解为模型效应和提示效应:相同提示在 DALL-E 3 上运行获得 51%的提升;而针对 DALL-E 3 优化的提示词又贡献了另外 49%的改进。值得注意的是,当高端提示词应用于低端模型时,性能并无显著提升,证明提示优化的效果高度依赖模型能力。OpenAI 总裁 Greg Brockman 的建议印证了这一发现,他提倡建立“Prompt 库”来充分挖掘模型潜力。
这项研究揭示了人机协作的新维度,表明在 AI 应用中,用户对工具的深入理解和持续优化同样关键。它为企业 AI 部署提供了重要启示:除了升级模型,培养团队的提示工程能力同样能带来显著效益。未来 AI 发展可能需要更注重用户体验设计,降低提示优化的技术门槛,让更多非专业人士也能充分利用先进模型的潜力。
Prophet Arena 是由芝加哥大学 SIGMA Lab 开发的动态基准测试平台,专门评估 AI 系统在真实事件中的预测能力。该平台从预测市场选取热门事件作为考题,要求 AI 模型提交概率预测并解释推理过程。 “预测能力是人类独有的能力,现在 AI 终于开始涉足了” ,OpenAI 研究员 Noam Brown 这样评价该项目的意义。
测试结果显示,AI 模型的预测准确度与投资收益并非完全正相关。在 Brier 分数 0.3-0.5 的中等区间,反而出现了多个高回报案例。例如在温网比赛中,部分模型虽然未能准确预测胜者,但通过识别市场定价偏差,押注冷门选手获得了 6 倍收益。 “成为一个准确的预言家和成为一个赚钱的投资者,是两种不完全相同的技能” ,这一发现挑战了传统认知。
不同 AI 模型展现出鲜明的决策风格。在预测“AI 监管立法”可能性时,Qwen3 给出 75%的激进预测,而 Llama 4 Maverick 仅给出 35%的保守估计。OpenAI 的 o3-mini 模型凭借精准识别高赔率机会,在足球比赛中单笔投注获得 9 倍回报,成为收益冠军。DeepSeek R1 则表现出最大差异性,其预测结果与其他主流模型差异显著。
该测试揭示了 AI 预测行为的结构化特征,为理解模型决策机制提供了新视角。未来,这种人机协作的预测模式可能为高风险决策提供更可靠的支持,推动预测智能向真实世界应用迈进。
Gary Marcus
•9 个月前
为什么Sam Altman突然听起来怪异地像Gary Marcus?链接如下(无需订阅,欢迎免费订阅)。https://t.co/rxv9Z2e5iI
Gary Marcus
•9 个月前
上线了!你可以在这里阅读:https://t.co/MyuFyWPdCj
Sam Altman 听起来有点像 @garymarcus…
Gary Marcus
•9 个月前
回复 @Gary Marcus
刚刚草拟了一篇短文,想知道这个标题是否合适:
OpenAI的情况如此令人绝望(desperate),以至于Sam Altman开始听起来像Gary Marcus
宝玉xp
•9 个月前
//@桂曙光:“如果你回顾历史上的大多数泡沫,比如科技泡沫,你会发现背后确有其事。科技确实很重要,互联网确实是件大事。只是人们变得过度兴奋了。”
宝玉xp
•9 个月前
TheVerge:Sam Altman 承认:没错,AI 正处于泡沫之中
“当泡沫发生时,聪明人会为一个真理的核心而过度兴奋。”
正当经济学家们纷纷猜测股市是否正处于一个可能随时破裂的 AI 泡沫中时,OpenAI 的首席执行官山姆·奥特曼(Sam Altman)刚刚承认,他相信我们正身处其...