学AI技术,懂?
2025-08-21,晨报。今日焦点:DeepSeek发布V3.1模型,超越Claude 4 Opus;新加坡国立大学与字节跳动推出DGP框架;Chain-of-Agents技术推理成本降低84.6%;多模态AI技术分享会即将举行。内容详见后续报道。
DeepSeek V3.1超越Claude 4 Opus
DeepSeek代码超GPT-5,美学不足
GPT-5 Pro数学突破,OpenAI潜力
李问道
Aug 21, 2025
DeepSeek V3.1 模型发布:编程能力超越 Claude 4 Opus 但表现不稳定
昨晚, DeepSeek 公司正式发布了其线上版本模型的重大更新—— DeepSeek V3.1 。这次更新带来了多项技术改进,其中最引人注目的是在编程基准测试中首次超越了此前领先的 Claude 4 Opus 模型,而成本仅为后者的六十八分之一。
根据官方发布的信息,V3.1 版本主要有三大更新。首先是 上下文窗口 从原来的 64K 扩展到了 128K,这意味着模型能够处理更长的文本内容。其次是在 Aider 编程基准测试中取得了 71.6% 的高分,超越了 Claude 4 Opus 的表现。最令人惊讶的是成本对比:完成相同任务,Opus 需要花费 69 美元,而 V3.1 仅需 1.01 美元。
细心的用户还发现了一些架构变化的线索。模型界面中的“深度思考”按钮从原来的“深度思考(R1)”变成了简单的“深度思考”,而内部新增的四个特殊 Token 更是揭示了模型的进化方向。这些 Token 包括用于标识搜索开始和结束的标记,以及用于显式触发模型“思维链”过程的标记,这表明 V3.1 具备了更原生的搜索能力和更复杂的逻辑推演能力。
在实际测试中,V3.1 展现出了矛盾的表现。在推理测试中,面对经典的“星球殖民”问题,它能够给出深度的战略分析,考虑人类长期发展历程和资源需求,其表现甚至在某些数据细节上超越了以推理见长的 Gemini 2.5Pro 。在科研辅助方面,它能为多模态 AIGC 内容检测方向提供技术上可行的论文创意,虽然在学术故事包装能力上还有所欠缺。
编程能力测试结果更加分化。在开发基于 Web Audio API 的音乐播放器时,V3.1 给出的代码能够完美运行,视觉动效与音乐节奏精准匹配。然而在经典的 p5.js 物理模拟测试中,它却无法正确处理小球在六边形内的弹跳运动,连续两次尝试都失败了。在审美设计测试中,它生成的“三维全息宇宙”网页背景被评价为具有“10 年前的网页审美”。
最戏剧性的是超长上下文测试。当要求生成十万字以上的长篇小说时,模型在创作一万字后突然中断,所有输出内容消失并显示“无法回答”,但随后又能若无其事地继续生成内容,这种不稳定表现让人质疑其超长文本处理的可靠性。
总体而言,DeepSeek V3.1 展现出了强大的逻辑推理和常规编程能力,特别是在成本效益方面具有显著优势,但在物理模拟、复杂算法理解和创意设计方面存在明显短板,其超长上下文的稳定性也需要进一步改进。
DeepSeek V3.1 代码能力超越 GPT-5,但美学表现仍有不足
AI 开发者 Nathan Lambert 指出,当前大模型分类不应简单分为"推理型"或"非推理型",而应视为一个推理努力程度的光谱。他提到 Claude 最早引入特殊标记和深度思考用户体验,而 DeepSeek v3.1 的具体推理机制尚未明确。 模型的实际能力需要通过 API 提供的精确标记计数来评估 ,这是最可靠的信息来源。
与此同时,博主 karminski-牙医对 DeepSeek-V3.1-Base 进行了代码编写实测,结果显示其性能 已经超越 GPT-5 ,接近 Claude-Sonnet-4 的水平。在三次测试中,DeepSeek 除了一次小错误外,其余测试均一次性通过,表现流畅稳定。
不过测试也暴露出 DeepSeek 在美学方面的明显短板,生成的三角烧瓶被形容为"抽象",六次生成均不理想,网页制作的样式和审美也较为单一。此外,用户对 DeepSeek 突然更换 API 导致业务中断的操作方式表示不满。
GPT-5 Pro 突破数学证明能力,展现 AI 研究新潜力
AI 研究领域迎来重要突破——GPT-5 Pro 成功证明了一个凸优化领域的开放数学问题,并且得出了比原论文更好的边界结果。这一成就由微软研究员 Sebastien Bubeck 亲自验证,确认其证明过程完全正确。
该突破迅速在 AI 学术界引发关注,OpenAI 联合创始人 Greg Brockman 将其描述为"AI 在数学领域展现生命迹象",而 Meta 研究员 Noam Brown 则指出"AI 助手已经在改变软件工程,数学将是下一个领域"。
与此同时,开发者宝玉 xp 分享了使用 AI 工具处理技术社区讨论的实践案例,通过精心设计的提示词,Gemini 2.5 Pro 和 GPT-5 能够有效筛选和整理 Hacker News 上的有价值讨论,为中文读者提供清晰的观点分类和背景介绍。
谷歌推出 AI 驱动的一体化解决方案助力中国初创企业出海
对于想要拓展海外市场的中国初创企业来说,常常会遇到几个关键难题:如何快速构建适应全球市场的技术基础设施?如何精准触达海外用户并实现有效增长?如何在复杂的国际环境中实现商业变现?针对这些挑战, 谷歌 最近推出了一套完整的解决方案。
这套方案整合了谷歌旗下的多个核心产品和服务。在技术基础建设方面,Google Cloud 为符合条件的初创企业提供最高 35 万美元的云服务抵免额度,这些额度可以用于调用 Gemini 等先进 AI 模型,以及支付 GPU 和 TPU 等计算资源的费用。同时,企业还能获得专家的一对一出海咨询和全球市场进入资源。
在用户获取和增长方面,Google Play 凭借其覆盖 25 亿用户的生态系统,为中国开发者提供了触达全球市场的渠道。平台还推出了一项优惠政策:应用在年度内前 100 万美元的收入可以享受 15%的服务费减免,这显著降低了企业的出海成本。
谷歌的 AI 技术在整个解决方案中发挥着核心作用。基于 Google Cloud Vertex AI 平台的先进模型,能够帮助企业进行产品创新、优化运营效率。从市场洞察、创意生成到自动投放,AI 技术提供了全链路的智能支持,使企业能够更精准地定位和转化目标用户。
在商业变现方面,谷歌通过其产品组合帮助企业实施差异化的商业策略。企业可以根据应用场景灵活搭配使用不同的广告形式,通过混合变现模式实现全球营收的最大化。这套一体化解决方案旨在让中国出海企业能够更专注于核心业务创新,而将技术基础设施、全球分发和智能增长等环节交给谷歌的生态体系来处理。
01新加坡国立大学与字节跳动提出 DGP 框架:用双粒度提示解决图增强大模型欺诈检测难题
在电商、金融和社交网络等数字场景中, 欺诈检测 一直是个棘手的问题。欺诈行为往往隐藏在复杂的网络关系和冗长的文本信息中,传统的检测方法面临诸多挑战。
传统的 图神经网络 (GNN)虽然能有效利用图结构信息,但对文本语义的理解不够深入。而单纯依赖 大语言模型 (LLM)的方法虽然能处理文本语义,却容易因为邻居节点过多导致提示信息过长,关键信息被淹没在海量数据中。为了解决这个问题,新加坡国立大学与字节跳动数据库图团队合作提出了 DGP (Dual Granularity Prompting,双粒度提示框架)。
DGP 框架的核心创新在于采用了差异化的提示策略。对于目标节点,保留 细粒度 的文本细节,确保核心语义信息不丢失;对于邻居节点,则转化为 粗粒度 的信息,通过摘要和统计来压缩冗余内容。具体来说,文本邻居采用双层语义摘要技术,先对单个节点文本进行压缩,再在元路径层面对多个邻居进行二次摘要。数值邻居则采用统计聚合方法,提取均值、分布特征等统计信号。此外,还引入了基于扩散的元路径裁剪技术,过滤掉与目标节点无关的邻居,只保留结构和语义相关的部分。
研究团队在多个数据集上验证了 DGP 框架的有效性,包括公开数据集 Yelp、Amazon Video Reviews 以及工业数据集 E-Commerce、LifeService。实验结果显示,DGP 在 Macro-F1、AUROC、AUPRC 等多个指标上都取得了最佳成绩,相比现有最优方法提升最高可达 6.8%。更重要的是,DGP 在有限的 token 预算内仍能保持优异性能,实现了性能与成本的良好平衡。
这项研究为解决图增强大模型在欺诈检测中的信息过载问题提供了创新方案,展示了差异化粒度控制在处理复杂图数据时的巨大潜力,为构建更通用的图基础模型奠定了方法论基础。
02Chain-of-Agents 模型大幅降低 AI 推理成本 84.6%
Chain-of-Agents(代理链)技术实现了重大突破 ,通过多智能体蒸馏与智能体强化学习的结合,成功训练出具备多代理系统能力的单一基础模型。该模型在保持竞争力的同时,显著减少了推理令牌和工具调用,令牌成本降低了惊人的 84.6%。
相较于传统多智能体系统,AFM(Agent Foundation Model)展现出卓越的鲁棒性和
这项技术通过端到端的训练方式,原生
03开发者热议 LLM 编程:Java 冗长代码或成 AI 编程优势
开发者 Lucas Beyer 在社交媒体上分享了对 LLM 编程的观察,他认为像 Codex 和 Claude 这样的 AI 编程助手特别擅长处理那些 对人类来说繁琐无聊的样板代码 。
有趣的是,Beyer 提出了一个反直觉的观点:
讨论中还注意到,新一代的 Codex 已经能够自动执行"先制定计划,然后实施计划,再进行检查"的完整编程流程,这表明 AI 编程助手正在从简单的代码补全向更智能的编程协作演进。
04多模态 AI 模型技术分享会即将举办,五大开源项目核心开发者齐聚
一场关于多模态人工智能模型的技术分享会将于 2025 年 8 月 21 日晚 8 点至 10 点在线举行。本次活动由
多模态大模型是当前人工智能领域的热点,这些模型能够同时处理文本、图像、视频等多种类型的数据。近期,多家机构纷纷开源了自己的多模态模型,在开源社区引发了广泛讨论。这些模型在参数规模、训练方法和应用场景上各具特色,为开发者和研究者提供了丰富的技术参考和实践灵感。
本次活动的嘉宾阵容强大,包括上海人工智能实验室的 陈恺 ,他将介绍 Intern-S1 科学多模态大模型。这个模型融合了书生大模型家族的优势,在语言和多模态性能上实现了高水平均衡,特别强化了科学能力,是目前开源多模态大模型中综合性能最优的模型之一。
MiniCPM-V 和 MiniCPM-o 的技术负责人 姚远 将分享如何在手机等端侧设备上实现高效的多模态模型。他们的最新模型 MiniCPM-V 4.0 仅用 40 亿参数就达到了与 GPT-4.1-mini 相当的视觉语言理解性能,并能在手机设备上低延迟运行。
智谱 AI 的研究员 余文梦 将介绍 GLM-V 系列模型在通用推理方面的突破。他们提出的基于课程采样的强化学习方法,在 STEM 推理、GUI Agents、视频理解等多个任务上实现了显著提升。GLM-4.5V 在 42 项公开基准测试中,几乎在所有同规模开源模型中取得领先。
阿里巴巴国际数字商业集团的高级算法专家 卢世银 将分享 Ovis 多模态大模型的创新架构。该模型通过引入可学习的视觉嵌入表,将视觉特征转化为概率化的视觉 token,实现了视觉与文本嵌入的结构化对齐,解决了传统方法中多模态信息融合的难题。
阶跃星辰的研究员 孙泉 将介绍 Step3 和 NextStep-1 模型。Step3 基于混合专家架构,拥有 3210 亿参数,在不同硬件平台上都能保持卓越的多模态推理能力。NextStep-1 则探索了新的自回归图像生成范式,在文生图和图像编辑任务上表现出优异性能。
这次技术分享会将为对多模态人工智能感兴趣的开发者和研究者提供一个深入了解最新技术进展的宝贵机会。
05xAI 发布 Grok App 新版本更新,马斯克旗下 AI 生态活跃互动
xAI 团队于 8 月 20 日晚间发布了 Grok App 的最新 v1.1.55 版本更新, 用户需及时更新应用以获取最新功能改进 。与此同时,Elon Musk 旗下的 AI 社区正在举办 Grok 想象大赛,邀请用户为 SpaceX、Tesla、xAI 等公司设计新产品,评选标准包括实用性、趣味性和未来感三个维度。
在社交媒体互动中,马斯克本人积极转发相关动态,对昨日获奖作品"火腿莓(hamberry)"表示赞赏,称其"令人印象深刻",展现了 Grok Imagine 视频的创意潜力。这种高频率的官方互动有效维持了社区活跃度。
此次更新与创意大赛的同步进行,显示出 xAI 在技术迭代与社区运营双线并进的策略,通过持续的功能优化和用户参与活动来强化 Grok 生态的建设。
06Grok Imagine 视频生成功能迎来重大升级
社区用户纷纷展示使用 Grok Imagine 创作的精彩作品,从带有呼吸立方晶格的玻璃球体到古罗马风格的视频内容,展现了该工具强大的创意表达能力。
此次更新还修复了打开应用时音乐停止播放的问题,为用户提供了更加完整的创作体验。开发者鼓励用户更新应用,解锁最新的创意魔法。
07AI 编程助手性能对比引发行业热议,Grok 展现突破性编码能力
Grok AI 助手在编程领域展现出突破性表现 ,开发者 Grummz 分享了他的使用体验:"过去一周我完全依赖 Grok 进行编码,这是首次实现 100% AI 辅助编程,连我自己都惊讶这些代码并非出自我的手笔。"这一体验得到了 Elon Musk 的转发认可,他强调"Grok 4 是唯一能做到这一点的模型"。
与此同时,不同 AI 助手的能力对比成为热门话题。Fahad Naseer 发起了关于世界顶级 AI 助手排名的讨论,列举了 Claude、Gemini、Grok 和 ChatGPT 等主流产品。在实际应用测试中,用户宝玉 xp 发现 Gemini 在文学作品角色查询方面表现更准确,而其他模型则存在信息编造的情况。
这场讨论凸显了 AI 助手在不同应用场景下的性能差异,特别是在专业性较强的编程和知识检索领域,各模型展现出明显的特色优势,推动了用户对 AI 工具选择标准的重新思考。
08智谱 AI 推出 AutoGLM 2.0:云端智能助手实现跨设备自主操作
近日,智谱 AI 正式发布了 AutoGLM 2.0 版本,这是一款能够在云端自主操作手机和电脑应用的智能助手。与传统的对话型 AI 不同,这款产品真正实现了从“对话”到“执行”的跨越,让 人工智能 能够代替用户完成实际任务。 AutoGLM 2.0 的核心创新在于采用了“ Agent +云手机+云电脑”的技术模式。这意味着 AI 助手不是在用户本地设备上运行,而是在云端配备专属的虚拟手机和电脑环境。当用户需要点外卖、订机票或者处理工作时,只需通过语音或文字下达指令,AutoGLM 就会在云端操作相应的应用程序,完整执行整个流程,而用户的真实手机可以同时进行其他操作,比如玩游戏或刷视频。
在实际应用场景中,这款助手已经能够操作美团、京东、小红书、抖音等数十个常用应用。在办公场景下,它可以在网页版飞书、网易邮箱、知乎等平台上完成信息检索、内容撰写甚至视频生成和发布的全流程工作。这种能力让 AI 不再是简单的聊天工具,而成为了真正能够代劳的 智能代理 。
技术层面,AutoGLM 由智谱最新开源的 GLM-4.5 语言模型和 GLM-4.5V 视觉推理模型驱动,并结合了多项 强化学习 突破。通过计算机端强化学习(ComputerRL)、移动端强化学习(MobileRL)和智能体强化学习(AgentRL)三大技术模块,系统能够稳定高效地完成各类图形界面操作任务。在设备操作基准测试中,其表现已经超越了 ChatGPT Agent 等国际主流产品。
更值得关注的是,智谱 AI 还将这种操作执行能力封装成了 API 接口,向开发者开放。这意味着未来各种硬件设备,从智能眼镜到传统家电,都可以通过接入 AutoGLM 获得完整的手机操作能力,无需在设备端部署复杂系统。这为人工智能融入物理世界开启了新的可能性。
09Meta 重组 AI 团队转向闭源策略,图灵奖得主 LeCun 未参与新架构
2025 年 8 月 20 日,社交媒体巨头 Meta 宣布对其人工智能团队进行重大重组,这是该公司在短短六个月内第四次调整 AI 部门架构。此次重组将原有的 超级智能实验室 拆分为四个独立部门,标志着 Meta 在人工智能发展战略上的重大转变。
新成立的四个部门包括:负责探索性研究的 TBD Lab (待确定实验室)、专注于长期前沿研究的 FAIR (基础 AI 研究)、负责产品与应用开发的团队,以及专门的基础设施部门。其中,TBD Lab 由新任首席 AI 官 Alexandr Wang 领导,重点研发新一代大语言模型。值得注意的是,Meta 正在考虑放弃其长期坚持的开源策略,下一代模型可能转向闭源模式。
这次重组伴随着大规模资金投入。Meta 正在通过 PIMCO 和 Blue Owl 牵头筹集约 290 亿美元的资金,用于在路易斯安那州等地扩建 AI 基础设施。这笔投资与 Meta 将全年资本开支指引上调至 660-720 亿美元的计划相呼应,显示出公司对算力建设的重视。
团队架构调整也带来了人事变动。最引人注目的是,Meta 首席 AI 科学家、图灵奖得主 Yann LeCun (杨立昆)在此次重组声明中未被提及。与此同时,公司从 OpenAI 等竞争对手引进了多名关键人才,包括负责多模态研究的 Jiahui Yu 和负责后训练的 Hongyu Ren 等华人研究员。
Meta 此次重组反映了从研究导向向工程落地的战略转变。公司不仅考虑开发闭源模型,还在探索使用第三方模型的可能性,这与其长期以来以 Llama 系列模型为核心的开源策略形成鲜明对比。这种转变可能源于当前 AI 竞争的激烈程度,以及 Llama 模型在性能上与其他领先模型的差距。
随着新领导的加入,Meta 内部员工关系出现紧张局面。据报道,新任命的首席 AI 科学家 Shengjia Zhao 对老员工的工作进行了深入审查,而一些资深研究人员则选择了离职。这种人才流动和内部调整显示出 Meta 正在以激进的方式重塑其 AI 发展路径,试图在竞争日益激烈的人工智能领域重新确立领先地位。
10Kimi K2 模型如何通过语料重写技术提升 AI 性能
最近发布的 Kimi K2 模型在国际上引起了广泛关注,这个模型有一个特别的技术亮点:通过对海量训练数据进行重写处理,显著提升了模型性能。这种方法就像是给 AI 模型提供经过精心编辑的教材,让学习效率大大提高。 语料重写 的核心思想很简单:原始的网络数据往往存在格式混乱、信息冗余或表达不够清晰的问题。研究人员使用 AI 模型对这些数据进行重新表述,使其变得更加规范、易懂。在 K2 模型中,团队特别针对知识类和数学类内容进行了专门处理。对于知识类内容,他们采用多风格、多视角的改写方式,确保信息准确性的同时增加多样性;对于数学内容,则借鉴了 SwallowMath 方法,将数学文档改写成学习笔记的风格。
这种方法面临着三大挑战:如何在扩大多样性的同时确保信息准确,如何减少训练过程中的幻觉和毒性内容,以及如何在大规模数据集上实现可扩展性。日本团队开发的 SwallowMath/Code 项目展示了很好的实践,他们对代码数据进行语法验证和风格过滤,对数学数据则删除无关元数据、恢复缺失上下文,并将解题步骤重写得更加清晰。
早期的 WRAP 研究证明了这种方法的有效性。该研究使用 Mistral-7B 模型对网页内容进行四种不同风格的改写,发现在相同计算量下,使用重写数据训练的模型性能提升显著,等效计算量减少了 3 倍以上。这表明合成数据虽然不传授新知识,但能帮助模型更快地学习现有知识。
随着技术的发展,出现了更多创新的方法。 Nemotron-CC 使用多个打分器对数据质量进行评分和分类处理; ProX 方法让 AI 模型学会编写处理脚本来自动清理文本噪声; MAGA 方法则通过定义风格和受众两个维度,实现更加结构化的数据扩充。
这些技术共同指向一个方向:通过精心设计和处理训练数据,我们可以在不增加计算成本的情况下显著提升 AI 模型的性能。虽然目前这些方法还需要大量人工干预,但随着技术进步,未来有望实现更高程度的自动化,为 AI 发展提供新的动力。
「HuggingFace日推」 MAESTRO:面向多模态、多时相与多光谱地球观测数据的掩码自编码器
标题
MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data
总结
MAESTRO 是一种针对地球观测数据的自监督学习方法,通过优化的融合策略和定制化的目标归一化方案,在多时相动态任务上达到最新最优性能,同时在单时相任务上保持高度竞争力。
摘要
自监督学习为遥感领域带来了巨大潜力,但标准的自监督方法需针对地球观测数据的独特特性进行适配。我们通过系统评估多模态、多时相与多光谱地球观测数据的融合策略及重建目标归一化方案,向该方向迈出一步。基于研究发现,我们提出MAESTRO——一种掩码自编码器(Masked Autoencoder)的创新改进方案,其具备优化的融合策略和定制化的目标归一化方案,通过引入光谱先验作为自监督信号。在四个地球观测数据集上的评估表明,MAESTRO在强依赖多时相动态的任务中刷新了最优性能,同时在单时相主导的任务中保持高度竞争力。实验复现代码详见https://github.com/ignf/maestro。


