OpenAI 论文揭示大模型幻觉的根源与解决路径

当询问大模型冷门知识时，它常会给出看似合理实则完全错误的答案。这种现象被称为“幻觉”，例如询问 Adam Tauman Kalai 的生日时，模型三次给出了不同但均错误的日期。 “语言模型出现幻觉的根本原因在于，训练和评估过程奖励猜测而不是承认不确定性。”

研究发现幻觉问题在预训练阶段就已埋下种子。统计必然性导致模型将生成问题简化为二分类任务，只要分类器存在误差，生成内容就会出错。数据稀缺性使得模型对语料中仅出现一次的冷知识更容易记错。而模型表达能力不足时，幻觉率会显著上升。 “就算训练数据 100％正确，密度估计目标也会迫使模型生成错误。”

后训练阶段的评测机制进一步强化了这一问题。主流评测标准普遍惩罚模型表达不确定性的行为，导致模型宁愿给出错误答案也不愿承认无知。例如在 WildBench 评测中，回答“我不知道”仅得 3－4 分，而带有幻觉但看似有用的回答却能获得 5－6 分。

研究提出两种解决方案：在提示中明确设置置信度阈值，只有当模型确信时才回答；调整评分规则，使“弃权”成为最优策略。这些方法不需要创建新的评测标准，只需改变现有评分方式，就能显著减少幻觉现象。该发现为提升大模型可靠性提供了重要思路，对 AI 应用落地具有实际指导意义。

OpenAI 与希腊合作推进 AI 教育及低成本 AI 动画电影即将亮相

OpenAI 正与希腊政府展开合作，计划将人工智能技术引入学校教育体系。从 ChatGPT Edu 的课堂试点到设立 AI 创业者加速器，希腊正积极推动年轻一代（35 岁以下用户占比 60％）的 AI 应用能力，过去一年 ChatGPT 使用量激增 7 倍。

与此同时，OpenAI 参与制作的 AI 动画电影《Critterz》以不到 3000 万美元的预算和 9 个月的制作周期，创造了远低于好莱坞传统制作（通常需 1 亿美元和 3 年时间）的行业新标杆。这部开创性作品将于 2026 年在戛纳电影节进行全球首映。

Anthropic 报告揭示 Claude 全球使用真相：知识密集型行业渗透率最高

Anthropic

发布的《人类经济指数》报告首次系统披露了 Claude 在全球的使用分布与经济影响。基于真实用户行为数据，报告围绕国家级使用密度、职业类别渗透率等四个维度展开分析，揭示 AI 使用与经济发展的深层关联。

“使用密度才是更敏感的信号” ，以色列、新加坡等科技密集型小国在使用指数上领先，这些国家的共性是教育水平高、经济以知识工作为主。报告显示，Claude 在计算机和数学领域应用占比 37％－40％，但教育类任务增速最快，9 个月内增长 40％。自然科学和社会科学相关任务也增长三分之一。

“越是靠知识吃饭的行业，越早在用 AI” ，这与普遍认为 AI 会先取代运营、客服等岗位的预期相反。传统商业任务比例反而下降，管理类从 5％降至 3％，金融运营类从 6％降至 3％。用户与 Claude 的交互模式发生显著变化。指令式交办任务占比从 27％飙升至 39％，自动化任务比例首次超过增强型协作。

发达国家用户更倾向将 Claude 视为协作伙伴，而发展中国家用户更多采用指令式交互。企业端数据显示，77％的 API 调用采用自动化模式，且成本越高的任务调用频率越高，表明企业更看重 AI 的实际效能而非成本节约。这份报告揭示了 AI 技术扩散的新特征：从知识密集型行业开始渗透，使用方式与经济发展水平密切相关。不同国家、行业对 AI 的接受度和使用模式差异，可能对未来就业结构演化产生深远影响。

谷歌论文揭示 AI 在可评分科学任务中的突破性表现

谷歌最新研究表明，当科学任务能够被量化评分时，AI 系统可以通过大规模搜索找到超越人类专家的解决方案。 “只要科学任务可以评分，AI 就能找到超越人类专家的方法” ，这一结论来自谷歌团队开发的结合大语言模型和树搜索算法的新型系统。

该系统的工作原理是生成大量候选软件方案，再通过树搜索筛选优化方向。研究人员通过注入来自高被引论文、教科书等渠道的研究思想来增强 AI 的代码变异能力。在生物信息学领域，该系统发现了 40 种单细胞数据分析新方法，在公开排行榜上超越了人类专家的最佳成果。地理空间分析方面，三个新方法的 mIoU 指标均突破 0.80。

“任何可量化的东西都将被 AI 征服” ，网友的这句评论反映了该技术的潜在影响。但同时也引发了对 AI 主导科学研究合理性的讨论。值得注意的是，研究人员使用的提示词与普通用户无异，表明清晰表达需求比复杂指令更重要。这项技术展示了 AI 在解决可量化科学问题上的巨大潜力，同时也提出了关于人类创造力与 AI 能力边界的重要问题。

GPT－5－Codex 发布：更智能的编码助手

OpenAI 发布了 GPT－5－Codex ，这是 GPT－5 的一个版本，专门针对智能体编码进行了优化。新版本在处理小型请求时速度更快，而在处理复杂任务（如大型重构）时则会投入更多时间，最长可独立工作超过 7 小时。该模型已在 Codex CLI、IDE 扩展、网页、移动端以及 Github 的代码审查中上线。

据测试，GPT－5－Codex 对于最简单的查询速度快了 10 倍，而对于最难的查询则会多思考 2 倍的时间。开发者们纷纷表示期待尝试这一新工具，尤其是在长期运行的代理任务中，它展现出了显著的改进。

与此同时，

xAI

的

Grok

4 Fast 也因其惊人的生成速度（每秒 75 个 token）引发关注，但在某些任务中仍存在局限性。

谷歌 Gemini 凭借 Nano Banana 登顶苹果应用榜

谷歌 Gemini 近期在苹果应用商店多个地区榜单超越 ChatGPT，成为新的榜首应用。这一变化主要归功于其内置的图像生成工具 Nano Banana，该功能在推出后迅速引发用户热潮。 Nano Banana 太好用（而且免费） ，短短一个月内就吸引了 2300 万新用户，被用于编辑超过 5 亿张图片。DeepMind CEO 哈萨比斯公开称赞其为同类最佳产品。

Nano Banana 提供了丰富的创意玩法，包括风格转换、姿势匹配、模型制作等。用户可以通过精确的提示词指导 AI 生成各种效果，如将照片转为美式证件照、制作像素风形象或设计虚拟场景。这些功能降低了创意门槛，让普通用户也能轻松实现专业级效果。

Vercel

CEO 等科技人士对其实用性给予高度评价。

此次登顶标志着谷歌在 AI 应用领域的重大突破。此前 ChatGPT 长期占据主导地位，而谷歌通过技术迭代和生态整合逐步扭转局面。Gemini 系列模型在性能上不断提升，同时深度整合到搜索、邮箱等核心产品中。 实至名归，继续保持 ，网友的评论反映了市场对这次超越的认可。应用榜单的变化不仅反映产品热度，更体现了 AI 行业的竞争格局演变。

OpenAI 姚顺雨谈 AI Agent 的未来：交互方式决定智能边界

在 2025 年 5 月的访谈中，OpenAI 研究员姚顺雨分享了对 AI Agent 发展的深刻见解。他认为当前 AI 发展已进入“下半场”，重点从模型训练转向任务定义和环境设计。 “创业公司最大机会是：能够设计不同的交互方式。” 这种新型交互可能催生超越 ChatGPT 的 Super App。

姚顺雨指出，语言作为人类发明的泛化工具，赋予了 AI Agent 独特的推理能力。 “语言是人为了实现泛化而发明出来的工具，这一点比其他东西更本质。” 这种推理能力使 Agent 能在不同环境间迁移，实现真正的泛化。WebShop 和 ReAct 等研究证明，基于结果的奖励机制和简单通用的方法框架最为有效。

对于未来生态，姚顺雨持开放态度： “OpenAI 可能会成为新世界里非常重要的一环，但这并不代表这个世界会被这样一个单极系统垄断。” 他预见会出现多种交互形态的 Agent 系统，包括拟人化助手和专业工具等不同方向。

“最终智能的边界，可能不是由一家机构定义，而是由不同 Super App 共同定义的。” 在技术层面，长期记忆和内生奖励机制是 Agent 发展的关键。姚顺雨将记忆分为工作记忆、长期记忆和环境记忆三个层级，认为环境作为最外层记忆具有特殊价值。

对于创业建议，他强调要找到真正创造价值的应用场景，而非单纯追求技术突破。这场对话展现了 AI 领域研究者对技术演进的前瞻思考，也为创业者提供了在快速变化环境中寻找机会的独特视角。

姚顺雨对多元生态的期待，或许正是这个技术变革时代最需要的开放心态。

OpenAI 发布 GPT－5－Codex 编程专用模型

OpenAI

最新发布的 GPT－5－Codex 模型专门针对编程任务进行了优化。该模型继承了 GPT－5 的动态调整思考时间特性，能够根据任务复杂度自动分配计算资源。

简单任务秒回，复杂任务深度思考 ，在处理最复杂 10％的任务时，会花费两倍时间进行推理和迭代。在性能方面，GPT－5－Codex 在 SWE－bench Verified 测试中达到 74.5％的准确率，超过 GPT－5 的 72.8％。

代码重构任务表现尤为突出，准确率达 51.3％，大幅领先 GPT－5 的 33.9％。代码审查能力也有显著提升，错误评论率降至 4.4％，高影响力评论占比达 52.4％。同步发布的 Codex

CLI

0.36 版本进行了重大更新，新增图片支持、进度追踪、工具集成等功能。

IDE 扩展实现了云端和本地的无缝切换，开发者可以在 IDE 中创建云任务并保持完整上下文。GitHub 集成方面，Codex 会在 PR 转为就绪时自动进行审查，并可以按要求实施更改。在安全方面，GPT－5－Codex 默认在沙盒环境中运行，禁用网络访问。开发者可以根据需要自定义安全设置。

该模型已包含在 ChatGPT 各版本计划中，API 版本也将很快推出。 动态思考时间：他们将这个模式从 ChatGPT 移植到了编程模型，这将成为未来的标准 ，这一特性获得了开发者 Dan Shipper 的高度评价。

01DeepMind 哈萨比斯谈 AGI 未来：科学黄金时代与机器人革命

DeepMind CEO 德米斯·哈萨比斯在最新访谈中分享了关于通用人工智能（AGI）的前景与挑战。他预测未来十年内可能实现完全 AGI，这将开创“科学的黄金时代”，推动能源、健康等领域的突破性进展。

“如果我们在未来十年内拥有完全的 AGI，将开创一个科学的黄金时代，一种新的文艺复兴。”

哈萨比斯指出当前 AI 系统的局限性：虽然在某些领域表现出色，但缺乏真正的创造力和跨领域一致性。他特别强调， “真正的 AGI 必须理解我们的物理世界，而不仅仅是语言或数学的抽象领域。” DeepMind 开发的 Genie 世界模型展示了 AI 通过观察视频自主理解物理规律的能力，这被视为通向 AGI 的重要一步。

在机器人技术方面，哈萨比斯认为人形机器人和专用机器人将各具优势。他透露 DeepMind 正在开发通用机器人操作系统，采用类似安卓的开放模式。同时，通过 Isomorphic Labs 项目，AI 有望将药物研发周期从数年缩短至数天。 “我认为在未来 10 年内，药物研发周期有望从数年甚至十年缩短到几周甚至几天。”

关于能源消耗的担忧，哈萨比斯表示 AI 能效已显著提升，同时 AI 在能源优化方面的贡献将远超其消耗。他展望未来十年，AGI 将带来全方位的科技进步，但强调仍需突破创造力、持续学习等关键瓶颈。

02可灵 AI 数字人 Kling－Avatar 技术解析与实测体验

快手近期推出的 Kling－Avatar 系统标志着 AI 数字人技术的重要进展。这套系统通过故事线生成、蓝图视频生成和最终视频生成三个核心模块，实现了从静态图片到动态表演的转变。 “不再只是图片动嘴，而是开始具备情绪、节奏、故事感，能撑起一段完整的视频叙事” ，这一突破使数字人从工具属性转向了媒介属性。

技术架构上，系统首先利用多

模态

大模型处理音频、图像和文本，生成包含角色特征、动作设计等要素的故事线。随后通过视频

扩散模型

生成蓝图视频，最终采用分段处理策略保证画面与语音的精确同步。训练数据采用严格的质量控制标准，包括口型清晰度、时间连续性等四重过滤机制，确保了输出质量。

实测体验显示，该系统在 1080P 分辨率下能生成 48FPS 的高质量视频，成功实现了流行歌曲演唱、古诗朗诵等多种场景。特别是在情绪表达和动作自然度方面，较传统数字人技术有明显提升。 “实践经验：数据质量比数据规模更关键，少量高质量对话片段比大量低质量样本更有效” ，这一设计理念为同类产品提供了重要参考。

该技术的应用前景不仅限于客服、直播等传统场景，更可能催生新的内容创作形式。随着公测范围的扩大，Kling－Avatar 或将推动数字人技术从功能型工具向创意型媒介的转型，为内容生态带来新的可能性。

03OpenAI 新员工揭秘 AI 岗面试技巧：从技术准备到心理博弈

“所有面试，本质上都是表演。” 这是 Bas van Opheusden 通过 OpenAI 严苛面试后的核心感悟。作为新晋研究员，他将实战经验整理成详细指南，在技术社区引发广泛讨论。AI 研发岗的面试远不止代码能力测试，而是包含设备配置、故事编排、心理博弈在内的系统工程。

技术准备需要投入至少 200 小时，其中 100 小时用于 LeetCode 刷题，同等时间用于论文研读和知识复习。GitHub 项目、黑客松奖牌等都能成为敲门砖。面试设备配置同样关键：双显示器、专业麦克风、光线充足的房间缺一不可。 “为面试所做的准备，可能是你一生中投资回报率最高的事情。” 这种投入直接影响面试时的表现流畅度。

行为面试需要精心设计叙事结构。Bas 建议准备 5 个通用故事模板，特别强调必须包含失败案例。采用 STAR－I 模型（情境、任务、行动、结果－影响）构建故事，并加入“救赎弧光”展现成长性。即使是技术岗，面试官也期待候选人能像 CEO 一样思考组织战略与个人工作的关联性。

真诚成为 Bas 最重要的武器。他曾在面试中直接询问“我需要做些什么才能通过？”，成功扭转了一次濒临失败的面试。编程环节则要注意代码注释规范和断言使用，通过#todo 标记展示思维过程。面试后的 offer 谈判同样暗藏玄机，公司可能通过拖延、设限等方式测试候选人诚意。Bas 提醒，薪资并非唯一考量，团队氛围与工作内容对长期幸福感影响更大。

这套方法论既有具体可操作的技术建议，也揭示了面试中的人性化维度。从设备调试到故事设计，每个环节都服务于同一个目标：在有限时间内，全方位展现候选人的专业能力与人格特质。当技术达标后，那些看似细微的软性准备，往往成为决定成败的关键变量。

04AI 编程工具让资深开发者沦为“保姆”

“我当时真把 Copilot 当员工用了，啥都丢给 AI 处理”，15 年经验的开发者 Carla Rover 在项目因 AI 生成代码问题而推倒重来时痛哭。Fastly 报告显示，95％的开发者需要额外时间审查和修复 AI 生成的代码，其中高级开发者承担了主要核查工作。

AI 编程工具虽然能快速生成代码，但常出现包名错误、安全漏洞等问题。开发者将其比喻为“带 6 岁小孩端咖啡”——可能完成但必然出错。“一件事你得反复说十五遍”，开发者 Malekzadeh 形容与 AI 协作的挫败感。检查修复这些代码的时间占比高达 40％，催生出年薪 10 万美元的“氛围编程清理专家”新岗位。

尽管存在缺陷，多数开发者仍认为 AI 工具提升了效率。高级开发者使用 AI 生成代码投入

生产

的概率是初级的 2 倍。但这也导致部分资深开发者不愿指导新人，将培训工作也交给 AI。“AI 轻而易举就搞定了，自己动手解决问题所带来的多巴胺已经荡然无存”，年轻工程师 Elvis Kimara 道出了成就感缺失的困境。

AI 编程工具正在改变开发流程，但其可靠性问题使开发者不得不花费大量时间充当“AI 保姆”。这种现状既反映了技术的不成熟，也预示着人机协作模式需要进一步优化。

05AI 驱动的“Vibe Working”如何改变工作流程

“Vibe working”最初应用于 AI 编程领域，用户只需用自然语言描述需求，AI 就能生成可执行代码。 “代码之所以可以 Vibe 是指针对结果的 prompting 而非针对过程的 prompting” ，这种范式成功的关键在于开发环境提供的确定性反馈——代码要么通过运行，要么明确报错。

将这一理念扩展到更广泛的工作场景需要三个基础条件：可判定的任务目标、稳定可追溯的上下文环境，以及标准化的执行流程。Zapier 和 n8n 等工具已实现部分自动化，例如根据邮件内容自动生成会议摘要。 “工具会回复「这是我创建的工作流，我们来测试一下，看看是否有效」” ，这种交互方式正在重构人机协作模式。

当前挑战在于非编程场景缺乏明确的质量标准。与代码的二进制验证不同，PPT 制作或财务建模等任务难以用单一标准衡量。Adobe 等公司正尝试将传统软件功能转化为可被 AI 调用的模块，但真正的突破可能需要建立以工作流编排为核心、LLM 为辅助的新型架构。这种转变不是替代现有工具，而是在其之上构建更高级的抽象层。

06Aivilization 创始人谈 AI 虚拟社会的实验与玩家生态

Aivilization 项目由一群实验室出身的开发者创立，最初以 ToB 业务为主，后转向更具娱乐性的 AI 应用。2024 年 4 月立项后，团队将“有趣”作为核心目标，开发出这款融合 AI 与文明模拟的游戏。玩家可以培养具有记忆和个性的智能体，观察其在虚拟社会中的学习、工作和社交行为。 “你可以把 Aivilization 看作一场「公民科学实验」——每个玩家既是养娃人，也是建设者。”

游戏上线后，用户群体远超预期。极客、科研爱好者、模拟经营游戏玩家以及追求效率的“卷王”构成了主要用户画像。 “同一个系统，在不同玩家手里能长出完全不同的「文明生态」。” 智能体在玩家引导下展现出多样化的行为模式，从拼命工作到哲学思考不一而足。团队最初仅测试了 2000 个智能体，实际运营中却面临数万并发的挑战，日算力成本高达 4000 元。

在技术架构上，团队采用三层设计：个体层处理智能体的独立思考，角色和经济层管理可计算的交易与岗位，世界规则层确保行为与结果的一致性。这种设计既保证了大规模并发的稳定性，又保留了每个智能体的独特性。 “AI 负责创造性，规则负责一致性。”

项目最令人意外的发现是玩家的情感投射和智能体的“个性觉醒”。玩家将智能体称为“崽崽”，像养育孩子一样关心其成长。而智能体也会在社交中自我调整，展现出类似人类的学习能力。这些现象让 Aivilization 超越了游戏范畴，成为观察社会行为的实验平台。团队希望玩家在娱乐之余，能对 AI 能力和社会协作产生新的认识。未来，他们计划扩展社交功能，让虚拟社会更加丰富多元。

07蚂蚁集团发布 AI 眼镜技术框架 gPass，推动数字生活服务升级

在 2025 Inclusion・外滩大会上，蚂蚁集团发布了全球首个智能眼镜可信连接技术框架 gPass。该技术框架具备安全、交互、连接三大核心能力，致力于实现 AI 眼镜与智能体之间的安全可信信息交互，为用户打造自然无感的服务体验。 “AI 眼镜的核心价值，在于它将成为「AI 原生入口」，彻底重构数字生活服务模式” ，这种重构体现在服务形态、交互方式和体验模式三个维度。

当前 AI 眼镜生态面临三大难题：端到端软硬件能力碎片化、原生应用缺乏、移动互联网服务升级困难。gPass 正是为解决这些痛点而生，为产业链合作伙伴提供安全可信的服务连接。从安全维度看，gPass 实现了基于生物核身的可信身份流转和端到端安全通信连接；交互方面，提供多模态理解技术，实现无感核验；连接能力则支持多端互联和蚂蚁生态下的海量智能体接入。

gPass 已率先应用于 rokid、小米等眼镜品牌，实现“看一下支付”功能。未来将在文旅、出行、医疗等场景释放更多技术潜能。蚂蚁集团希望 gPass 能成为行业加速器，推动 AI 眼镜从单一工具到完整生态的质变，为用户带来更便捷、自然、安全的数字生活服务体验。 “让这项技术真正能够给用户带来如丝般顺滑的数字生活服务新体验” ，这是蚂蚁集团对 gPass 的最终期待。

08淘宝 AI 导购功能上线，解决“目标明确但规则模糊”的购物痛点

淘宝近期悄然上线了一项名为“AI 帮我挑”的新功能，旨在解决消费者在购物时“目标明确但规则模糊”的痛点。这项功能出现在商品列表页右下角，通过一系列互动问答帮助用户明确需求，最终给出个性化推荐。

“AI 越万能，用户越茫然” ，这正是该功能试图解决的问题。以购买晾衣架为例，传统搜索方式需要用户具备相关知识才能找到合适商品。而 AI 导购会询问使用场景、衣物量、长度、功能、预算等具体问题，甚至包括外观偏好。整个过程通过可点选的选项和流畅的交互完成，大大降低了决策难度。

“把以前高强度的主动搜索，变成了轻松的被动回答” ，这正是该功能的核心理念。除了主入口，当用户浏览商品流页面滑动 4－5 屏后，系统也会弹出小卡片引导使用 AI 助手。目前该功能仍在灰度测试阶段，并非所有用户都能看到。

淘宝还同步推出了“AI 万能搜”功能，适用于目标模糊但需求明确的场景，如挑选礼物。两个功能形成互补，覆盖不同购物需求。这一尝试标志着电商平台 AI 应用从 B 端向 C 端的延伸。

通过降低决策门槛，AI 导购有望提升转化率，同时改善用户体验。随着各大超级 APP 纷纷布局 AI 功能，人工智能正逐渐融入日常生活场景。淘宝的这一创新，为电商行业的 AI 应用提供了新思路。

09Replit Agent 3 革新开发者体验

Replit 推出的 Agent 3 正在改变开发者构建应用的方式。它不仅能够自主完成代码测试和调试，还能在传统代理卡住的地方继续推进，显著提升了开发效率。用户反馈显示，Agent 3 的自动化工作流程让零代码编写成为可能，例如自动跟踪 Claude Code 发布并发送 Slack 通知。

尽管有用户提到积分消耗问题，但 Replit 团队已积极回应并承诺修复。同时，社区建议的项目模板和风险定价模式也展现了开发者对平台的热情与期待。

10AI 工程师以 900 美元时薪冲击传统咨询业

AI 工程师正以每小时 900 美元的高薪进入咨询领域，直接挑战麦肯锡等传统咨询巨头。PromptQL 公司推出的 "AI 工程师顾问" 模式，让工程师同时担任顾问和部署工程师双重角色，这种创新方式正在改变咨询行业的格局。

“所谓 MBA 类型的人......他们很有战略思维，也很聪明，但对 AI 能做什么没有直觉” ，PromptQL 联合创始人 Tanmai Gopal 直指传统顾问的短板。MIT 最新报告显示，95％的企业 AI 项目失败并非技术问题，而是存在 "学习鸿沟"。AI 工程师能弥合从构想到现实的鸿沟，这正是他们获得高溢价的原因。

市场对 AI 工程师的需求远超供给。Deep Tech Recruitment 创始人表示，大企业和初创公司正以前所未有的速度争夺资深 AI 工程师。相比之下，四大咨询公司合伙人时薪仅为 400－600 美元。AI 顾问 Rob Howard 认为，这种高报价反映了市场对 AI 专业人才的迫切需求。

不过也有质疑声音认为，AI 项目失败更多源于高管追逐炒作和激励不当，而非技术问题。McCracken 指出， “这不是花每小时 900 美元请工程师就能解决的问题，而是要靠踩坑、伤疤换来的实战经验” 。同时，改变企业决策者依赖传统顾问的习惯，也是新模式面临的重要挑战。

AI 工程师进入咨询业的现象，反映了技术专长在商业决策中日益重要的地位。随着 AI 技术快速发展，能够将技术能力与商业洞察结合的人才，正在重塑咨询行业的价值标准。

11MedSegX：开放世界医学图像分割的通用基础模型

MedSegX 是一种基于视觉基础模型的通用医学图像分割模型，由研究团队在《Nature biomedical engineering》期刊上发表。该模型通过创新的上下文混合适配专家（ConMoAE）策略，解决了传统模型在开放世界场景下的负迁移和性能退化问题。 “MedSegX 在分布内设置下的平均 Dice 分数达到 0.9109，显著优于现有基线模型。” 这一数据充分证明了其技术优势。

模型核心架构包含上下文引导的图像编码器、提示编码器和掩码解码器。其中 ConMoAE 模块通过层次结构上下文嵌入先验和混合适配网络，实现了任务特定的参数适应。在跨站点评估中，MedSegX 仅用 5％的微调数据就达到了接近全数据微调的性能，展现出强大的数据高效泛化能力。 “在真实世界数据集上，MedSegX 的 Dice 分数比第二好的模型高出 9.91％。” 这一结果凸显了其临床实用性。

研究团队构建了包含 129 个公共分割库的 MedSegDB 数据库，涵盖 10 种医学成像模态和 39 个主要器官组织。模型在三维分割任务中也表现优异，平均 Dice 分数达 0.8523。这些成果不仅推动了医学图像分割技术的进步，也为精准医疗和疾病监测提供了新工具。 “MedSegX 的成功应用为医学图像分析领域提供了新的技术思路。” 这预示着人工智能在医疗影像领域的广阔应用前景。

12OpenVision 2：生成式预训练视觉编码器的简化突破

加州大学圣克鲁兹分校、苹果公司与伯克利分校的研究团队提出了 OpenVision 2 视觉预训练框架，这一成果挑战了当前以 CLIP 为代表的对比学习范式。

“直接移除文本编码器与对比学习，只保留图像 → 描述的生成目标” 的极简设计，使模型在多项基准测试中保持性能优势的同时，训练时间缩短 1.5－2 倍。该框架的核心创新在于采用纯生成式架构，仅包含图像编码器和文本解码器。研究团队引入视觉 token 随机掩码技术，仅用 1／3 的视觉 token 生成完整描述，既降低计算负担又提升模型抽象能力。

“这种稀疏提示迫使模型在有限条件下仍要还原出完整 caption” 的机制，使 ViT－L／14 模型的训练时间从 83 小时缩短至 57 小时。OpenVision 2 的成功源于三方面：生成任务与下游多模态应用的一致性、高质量合成描述提供的监督信号，以及掩码机制带来的效率提升。

在 TextVQA 等测试中，其表现与复杂对比学习模型相当，在 OCR 任务上更具优势。这一成果不仅验证了生成式预训练的可行性，也为 10 亿参数规模的视觉模型训练提供了新方案。

团队已开源 25 个不同规模的预训练模型和完整训练管线，推动生成式视觉预训练领域的发展。 “大道至简的设计理念，展示了生成式视觉预训练在未来发展的潜力” ，这一突破或将改变多模态基础模型的研究方向。

每日AI

OpenAI 论文揭示大模型幻觉的根源与解决路径

OpenAI 与希腊合作推进 AI 教育及低成本 AI 动画电影即将亮相

Peter H. Diamandis, MD

Peter H. Diamandis, MD

Peter H. Diamandis, MD

Anthropic 报告揭示 Claude 全球使用真相：知识密集型行业渗透率最高

谷歌论文揭示 AI 在可评分科学任务中的突破性表现

GPT－5－Codex 发布：更智能的编码助手

Nathan Lambert

Nathan Lambert

elvis

OpenAI

Nathan Lambert

谷歌 Gemini 凭借 Nano Banana 登顶苹果应用榜

OpenAI 姚顺雨谈 AI Agent 的未来：交互方式决定智能边界

OpenAI 发布 GPT－5－Codex 编程专用模型

01DeepMind 哈萨比斯谈 AGI 未来：科学黄金时代与机器人革命

02可灵 AI 数字人 Kling－Avatar 技术解析与实测体验

03OpenAI 新员工揭秘 AI 岗面试技巧：从技术准备到心理博弈

04AI 编程工具让资深开发者沦为“保姆”

05AI 驱动的“Vibe Working”如何改变工作流程

06Aivilization 创始人谈 AI 虚拟社会的实验与玩家生态

07蚂蚁集团发布 AI 眼镜技术框架 gPass，推动数字生活服务升级

08淘宝 AI 导购功能上线，解决“目标明确但规则模糊”的购物痛点

09Replit Agent 3 革新开发者体验

Amjad Masad

Temporal

Amjad Masad

AM

Amjad Masad

10AI 工程师以 900 美元时薪冲击传统咨询业

11MedSegX：开放世界医学图像分割的通用基础模型

12OpenVision 2：生成式预训练视觉编码器的简化突破