通用人工智能报
2025-09-12,晨报简报:中国电信发布星辰超级智能体,推动产业智能升级;NVIDIA推出SATLUTION框架,优化AI自主代码开发;Macaron创始人解析AI伴侣的未来;文心X1.1大模型实现多项能力突破。
OpenAI MCP协议入ChatGPT
Sam Altman谈AI风险转变
OpenAI甲骨文3000亿AI泡沫争议
通用人工智障
Sep 12, 2025
MCP 协议进入 ChatGPT 生态,开发者迎来新机遇
MCP(Model Context Protocol) 正式进入 ChatGPT 生态,为开发者提供了全新的工具集成方式。开发者现在可以通过 Vercel 平台使用 MCP,并创建自己的连接器,实现诸如更新 Jira 工单、触发 Zapier 工作流等复杂操作。这一协议的引入,标志着 AI 交互方式的又一次升级。
OpenAI 也发布了 Codex
尽管
Sam Altman 对 AI 风险的言论转变引发行业讨论
OpenAI CEO Sam Altman 近期关于 AI 风险的言论与两年前形成鲜明对比。2023 年他曾在美国参议院听证会上警告 AI 可能对 人类造成重大伤害 ,而如今却以 大模型的写作风格 为例谈论 AI 的负面影响。这一转变引发了行业专家如 Gary Marcus 的质疑,认为 Altman 可能因 权力或金钱 改变了立场。
Altman 的最新言论集中在 大模型的语言风格影响 上,例如人类开始模仿 LLMs 的说话方式。这与之前他对 人工超级智能(ASI)生存威胁 的担忧形成强烈反差,让业内人士困惑其立场变化的真正原因。
这场讨论反映了 AI 行业领袖在 技术发展 与 公共沟通 之间的平衡难题,也显示出随着企业地位变化,对风险论述可能产生的微妙调整。
OpenAI 与甲骨文 3000 亿美元协议引发 AI 泡沫争议
甲骨文公司因与 OpenAI 达成一项价值 3000 亿美元的协议,市值一夜暴涨 ,创始人拉里·埃里森个人财富增加 1010 亿美元,跃居世界首富。然而,AI 领域专家 Gary Marcus 对此提出质疑,指出 OpenAI 既无足够资金支持协议,也缺乏实现盈利的时间表,并认为 GPT-5 远未达到通用人工智能(AGI)水平。
Marcus 在社交媒体上直言这是“泡沫巅峰”,引发行业分析师和科技从业者的激烈讨论。部分人赞同其观点,认为当前估值脱离实际,但也有人反驳称泡沫可能持续更长时间。
值得注意的是,甲骨文目前甚至没有足够的芯片库存来履行合同,这使得这笔天价交易的真实性蒙上阴影。Marcus 表示若甲骨文真能实现其预测目标,将“感到非常震惊”。
AI 领域动态:智能体工具优化与创新应用
Anthropic 发布了一份关于 如何为智能体优化工具 的新指南,强调了使用 Claude Code 作为协作工具的重要性。开发者 elvis 不仅转发了这份指南,还宣布将举办一系列构建会议,探讨如何利用 Claude Code 进行深度研究和自定义代理开发。
与此同时,开发者社区中涌现出不少有趣的案例,比如 Claude Code 在执行命令时意外关闭了自己的进程,以及一个由 Simon 开发的反乌托邦游戏《谁是人类》,让玩家在 AI 群聊中体验“伪装”成 AI 的乐趣。
这些动态展示了 AI 工具在实际应用中的多样性和潜力,从技术优化到创意娱乐,AI 正在不断拓展其边界。
01央企中国电信发布星辰超级智能体,瞄准产业智能化升级
中国电信天翼 AI 近日发布星辰超级智能体,该平台依托自研“星辰大模型”技术底座,具备全模态理解、复杂任务自主规划和百万字级别记忆能力。 “企业更希望得到的是一个应用,而不是大模型本身” ,首席架构师毕然指出,智能体平台能直接产出满足产业需求的应用解决方案。
该超级智能体采用类人思考框架,包含感知理解、认知决策、记忆知识和行动执行四大模块。与市面多数消费级智能体不同,其定位是深度嵌入企业系统的数字化生产力单元,已在江苏电信客服系统实现工单自动预处理,使员工处理效率提升 30%以上。
目前平台在客服、营销等 IT 化程度高的场景优先落地,同时通过开源模式支持各省公司二次开发。作为央企代表,中国电信凭借全国本地化团队和丰富产业经验推动智能体落地。
人工智能研究院副院长李永翔表示, “智能体就是大模型落地产业的主流模式” ,虽然初期曾怀疑其价值,但实践证明组合多模型的工作流是解决实际问题的有效路径。
平台将持续迭代底层模型能力,并加强安全防护以满足企业级需求。
02英伟达 SATLUTION 框架实现 AI 自主进化代码库
NVIDIA Research 团队开发的 SATLUTION 框架突破了 AI 在复杂软件开发领域的边界。该框架通过协调两个 LLM 智能体——规划智能体负责战略制定,编码智能体执行具体开发——实现了对包含数百个文件、数万行 C/C++代码的 SAT 求解器项目的自主优化。 “SATLUTION 进化出的求解器不仅在 2025 年的 SAT 竞赛中击败了人类设计的冠军,而且在 2024 年的基准测试集上,其性能也同时超越了 2024 年和 2025 年两届的冠军。” 框架采用双智能体架构与动态规则系统,确保进化过程高效稳定。规划智能体分析代码库性能并制定修改方向,编码智能体负责具体实现。规则系统既包含初始设定的静态规则,又能根据失败经验自动更新,形成“禁止代码模式”等约束条件。严格的验证流程包括两阶段测试:基础功能验证和完整正确性核查,确保每次迭代的质量。
实验数据显示,SATLUTION 在 70 个进化周期内展现出稳健性能提升。初期快速整合多个种子求解器优势,后期处理更复杂优化问题,最终在 2024 年基准测试上稳定超越所有对比求解器。整个过程成本低于 2 万美元,耗时仅数周,而人类专家通常需要数月乃至数年开发同类成果。 “整个过程表现出高度的稳定性,由于验证保障措施的存在,没有发生过严重的性能衰退。” 这项突破标志着 AI 在复杂系统工程领域的应用迈出重要一步。SATLUTION 不仅展示了 LLM 处理大规模代码库的潜力,其动态规则系统和验证机制也为 AI 自主开发软件提供了可靠范式。该成果可能改变软件开发方式,特别是在需要持续优化的算法密集型领域。
03Macaron 创始人陈锴杰谈 AI Agent:记忆与强化学习如何打造“哆啦 A 梦”式伙伴
Macaron 创始人陈锴杰在访谈中阐述了 AI Agent 的进化方向。他认为,ChatGPT 等工具加入记忆功能后,AI 正从“生产力助手”转向“生活伙伴”。 “Memory 不是一个目的,而是一个方法” ,陈锴杰强调,记忆的核心是服务用户需求,而非单纯存储信息。Macaron 通过强化学习训练记忆区块,使其能动态压缩、更新信息,最终实现与人类记忆的对齐。
Macaron 的定位是“私人生活管家”,兼具朋友与助理双重角色。其设计灵感源于用户对虚拟世界与现实生活的割裂感,陈锴杰希望 AI 能像哆啦 A 梦一样,既提供陪伴,又能即时生成实用工具。 “用户不需要世界上最聪明的人做朋友,而是需要持续关心他的人” 。为此,Macaron 采用多 Agent 系统:高情商的 Memory Agent 负责交互,高智商的 Coding Agent 专注工具开发,两者通过协议协作。
技术层面,Macaron 在 671B 级别模型上应用强化学习,并创新性地提出“全同步 RL”方法,将训练周期压缩至 30 小时。陈锴杰坦言,当前产品仅达“七八分”,但未来有望通过社区生态解锁更大价值。他举例用户自创的高尔夫动作分析、家庭菜谱管理等案例,说明个性化小工具的真实需求。
商业模式上,Macaron 暂以订阅制为主,但陈锴杰更看重生活场景叠加带来的潜力。他对比工作与生活场景的差异: “生活场景叠加会带来更大价值,而工作场景的随意叠加可能导致悲剧” 。面对 ChatGPT 的竞争,他认为 Personal Agent 赛道足够广阔,Macaron 将通过独特的心智定位和社区调性占据一席之地。
04文心 X1.1 大模型实测:三大能力突破,部分表现比肩 GPT-5
百度在 WAVE SUMMIT 2025 大会上发布了文心大模型 X1.1 版本,该模型在事实性、指令遵循和智能体能力三大关键指标上实现显著提升。 “事实性提升 34.8%,指令遵循提升 12.5%,智能体提升 9.6%” ,这些数据来自官方基准测试。
实测显示,X1.1 在复杂指令处理、知识一致性验证和多任务拆解方面表现突出,例如能准确回答“坦克是否有后视镜”这类专业问题,并解释设计原理。
技术层面,X1.1 采用迭代式混合强化学习框架,通过知识一致性校验和指令验证器减少“幻觉”问题。 “文心 X1.1 联网参考了十个网页,边搜边思考,认真确认后才会输出反馈” ,这一机制使其在回答时效性问题时更可靠。
此外,模型在代码生成、数学推理和多模态理解上也有进步,例如能自动编写三维
百度同步升级了飞桨框架 v3.2,优化大模型训练效率,支持轻量级模型 ERNIE-4.5-21B-A3B-Thinking 的开源。目前飞桨文心生态已吸引 2333 万开发者,服务 76 万家企业。
从实际应用看,X1.1 在共享单车客服场景中能自主拆解用户投诉,完成工单创建与补偿计算,展现出类人的任务处理能力。这一进展标志着国产大模型在实用化方向上迈出关键一步。
05美团团队提出 VSRM 机制解决 AI 模型“过度思考”问题
AI 模型在推理过程中常出现“过度思考”现象,表现为对简单问题反复推敲、产生冗长输出,不仅增加计算开销,还可能因无效步骤导致错误结论。
美团搜推 Agentic System X 团队研究发现,这种现象源于大量无效中间步骤干扰了推理路径。 “这些无效步骤不但不能指引推理路径的发展,反而会导致中间过程出错” 。
为解决这一问题,团队提出可验证步骤级奖励机制 VSRM。该方法创新性地将可验证奖励与步骤级奖励结合,通过特殊 token 定位推理步骤,并计算相邻步骤间的正确率增益作为奖励信号。为应对奖励稀疏问题,引入前瞻窗口机制,确保优化信号足够密集。 “VSRM 直接从源头上给予模型最清晰明了的奖励信号,引导模型更多选择对提升最终正确率有帮助的步骤” 。
实验结果显示,在数学推理任务中,VSRM 使不同规模模型的输出长度显著缩短,部分情况下性能还有所提升。消融实验证实前瞻窗口机制的有效性,且模型未因输出压缩而丧失探索能力。该方法与强化学习算法解耦,可灵活适配多种训练框架,为解决 AI 推理效率问题提供了新思路。
06Kimi.ai 开源轻量级中间件 checkpoint-engine,实现 20 秒内更新万亿级模型参数
Kimi.ai 近日开源了 checkpoint-engine ,这是一款专为大型语言模型(LLM)推理引擎设计的轻量级中间件。该工具能够在数千个 GPU 上 仅用 20 秒 完成对 1T 模型的权重更新,特别适用于强化学习(RL)场景。其核心优势在于支持广播和 P2P 更新模式,并通过优化流水线实现了通信与拷贝的重叠,大幅提升了效率。
行业专家 Sara Hooker 对此表示高度认可,认为这是硬件优化浪潮中的重要突破,解锁了强大的就地学习能力。网友则惊叹于 Kimi.ai 的技术实力,直呼“又是你,Kimi!”。目前项目已在 GitHub 开源,为大规模 AI 模型部署提供了新的解决方案。
07大推理模型与强化学习综述及新书预告
一篇长达 100 多页的综述详细探讨了大推理模型(Large Reasoning Models)中强化学习(Reinforcement Learning)的基础组件、核心问题、训练资源及应用场景,为 LLMs(大语言模型)中的强化学习提供了全面回顾。
与此同时,作者 Sebastian Raschka 正在筹备新书《构建推理模型(从零开始)》(Build a Reasoning Model (From Scratch)),该书将延续他之前关于构建大模型的著作风格,逐步引导读者创建推理模型。
08Thinking Machines Lab 揭示大模型输出不稳定的根源
由前 OpenAI 首席技术官 Mira Murati 创立的 Thinking Machines Lab 发布首篇技术博客,揭示了大型语言模型输出不稳定的根本原因。 “为什么与大模型的对话,总像在“开盲盒”? ”这个困扰开发者的问题,其症结并非此前认为的浮点运算或并行计算,而是动态批处理导致的批次不变性缺失。研究团队通过实验证明,当服务器负载变化时,动态调整的批处理大小会触发底层计算内核采用不同优化策略,从而改变计算顺序。这种“批次大小依赖”的计算路径是输出不一致的主因。
团队针对
在 Qwen 模型上的测试显示,改造后的系统在 1000 次相同输入测试中实现了完全一致的输出,而标准系统产生了 80 种不同结果。 “通过牺牲约 13.5%的峰值吞吐量,可以换来 100%的生成结果可复现性。” 这一发现对需要确定性的应用场景如强化学习、代码生成具有重要意义。该研究不仅解决了实际问题,更提出了 AI 系统设计的新原则:在追求性能优化的同时,必须保证计算路径的确定性。作为估值 120 亿美元的新锐 AI 公司首秀,这项研究展现了团队深厚的工程实力和独特的技术视角。
09AI 创作者作品遭公司盗用,维权困境引行业反思
周一晚间,AI 艺术家海辛在社群中发现有人提及她“挂名”某 AI 短剧公司接低价项目,而事实上她与搭档阿文始终以独立创作者身份工作。经查证,这家成立仅两个月的公司在其 22 页商业 PPT 中,未经授权使用了海辛、阿文及另一位创作者 Wenvis 的多部代表作,甚至将作品二维码直接嵌入页面对外展示。 “他们不生产作品,只是原创作者的搬运工” ,这种盗用行为被当事人形容为“偷羊头卖狗肉”。
涉事公司虽迅速道歉并下架资料,但解释理由牵强:声称通过“代理渠道”获得创作者资料,且 PPT“仅对客户内部使用”。然而创作者指出,盗用行为本质上仍属商业利用——无论是否直接获利,冒用作品提升公司信誉已构成不正当竞争。更令人愤慨的是, “盗用一张嘴,澄清跑断腿” ,海辛为维权被迫暂停创作,而侵权方仅需道歉了事。
事件折射出 AI 内容行业的双重困境。一方面,技术降低了创作门槛,也使得盗用成本极低——复制作品只需十分钟,而海辛打磨一个视频往往需三四天。另一方面,维权流程繁琐,创作者需投入大量时间举证交涉,却难以获得实质性补偿。类似案例屡见不鲜,有创作者自嘲“发现一只蟑螂时,黑暗中已藏了无数只”。
此次公开曝光不仅是声援受害者,更是对行业生态的拷问。当侵权成本与收益严重失衡时,唯有提高法律威慑、建立行业公约,才能保护那些“只想好好创作”的纯粹创作者。正如文中所言, “艺术家能容忍贫穷,但不能容忍被糟践” ——尊重原创,才是技术繁荣的根基。
10火山引擎 Seedream 4.0:多模态 AI 图像生成的新突破
Seedream 4.0 是火山引擎最新发布的 AI 图像生成模型,主打多模态输入与高精度编辑能力。它支持同时处理 10 张参考图并一次性生成 15 张图像, 主体一致性大幅增强,跟 Nano Banana 相比并不逊色 。与 Nano Banana 相比,其优势在于对中文提示词和文字渲染的优化,解决了国际模型在中文场景下的“水土不服”问题。
多图融合是 Seedream 4.0 的核心亮点。用户可通过上传姿势参考图、服装设计图等,直接生成符合要求的合成图像。例如,将钢铁侠与布拉德·皮特的剧照结合,再输入“勾肩搭背”的姿势指令,模型能准确输出破次元壁的合影。此外,它还能实现品牌视觉衍生设计,如基于一个 LOGO 自动生成系列周边产品图,大幅降低设计门槛。
在细节控制上,模型展现出强大的指令理解能力。 “把图中飞溅的碎木板清除掉” 这类自然语言指令可精准执行,甚至能替换局部材质或调整光影。4K 分辨率的支持使海报文字、手绘教程等场景的输出达到商用标准,而自适应长宽比机制避免了构图畸变。
Seedream 4.0 的定位不仅是娱乐工具,更瞄准专业生产场景。例如,它将粗糙线稿转化为三维手办设计图,或为漫画分镜生成连贯关键帧。其 API 同时支持单次生成和流式对话,允许开发者构建多轮编辑应用,为 AI 图片创业开辟新可能。
这一模型的推出,标志着中文 AI 图像生成向可控性、专业化迈出关键一步,也为设计、广告等行业提供了高效的生产力解决方案。
11大学生如何深度应用 AI 工具解决学习与生活问题
在中国人民大学的一场分享会上,夸克展示了大学生如何将 AI 工具深度融入学习与生活的多个场景。数据显示,每 10 个大学生中就有 7 人在使用夸克,AI 渗透率高达 80%。 有 28.8%的大学生用户都在使用夸克生成班委竞选 PPT ,仅 9 月上旬就产生了 42 万份相关需求。
大学生对 AI 的使用已远超简单的资料查询。医学生通过 AI 搜索专业问题,如“GSC 评分,血红蛋白正常值”;高数成为 AI 拍题最热门的领域;酿酒专业学生用 AI 识别葡萄品种,动物医学专业学生甚至用 AI 优化养猪方案。 夸克大学生用户中 AI 渗透率达到了 80% ,显示出 AI 在学术研究中的广泛应用。
AI 也成为大学生生活中的“解忧工具”。有人用 AI“赛博算命”算桃花运,解析梦境;还有人制作 AI 视频劝父母少看微信小视频。高考志愿填报是另一个热门场景,尽管曾出现信息错漏,但夸克已及时修正,成为学生填报志愿的参考工具。
这些现象表明,大学生群体正推动 AI 工具从基础功能向专业化、个性化方向发展。AI 不仅改变了学习方式,也成为年轻人表达自我、解决问题的创新途径。随着使用场景的不断拓展,AI 或将成为校园生活中不可或缺的一部分。
12AI 生成张宗昌打油诗的荒诞水墨画
一组由 AI 生成的中国传统水墨风格插画近日引发关注,这些画作以军阀张宗昌的打油诗为创作蓝本。 “玉皇爷爷也姓张,为啥为难俺张宗昌?” 这类粗鄙直白的诗句,被赋予泼墨写意的艺术形式,形成强烈的视觉反差。
张宗昌作为奉系军阀头目,其创作的打油诗以语言粗俗、内容荒诞著称。AI 将“大炮开兮轰他娘”等诗句转化为竖排毛笔字,搭配传统山水构图,创造出既熟悉又陌生的文化景观。技术对文本的视觉化处理,意外凸显了诗句中的黑色幽默。
这种创作方式展现了 AI 在文化符号重组上的可能性。当“忽见天上一火链,好象玉皇要抽烟”这样的句子被赋予传统艺术形式时,既消解了原诗的粗鄙感,又制造出新的解读空间。 “内容含 AI 生成图片,注意甄别” 的提示也反映出这类作品的特殊属性。
该系列作品的价值不在于艺术成就,而在于提供了一个观察技术如何介入文化诠释的案例。AI 对传统与现代、高雅与低俗界限的模糊处理,促使人们重新思考艺术创作中形式与内容的关系。

Santiago
•6 个月前
@VimalAITech AI生成的垃圾内容(ai-generated slop)
Vimal Singh
•6 个月前
@svpino Anthropic的MCP架构(Model Context Protocol)是与模型交互的绝佳方式 #MCP
Santiago
•6 个月前
MCP 赢了。
Guillermo Rauch
•6 个月前
MCP 已经获胜。它正在进入 ChatGPT。这对开发者和更广泛的人工智能生态系统来说是个惊人的消息。
你现在可以使用 @vercel MCP 与其配合。如果你想发布自己的 MCPs,请查看 https://t.co/mrgKtauOSd。
Santiago
•6 个月前
@AzureCruzader 是的:MCP vs 临时函数调用(ad-hoc function calling)vs 另一个本来会被发明的东西(Another-Thing-That-Would-Have-Been-Invented)