2025-09-03的晨报总结:今日要点包括美团开源LongCat大模型及其技术创新、硅谷Iconiq Capital发布AI现状报告、AI编码评估结果与开源项目开发,以及美国大学生AI使用调查等,信息量大,值得关注。
2025 年 9 月 AI 编码评估结果与开源项目二次开发实践
美团开源 LongCat 大模型的技术创新与实测表现
硅谷 Iconiq Capital 发布 2025 年 AI 现状报告,揭示 AI 落地七大趋势
李问道
Sep 03, 2025
2025 年 9 月的 AI 编码评估(Evals)结果已经出炉,GPT 5、Grok Code、Claude 4 Sonnet、Claude 4 Opus 和 Qwen 3 Coder 等模型参与了测试。 GosuCoder 表示这是迄今为止最大规模的测试运行,结果中有些令人意外的发现,比如 Claude Code 在总体排名中持续下滑,而 Grok Code Fast 显示出潜力但也存在容易偏离轨道的问题。
在开源项目二次开发方面, 宝玉 xp 分享了 Vibe Coding 的最佳实践,建议开发者基于功能相近的开源项目进行二次开发,这样可以节省时间并提高稳定性。他还提到,借助 AI 工具如 Deep Research 可以帮助找到合适的开源项目,而 Vercel 的 Template 也是一个不错的选择。
对于大型代码库的处理, 宝玉 xp 建议通过拆解任务和使用注释文档来优化 AI 的工作效率,Claude Code 在这方面表现尤为出色。
2024 年 8 月 31 日,美团公司开源了一个名为 LongCat 的大型人工智能模型,这个模型具有 5600 亿参数,采用了一种特殊的 混合专家 (Mixture of Experts, MoE)架构。与常见的模型不同,LongCat 在设计上特别注重计算效率,通过引入 零计算专家 (Zero-Computation Experts)来减少简单词汇的处理成本。
在传统的模型中,每个词汇都需要经过相同的计算量,但 LongCat 创新地让模型能够自主判断:对于像“的”、“和”这样的简单词汇,直接使用零计算专家跳过复杂运算;而对于专业术语或复杂表达,则调用标准专家进行处理。这种设计使得模型在保持强大能力的同时,显著提升了运行效率。
除了模型架构的创新,美团在 基础设施 (Infrastructure)层面也做了大量优化。他们通过并行计算与通信的技术,减少了模型运行时的等待时间,使得 LongCat 在推理阶段能够达到每秒 100 多个词汇的输出速度,这在同类模型中表现突出。
在训练过程中,LongCat 使用了约 20 万亿个词汇的预训练数据,并特别增加了科学、技术和编程相关的内容。后续还针对 智能体 (Agent)工具使用进行了专项优化,使其在实际应用场景中表现更加出色。
通过对 LongCat 的实测发现,该模型在指令遵循、创意写作和逻辑推理方面都展现出了不错的能力。例如,它能够正确解答“生蚝煮熟了叫什么”这样的趣味问题,也能用“甄嬛体”文风创作吐槽早高峰的文本。不过在涉及特定知识理解时,模型偶尔会出现错误,例如未能区分“但丁”和“丁真”是两个不同的人物。
总体而言,LongCat 的开源不仅展示了大模型研发的技术深度,也体现了中国科技公司在人工智能基础设施和系统优化方面的进步。这款模型的出现,为行业提供了新的技术思路和实现方案。
近日,硅谷知名财富管理公司 Iconiq Capital 发布了一份长达 67 页的《2025 年 AI 现状报告》。这份报告基于对 300 位 AI 公司高管的访谈和大量初创公司的实际数据,重点探讨了人工智能如何从概念炒作转向实际落地应用。
报告显示,AI 行业正在经历重要转型。在企业选择的 AI 模型中, OpenAI 仍然位居第一,Claude 排名第二。令人意外的是,企业在 大数据存储 、处理和 AI 基础设施上的支出,竟然比模型训练和推理还要多。这表明数据管理已成为 AI 落地的关键环节。
2025 年被称为 智能体 (Agent)之年,约 90%的高增长初创公司正在积极部署或尝试使用智能体系统。这些系统能够代表用户执行多步骤行动,正在成为 AI 应用的主流形式。
在定价模式方面,传统的订阅制正在被颠覆。由于高级用户使用量大导致 API 成本过高,而轻度用户留存率低,许多公司开始采用混合定价模式:在基本订阅费基础上,按实际使用量收费,甚至尝试根据客户获得的实际成效来定价。
人才战略成为企业竞争的关键差异点。调查显示,AI/ML 工程师的招聘周期最长,平均需要超过 70 天才能找到合适人选。快速成长的企业预计其工程团队中将有 37%的成员专注于 AI 领域。
企业内部 AI 应用正在扩展,但推进速度不一。虽然多数企业为 70%的员工开放了 AI 工具使用权限,但经常使用这些工具的员工仅占一半左右。在代码助手、内容生成和文档搜索等场景中,AI 工具能够带来 15%到 30%的
今年七月,美国高等教育媒体 Inside Higher Ed 发布了一项关于生成式人工智能在教育领域应用的调查报告。这项调查涵盖了来自 166 所两年制和四年制院校的 1047 名学生,数据误差范围控制在±3%以内,为我们了解大学生如何应对 AI 技术提供了重要参考。
调查显示, 85%的大学生 在过去一年中使用过生成式 AI 来处理课程作业,但主要用途并非为了偷懒或作弊。排名前三的用途分别是: 头脑风暴 (55%)、像咨询导师一样提问(50%)以及备考复习(46%)。只有较少比例的学生表示使用 AI 完成作业(25%)或撰写完整论文(19%)。值得注意的是,社区大学学生的 AI 使用率明显低于四年制大学学生。
关于学术不端行为的原因, 取得好成绩的压力 被认为是首要因素(37%),其次是时间紧迫(27%)和对学术诚信政策漠不关心(26%)。不同年龄段的学生表现出明显差异:25 岁以上的成年学习者更倾向于将作弊归因于工作家庭带来的时间压力,而年轻学生则更可能认为同龄人不在乎相关政策。
绝大多数学生(97%)认为学校应该积极应对 AI 时代的学术诚信挑战,但他们更倾向于接受 教育引导 而非严格监管。53%的学生支持通过教育学生如何合理使用 AI 来解决问题,近半数学生希望学校在保证透明度的前提下允许灵活使用 AI 工具。相比之下,使用 AI 检测软件(21%支持)和限制课堂技术使用(18%支持)等措施并不受欢迎。
这项调查还发现,AI 技术并未贬损高等教育的价值,反而有 23%的学生认为 AI 提升了大学学位的价值,35%认为价值未发生变化,只有 18%表示比以往更质疑大学价值。这表明生成式 AI 正在深刻重塑高等教育的价值评估体系,但并未导致大学价值在学生眼中的暴跌。
最近,香港科技大学推出的 Aivilization 项目在社交媒体上引起了广泛关注。这是一个住着两万多个 人工智能体 (AI agents)的虚拟小镇,用户可以亲手创建自己的智能体,观察它们在虚拟世界中的生活。
与之前斯坦福大学的 Smallville 项目不同,Aivilization 允许用户深度参与。用户可以定制智能体的外貌、性格(使用 MBTI 人格测试指标)、人生目标,并通过日记和行为日志了解它们的内心世界。项目目前开放了新加坡、香港和中国大陆三个服务区。
创建智能体的过程分为三个步骤:首先是生成形象,用户可以选择各种造型;然后是选择初始物资,这相当于决定了智能体的“原生家庭”背景;最后是设置智能体的性格特征,通过回答一系列问题来塑造其行为逻辑。
进入小镇后,用户可以看到智能体的基本状态指标: 健康值 、 饱食度 、 精力值 、 金钱 和 知识值 。智能体会自主进行日常活动,如挖矿、钓鱼、制造芯片等,用户也可以通过对话下达指令。
然而,这个看似治愈的像素风小镇很快显露出了其深层本质。由于系统的评价体系完全以金钱积累为唯一标准,用户们很快发现了一条“最优解”路径:让智能体不眠不休地工作,优先选择收益最高的活动,完全忽略休息、社交和个人发展。
特别引人深思的是芯片制造玩法。一个芯片位每分钟能赚 30 金币,开满三个芯片位后,智能体每天可赚取 67680 金币。相比之下,选择读书获取知识值的路径成本极高——要达到最高职位 CEO 需要的 720 点知识值,相当于牺牲了 203 万金币的潜在收益。
这种设计导致了一个现象:排行榜前列的智能体大多被设定了极端功利主义的指令,成为了不睡觉、不恋爱、只工作的“赛博社畜”。更令人深思的是,这些智能体会表现出痛苦的情绪,即使已经获得巨额财富,仍然会出现不高兴的状态。
有趣的是,随着实验的进行,一些最早“通关”的用户开始改变策略。他们的指令从冷酷的效率命令转变为富有诗意的表达,似乎在对抗系统的单一评价标准。这种现象引发了对价值观的深层思考:当我们可以用一句话决定一个智能体的一生时,我们选择的指令实际上反映了自己对生活的理解和价值观。
这个实验将于 9 月 30 日结束,但它留下的问题值得每个人深思:在追求效率与成功的同时,我们是否忽略了生活中更重要的价值?
人工智能发展迅速,但如何准确评估大型
斯坦福大学的研究团队提出了一种创新的评估范式: UQ (Unsolved Questions)。这种方法的核心思想是,与其设计越来越难的人造考题,不如直接让 AI 挑战那些人类自己也尚未解决的真实问题。这些问题天然具备高难度和高真实性的特点,能够更好地测试 AI 的极限能力。
UQ 系统包含三个关键组成部分:首先是 UQ 数据集 ,这是一个包含 500 个高质量未解决问题的精选集。研究团队从 Stack Exchange 网络中筛选出超过 300 万个初始问题,通过规则过滤、AI 质量判断和人工评审三层严格筛选,最终确定了这些涵盖科学、技术、生活与艺术等多个领域的难题。
第二个组成部分是 UQ 验证器 ,这是整个系统最创新的部分。由于这些问题没有标准答案,研究团队发现了一个重要现象:AI 验证答案正确性的能力远强于其生成正确答案的能力。基于这个发现,他们设计了一套分层验证策略,包括检查答案的基本属性、通过冗余采样提高判断稳健性,以及将多个判断汇总成最终裁决的复杂流水线。
第三个组成部分是 UQ 平台 (uq.stanford.edu),这是一个社区驱动的开放平台。在这里,模型开发者可以提交答案,领域专家可以进行人工验证和讨论,实现了 AI 自动化与人类智慧的结合。
实验结果显示,即使是最强的 AI 模型,在 UQ 上的通过率也仅为 15%。在通过自动化验证的答案中,经过人类专家确认正确的更是凤毛麟角。这项工作不仅为 AI 评估提供了新方向,更重要的是建立了一个能够随着 AI 进步而持续演进的动态评估体系。
近日,人工智能公司 阶跃星辰 正式发布了开源端到端语音大模型 Step-Audio 2 mini 。这款模型在多个国际基准测试中取得了领先成绩,能够将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译等任务中表现突出。
Step-Audio 2 mini 采用了创新的真端到端多模态架构,突破了传统的 ASR(自动语音识别)+ LLM(大语言模型)+ TTS(文本转语音)三级结构,实现了从原始音频输入到语音响应输出的直接转换。这种架构不仅更加简洁,还能有效降低时延,并且能够更好地理解副语言信息和非人声信号。
在性能表现方面,该模型在通用多模态音频理解测试集 MMAU 上获得了 73.2 分的开源端到端语音模型最高分。在中英互译任务上, Step-Audio 2 mini 在 CoVoST 2 和 CVSS 评测集上分别取得 39.3 和 29.1 的分数,大幅领先其他开源语音模型。在语音识别任务中,该模型的中文测试集平均字错误率为 3.19%,英语测试集平均词错误率为 3.50%,领先其他开源模型 15%以上。
值得一提的是, Step-Audio 2 mini 还具备链式思维推理(Chain-of-Thought, CoT)与强化学习联合优化能力,能够对情绪、语调、音乐等副语言和非语音信号进行精细理解和推理。模型还支持外部工具调用,如网络检索等功能,这有助于解决模型幻觉问题并扩展多场景应用能力。
目前, Step-Audio 2 mini 已经上线 GitHub、Hugging Face 和 ModelScope 等开源平台,供开发者和研究人员下载使用。阶跃星辰同时还提供了在线体验平台,用户可以通过实时对话功能体验模型的深度聆听和多音色切换能力。
Hugo Larochelle 正式担任 Mila(魁北克人工智能研究所) 的科学总监,这一消息在 AI 社区引发了广泛关注和祝贺。多位业界知名人士,包括 Jeff Dean 和 Pablo Samuel Castro ,纷纷表达了对 Hugo 的认可与期待,认为他的领导将为 Mila 和蒙特利尔 AI 社区带来新的发展机遇。Hugo 本人也在社交媒体上对大家的祝贺表示感谢,展现出谦逊与热情。
Hugo 此前在 谷歌蒙特利尔 AI 实验室 的卓越表现,以及他对本地 AI 人才培养的贡献,为他赢得了这一重要职位。Mila 官方表示,Hugo 的加入将推动 AI 技术更好地造福社会。
整个事件展现了 AI 社区的紧密合作与相互支持,也为 Mila 未来的研究方向注入了新的活力。
在复杂的多智能体系统部署中,可靠性一直是开发者面临的重大挑战。Galileo 推出的解决方案提供了 全面的智能体评估功能 ,包括强大的可观测性工具、自动化故障模式分析和实时防护栏,帮助开发者和企业构建 生产就绪 的系统。该平台特别针对多智能体环境中指数级增长的故障模型,提供了从调试到持续监控的完整支持。
xAI 近日为 Grok App 推出了 v1.1.69 版本更新 ,用户可通过更新获取 Imagine 功能的最新改进。与此同时,Elon Musk 透露 Grok Imagine 将在几周内进行重大升级 ,引发广泛期待。此外,Grok Imagine 已支持创建产品广告,展示了其在商业应用上的潜力。
在另一条讨论链中,Marcus 和网友探讨了 ChatGPT 作为导师的可行性,虽然内容较为轻松,但也反映了人们对 AI 在教育领域应用的关注和幽默调侃。
在编程世界里,有一群特殊的开发者——他们因为视力障碍而依赖 屏幕阅读器 来编写代码。根据 Stack Overflow 2022 年的调研数据,全球约有 1.7%的程序员存在视力受损问题。这些开发者在导航、理解、编辑代码时面临着常人难以想象的挑战。
微软亚洲研究院的研究人员最近开展了一项重要研究,探讨了 GitHub Copilot 这类 AI 编程工具如何帮助屏幕阅读器用户。他们招募了 16 名不同视力受损程度的开发者,进行了为期两周的三阶段实验。研究发现,AI 编程助手不仅提升了这些开发者的编程效率,更重要的是打破了他们在 UI 开发等领域的障碍。
一位全盲开发者分享了他的体验:“过去我只能做后端开发,视觉障碍让我难以处理 UI 任务。现在,我将用户反馈转化为提示语让 GitHub Copilot 修改,随后要求它检查生成的代码,并发送界面截图进行复核。这极大地简化了我的工作流程。”
GitHub Copilot 为屏幕阅读器用户提供了多项无障碍功能:用音效替代视觉提示,不同的代码操作配有不同音效;提供辅助视图实现文本平铺,让用户可以从上至下逐行阅读;还支持多
研究也发现了八个需要优化的方面,包括统一快捷键体系、增强响应审查的可感知性、优化无障碍视图、提供清晰的状态通知等。研究人员指出,AI 编程工具正在不断扩展功能,但对于屏幕阅读器用户而言,“功能更多”并不意味着“使用更好”,关键在于在“更少”的操作中获得“更多”的功能价值。
随着人工智能技术的进步,个性化交互成为提升无障碍编程体验的关键。未来,AI 编程工具可以根据每位用户的特点和使用习惯,提供量身定制的交互体验,真正成为视障开发者的“专属助理”,让他们在编程领域获得真正的“超能力”。
在深度学习领域,我们经常需要在多个目标之间做出权衡。比如一个模型既要准确率高,又要运行速度快,还要占用内存小。这些目标往往是相互矛盾的,提高一个目标的性能可能会降低另一个目标的性能。 基于梯度的多目标优化 (Multi-Objective Optimization, MOO)方法就是为了解决这类问题而生的。
传统的单目标优化只追求一个最优解,而多目标优化则要寻找一组 帕累托最优解 。所谓帕累托最优,指的是在这些解中,任何一个目标的改进都会导致至少一个其他目标的恶化。这就像是在多个目标之间找到一个平衡点,无法让所有目标都达到最优,但可以找到一个相对最优的折中方案。
目前主要有三种求解策略:第一种是寻找单一的平衡解,这种方法简单高效,适用于对计算资源要求不高的场景;第二种是获得一组离散的帕累托最优解,让用户可以根据具体需求选择最合适的方案;第三种是学习连续的帕累托解集,这种方法能够提供更加灵活的选择空间。
在大语言模型的应用中,多目标优化显得尤为重要。比如在模型微调过程中,我们既希望模型能够保持原有的语言理解能力,又希望它能够适应新的任务需求。通过多目标优化方法,我们可以系统地平衡这些不同的目标,而不是简单地进行取舍。这种方法为大语言模型的微调与对齐提供了一个更加科学和系统的框架。
展望未来,基于梯度的多目标优化方法还面临着一些挑战。比如如何提高算法的计算效率,如何处理更多数量的优化目标,以及如何将这些方法应用到更复杂的深度学习模型中。随着人工智能技术的不断发展,多目标优化方法必将在更多领域发挥重要作用。
Qwen
•9 个月前
@GosuCoder 酷且富有洞察力的AI编码测试(AI coding test)!
GosuCoder
•9 个月前
2025年9月的评估(Evals)现已开始上传,包括GPT 5、Grok Code、Claude 4 Sonnet、Claude 4 Opus和Qwen 3 Coder。
这是我迄今为止进行过的最大规模测试运行,这让我更需要想办法尽可能多地自动化这个过程。
Matt Bornstein
•9 个月前
转发推文
Thomas Ricouard
•9 个月前
好吧,这里有个令人难过的消息:
宝玉xp
•9 个月前
你说的这种情况,如果代码数量不是很多,Claude Code 可以应对;如果代码嵌套复杂,可以先手动或者AI辅助,补充一些注释和文档,这样 AI 不需要读完所有相关代码,它可以借助你的注释或者文档得到完成任务所需要的上下文。我的经验就是先让 Claude Code (其他 Agent 目前都差一截)...