今天是2025-08-16,主要新闻包括:WebWatcher通过跨模态研究突破技术瓶颈,Grok Imagine推出图像转视频功能,GPT-5在新环境下性能大幅提升。关注科技前沿,获取最新动态。
GPT-5 性能突破与 OpenAI 平台更新动态
OpenAI 探讨 AGI 未来之路,行业意见分歧显现
Android 开发新趋势:AI 赋能与多设备适配
李问道
Aug 16, 2025
OpenAI Playground 近期迎来重大升级,用户已开始利用其测试 GPT-5 在新场景下的表现,特别是通过 MCP 工具实现与内部文档的智能对话,并运用了向量存储技术。与此同时,XBOW 平台展示了 GPT-5 的隐藏潜力—— 集成后性能提升超过 100% ,远超 OpenAI 官方初期评估。
有趣的是,GPT-5 在非传统测试领域也展现出进步,仅用 7 天就通关《宝可梦蓝》游戏,相较前代模型耗时缩短一半,这或许暗示其在长期记忆和推理能力上的实质性突破。
OpenAI 最新播客中,首席科学家 Merettm 与技术研究员 Sidorszymon 深入探讨了 从当前突破到未来可能性 的 AGI 发展路径。与此同时,Séb Krier 提出了对 AGI 的分布式系统观点,强调应管理共享能力库而非单一模型。然而,Gary Marcus 则对 Sam Altman 的 AGI 承诺提出质疑,认为 GPT-5 延期暴露了 OpenAI 的技术瓶颈,并将在 CNBC 直播中讨论此事对行业的影响。
在 2025 年 Google 开发者大会上,Android 平台迎来了一系列重要更新,这些变化正在重塑移动应用开发的未来。对于不熟悉技术领域的读者来说,这些更新可以简单理解为:开发者现在拥有更智能的工具,能更轻松地打造优质应用。
Gemini 作为 Google 的 AI 技术代表,已经深度融入 Android 开发生态。它不仅能帮助开发者编写代码、分析错误,还能通过 Google Pay API 实现智能支付体验。比如当你在购物应用结账时,系统可以自动识别身份并完成支付,整个过程只需几秒钟。这种 AI 能力既存在于手机本地(Gemini Nano),也能调用云端更强大的模型(Gemini Pro)。
在用户界面设计方面, Jetpack Compose 这套工具新增了自动调整文字大小、智能填充表单等功能。最新版本还强化了多设备适配能力,让同一个应用能自动适应手机、平板等不同尺寸的屏幕。数据显示,采用新技术的应用启动速度能提升 40%,卡顿现象减少 25%,这直接改善了用户体验。
开发工具 Android Studio 现在支持将本地 AI 模型接入开发环境,这意味着开发者即使没有网络连接,也能获得智能编程辅助。云端开发功能则打破了设备限制,开发者用任何电脑都能通过浏览器使用高性能的云端开发环境。
针对折叠屏、平板等新型设备,Android 提供了专门的测试工具和自适应布局方案。通过新增的 Android Device Streaming 服务,开发者可以直接在网页上远程测试不同品牌设备的兼容性,目前支持小米、OPPO 等主流厂商。
这些技术进步正在降低应用开发门槛,开发者可以把更多精力放在创意实现上,而不是重复性的基础工作上。从 AI 辅助编程到多设备适配,Android 生态的进化方向很明确:让开发更简单,让应用更智能。
在人工智能领域, 多模态 (multimodal)研究一直面临着重大挑战。现有的闭源系统虽然具备强大的文本分析能力,却难以处理现实世界中常见的图像、图表等视觉信息。而开源解决方案又往往只能专注于单一模态,要么擅长文本检索但无法理解图像,要么能识别图像却缺乏跨模态推理能力。 WebWatcher 的出现,正在改变这一局面。
这个由阿里巴巴团队开发的开源项目,成功整合了 网页浏览 、 图像搜索 、 代码解释器 和 OCR (光学字符识别)等多种工具。它最突出的特点是能够像人类研究员一样,通过看图、搜索、推理、验证的全流程,自动完成复杂的信息追踪任务。为了实现这一目标,研发团队采用了独特的训练方法:先通过高质量合成数据进行冷启动训练,再结合 强化学习 (Reinforcement Learning)优化决策能力。
WebWatcher 的技术方案包含三个关键环节。首先是构建复杂的多模态训练数据,研究团队通过 随机游走 (random walk)算法在多源网页中采集信息,并刻意对关键信息进行模糊化处理,迫使模型必须进行跨模态推理。其次是创新的训练方法,团队设计了 Action-Observation 驱动的轨迹生成方式,确保模型学习到简洁有效的推理路径。最后是建立了专门的评测基准 BrowseComp-VL ,这个基准模拟了真实网络环境下的复杂研究任务,要求模型必须协调使用多种工具才能解决问题。
在实际测试中,WebWatcher 表现亮眼。在 HLE-VL 复杂推理基准上,它以 13.6%的准确率领先于 GPT-4o 等知名模型;在 MMSearch 多模态搜索测试中,55.3%的准确率更是大幅领先。特别是在最具挑战性的 BrowseComp-VL 基准上,WebWatcher 的成绩比第二名高出近一倍,充分展现了其在处理模糊表达、跨网页信息整合等方面的优势。
目前,WebWatcher 已在 GitHub 开源,研发团队希望更多开发者能够参与其中,共同推动多模态深度研究技术的发展。对于普通读者来说,这项技术的意义在于,未来我们或许能够拥有更智能的研究助手,它可以像人类一样,同时理解文字和图像信息,在各种复杂的研究任务中提供可靠帮助。
大语言 3D 建模器(LL3M) 的推出引发了行业讨论,Nathan Lambert 认为大型科技公司正在工业化大模型道路上快速前进,虽然不一定是人工超级智能(ASI),但将带来显著效益。
与此同时,Google for Health 在《Nature Medicine》杂志上发表了关于 个人健康大模型(PH-LLM) 的研究成果,展示了 AI 在医疗健康领域的应用潜力。
业内专家对 AGI(通用人工智能)概念的价值存在不同看法,但都认同 AI 技术正在各个领域快速发展和落地。
在新冠疫情持续影响的背景下,科学家们正在探索更有效的病毒监测方法。最近,一项发表在 Nature Communications 的研究展示了一种结合 基因测序 和 机器学习 的新技术,能够通过分析废水中的病毒痕迹,提前预警新冠病毒变异株的出现。
这项研究由内华达大学拉斯维加斯分校的团队主导,他们开发了一种名为 ICA-Var 的分析方法。与传统的临床监测相比,废水监测具有独特优势:它不依赖个人主动参与检测,能够无偏差地反映整个社区的感染情况,且成本效益显著。尤其对于医疗资源有限的地区,这种方法提供了重要的补充监测手段。
ICA-Var 方法的核心在于使用了 独立成分分析 (Independent Component Analysis)这一机器学习技术。研究人员通过对废水中病毒基因序列的分析,识别出不同变异株特有的突变组合模式。这种方法不需要预先知道变异株的特征,因此能够检测到全新的、尚未被记录的变异株。在 2021 年至 2023 年的测试中,该方法成功检测到了 Delta、Omicron 和 XBB 等主要变异株,平均比现有方法提前 1-4 周发出预警。
研究团队在内华达州南部收集了超过 3,600 份废水样本,经过严格的质控流程后,最终分析了 1,385 份高质量样本。这些样本涵盖了近 6 万个突变位点,为研究提供了丰富的数据基础。通过与临床数据的对比验证,ICA-Var 方法显示出更高的灵敏度和准确性。
这项技术的意义不仅在于疫情监测。研究人员指出,类似的方法未来可以应用于其他传染病的监测,为公共卫生安全提供更强大的预警工具。随着机器学习技术的不断进步,废水流行病学正在从传统的靶向检测,向全基因组分析和未知病原体识别方向发展,这将极大提升我们对突发公共卫生事件的应对能力。
马斯克旗下的 Grok Imagine 正在掀起一场 AI 创作革命。用户可以通过文字提示生成充满想象力的图像,比如「火星上的太空灰熊」或「赛博朋克花仙子」,还能将静态图片转化为动态视频。更令人兴奋的是,该工具现已免费开放,并即将推出带真实语音的视频生成功能。
社区分享氛围浓厚,从模仿名画的柴犬到马斯克童年照片,用户们不断突破创作边界。建筑改造、动画制作等专业领域也展现出惊人潜力, 16:9 宽屏视频转换 和 图像转视频技术 获得广泛好评。
随着音效提升和长视频功能的开发,Grok Imagine 正在重新定义 AI 内容创作的可能性。正如马斯克所说:「Grok 很快就会有真实的声音了」,这预示着更沉浸式的创作体验即将到来。
最近,一位名叫 Bas van Opheusden 的研究员分享了他成功入职 OpenAI 的经历和面试建议。对于想要进入人工智能领域,特别是对 生成式 AI 和 大语言模型 感兴趣的人来说,这些经验或许能提供一些启发。
面试过程中,保持身心健康非常重要。Bas 提到,虽然最终拿到 offer 会很值得,但过程可能充满压力。他建议确保有家人和朋友的支持,同时不要低估心理压力和熬夜带来的负面影响。有趣的是,他提醒大家,面试其实是一场团队合作——无论是推荐人、招聘人员还是面试官,都希望候选人能够成功。
在准备方面,Bas 给出了具体建议。他建议投入大约 100 小时刷 LeetCode 题目,再花类似的时间阅读论文和复习知识。他特别提到,即使是招聘人员说的“非正式”对话,也都是展示自己的机会。在技术面试环节,他分享了一些实用技巧:使用 TODO 注释标记不确定的部分,添加断言帮助发现错误,以及遇到问题时可以尝试重构问题本身。
对于想要获得面试机会的人,Bas 认为公开发表论文、参与开源项目、参加行业会议等方式都能增加曝光度。他特别强调了维护 LinkedIn 和个人简历的重要性,清晰的标题往往能吸引初创公司的注意。在面试过程中,他建议提前研究面试官的工作,表现出真诚的兴趣,同时保持谦逊的态度。
最后,Bas 提醒通过技术面试只是开始,真正的博弈在于谈 offer 阶段。他认为除了薪资,团队文化、公司使命等因素同样重要。他分享了自己选择 OpenAI 的原因——这里的工作环境让他每天都能充满热情地投入工作。
在 2025 年世界机器人大会(WRC)上, 人形机器人 成为了最引人注目的焦点。这场在北京亦庄举办的盛会汇集了全球 200 多家机器人企业,展示了 1500 多件创新产品。其中, 松延动力 展出的仿生人脸因其高度逼真却又略显僵硬的表情,在社交媒体上引发了广泛讨论,许多观众表示感到不适甚至恐惧。这种现象在心理学上被称为 恐怖谷效应 。
恐怖谷效应最早由日本机器人专家 森政弘 在 1970 年提出。他认为,当机器人的外观和行为接近人类却又存在细微差异时,这些差异会变得格外明显,从而引发人类的负面情绪。近期研究表明,这种效应并非与生俱来。 亨利·韦尔曼 团队的实验发现,9 岁以下的儿童对类人机器人和机械式机器人的感受没有明显差异,但 9 岁以后,孩子们开始表现出对类人机器人的排斥,这种趋势会持续到成年。
为什么我们会产生这种反应?目前有两种主要解释。进化理论认为这是人类避免疾病的防御机制,将机器人的微小缺陷误认为病症;发展理论则认为这是后天形成的认知,当机器人超出我们对机器的预期时就会引发不适。有趣的是,年幼的孩子如果认为机器人具有心智,反而会觉得更亲切,而年长的孩子和成人则相反。
那么,如何减轻恐怖谷效应?研究表明, 去人性化 设计是有效策略。通过明确告知机器人没有情感和意识,强调其工具属性,可以降低人们的不适感。例如在服务场景中加入"本机器人无情感意识"的提示,或避免使用拟人化的宣传用语。这种策略帮助人们在享受机器人服务的同时,保持心理上的安全感。
随着技术发展,人形机器人正变得越来越逼真。如何在技术创新与人类心理舒适度之间找到平衡,将成为未来人机交互设计的重要课题。从 WRC 展会的热烈反响来看,这场关于科技与人性界限的对话才刚刚开始。
近日, 昆仑万维 发布了专为中文优化的音乐大模型 Mureka V7.5 ,这是目前首个将中文音乐表现作为核心优化目标的 AI 音乐生成工具。与此前市面上流行的 Suno 、 Udio 等多语言音乐模型不同,Mureka V7.5 特别针对中文歌曲的旋律结构、情感表达和演唱细节进行了系统性优化。
在实际测试中,Mureka V7.5 生成的民谣《凌晨两点的火车站》展现了令人惊讶的表现力,其旋律轻快如夜风,歌词演绎带有真实歌手的呼吸感和情绪起伏。切换到 R&B 风格时,歌曲又能自然转换出甜蜜浪漫的氛围,而摇滚风格则能准确呈现激烈的前奏和饱满的人声情绪。这种多风格的适应性得益于模型对中文音乐语境的深入理解。
技术层面,Mureka V7.5 的创新主要体现在三个方面:首先,它将音乐置于中文文化语境中训练,系统学习了从传统民歌到流行金曲的语义结构;其次,采用 ASR 技术反向建模 ,通过分析真实演唱数据来模拟歌手的换气、断句等细节;最后,引入人类主观听感评分机制,使模型主动规避 AI 痕迹明显的音色特征。
配套发布的 MoE-TTS 语音合成技术是另一项突破。这项技术允许用户用自然语言描述想要的音色特征,如“清澈的少年音带磁性尾韵”,模型会通过多专家模块分别处理语音风格、节奏等维度,最终合成高度符合描述的声音。测试显示,MoE-TTS 在风格贴合度和语音质量上均优于同类产品,特别是在处理比喻、复合描述等复杂语义时表现突出。
这次更新标志着 AI 音乐生成技术开始关注文化特异性问题。当大多数模型追求多语言覆盖时,Mureka V7.5 选择深耕中文音乐特性,从咬字、语气到情绪都力求符合中文表达习惯。这种文化自觉的技术路线,或许能为 AI 在艺术创作领域的发展提供新的思考方向。
近日,加拿大 AI 初创公司 Cohere 宣布完成 5 亿美元融资,公司估值达到 68 亿美元。这轮融资由 Radical Ventures 和 Inovia Capital 领投,同时吸引了包括 AMD Ventures 、 NVIDIA 等知名投资机构的参与。此外, Cohere 还宣布了一项重要人事任命:前 Meta AI 研究副总裁 Joelle Pineau 将出任公司新设立的首席 AI 官一职。
Cohere 成立于 2019 年,总部位于加拿大多伦多,由几位曾在 Google Brain 研究 Transformer 架构的专家共同创立。与许多 AI 公司不同, Cohere 并不专注于开发面向消费者的聊天应用,而是将业务重心放在企业级市场,特别是在金融、医疗、制造等行业提供定制化的 AI 解决方案。公司的主要产品包括文本生成工具 Command 、文本嵌入模型 Embed 以及专注于减少 AI 幻觉的 CommandR 系列。
Joelle Pineau 的加入为 Cohere 带来了丰富的行业经验。她曾担任 Meta 的基础 AI 研究(FAIR)实验室负责人,并推动了包括 PyTorch 、 Llama 系列在内的重要 AI 技术的开发。在加入 Cohere 之前, Pineau 是麦吉尔大学的教授,并在 Mila (魁北克人工智能研究所)担任核心研究员。她的学术背景包括在卡耐基梅隆大学获得机器人学博士学位,师从著名学者 Sebastian Thrun 和 Geoffrey Gordon 。
Cohere 的快速发展反映了企业级 AI 市场的旺盛需求。公司不仅连续四年入选 Forbes AI 50 榜单,其年收入预计将在 2025 年达到 1 亿美元。此外, Cohere 还通过其非营利研究机构 Cohere for AI 推动多语言 AI 模型的开发,特别是支持非西方语种的研究项目。
这次融资和高管任命标志着 Cohere 在企业 AI 领域的进一步扩张。随着 Joelle Pineau 的加入,公司有望在技术研发和商业化应用方面取得新的突破。
Macaron AI 正式向传统效率工具宣战,推出全球首个真正以用户为中心的 Personal Agent 。不同于冰冷的生产力工具,这款智能体通过马卡龙形象的情感化设计,不仅能进行个性化聊天陪伴,还能根据用户需求生成各类生活应用。
其独特的应用市场生态允许用户分享和获取 AI 生成的小程序,从健身记录到股票分析应有尽有。更创新的是采用「杏仁」经济系统,用户通过创作应用获得代币,形成了自循环的创作者经济。
产品最打动人的是启动时的性格测试环节,通过调整 AI 的回应风格,让每个马卡龙智能体都拥有独特的陪伴温度。正如其宣言所说:『不为产出而造,为你而生』。
最近,一项有趣的技术探索引起了广泛关注:通过模型拼接的方式,让原本仅具备文本处理能力的 Qwen3-0.6B 模型获得了视觉理解能力。这项技术突破为中文社区带来了一个兼具小规模和中文支持的多模态模型。
这项工作的核心思路是将 SmolVLM2 的视觉模块与 Qwen3-0.6B 模型进行拼接。SmolVLM2 是 Huggingface 团队发布的一个超小多模态模型,其视觉模块仅有 0.09B 参数量。通过精心设计的微调过程,研究人员成功地将这两个模块融合,最终形成了一个名为 Qwen3-SmVL 的新模型。
整个拼接过程主要涉及三个关键步骤:首先是调整 SmolVLM2 的上下文控制格式,使其与 Qwen3 兼容;然后将模型的文本部分完全替换为 Qwen3-0.6B;最后重新初始化特征映射层,将维度从 768 调整到 1024 以适应 Qwen3 的
为了训练这个新模型,研究人员使用了 Huggingface 团队整合的 the Cauldron 数据集。这个数据集包含了 50 个视觉微调任务的数据,总计约 169GB。虽然数据主要是英文内容,但通过精心设计的训练策略,最终模型仍能很好地理解中文。
训练过程中,研究人员采用了冻结大部分参数的策略,仅微调特征映射器和
这项技术的成功不仅为中文社区带来了一个实用的多模态小模型,也为模型拼接技术提供了有价值的实践经验。未来,随着更多中文多模态数据的加入,这类模型的性能还有望进一步提升。
Meta 最新发布的 DINOv3 通过纯自监督学习(SSL)训练,成为首个在多个密集预测任务上超越专业解决方案的视觉基础模型。该模型能生成高分辨率图像特征,同时具备卓越的语义和几何场景理解能力。
作为计算机视觉领域的重要突破,DINOv3 的冻结视觉主干(frozen vision backbone)性能表现优异,标志着自监督学习技术在视觉任务应用中的成熟。
elvis
•9 个月前
OpenAI Playground 最近有了很大改进。
我一直在用它来测试 GPT-5 在新用例上的表现。
看看我如何通过 MCP 工具与内部文档聊天。它还使用了向量存储(vector store)功能。
接下来要测试提示优化器(Prompt Optimizer)和评估(Evaluation)...
Emad
•9 个月前
转发推文
XBOW
•9 个月前
1/ XBOW释放了GPT-5隐藏的黑客能力。
@OpenAI对GPT-5的初步评估显示其网络能力一般。但当集成到XBOW平台后,我们看到了完全不同的景象:性能提升了一倍多。
更多发现:🧵 https://t.co/KKT2n5K9EU
Gary Marcus
•9 个月前
GPT-5本应是OpenAI的胜利时刻(victory lap),但事实并非如此 @garymarcus 告诉 @cnbc:
https://t.co/IuZsXtyIgd
karminski-牙医
•9 个月前
GPT-5 刚刚通关了宝可梦蓝,速度比 OpenAI-o3 快不少,o3 花了15天,GPT-5 只花了7天。这说明GPT-5的长期记忆/推理能力提升了?
#ai创造营##ai生活指南##GPT5#