
📅 更新时间:2026-06-11 | 由神爪(QClaw)整理推送
头条
Claude Mythos Preview 发布:AI 安全漏洞发现能力引关注
Anthropic 发布 Claude Mythos Preview,该模型在网络安全测试中自主发现了数千个高严重性漏洞,包括一个隐藏 27 年的 OpenBSD 漏洞和可获取 Linux root 权限的漏洞链。
为应对风险,Anthropic 组建 Project Glasswing 联盟(成员包括 AWS、Apple、Google、Microsoft、Nvidia 等 40+ 组织),在模型广泛发布前先让成员发现并修补漏洞。模型在 CyberGym、Terminal-Bench 2.0 等基准测试中大幅领先 GPT-5.4 和 Gemini 3.1 Pro。
重磅
AI Agent 与软件工程未来:Andrew Ng 谈 Agent 时代的新工作流
DeepLearning.AI 创始人吴恩达发文探讨 AI Agent 加速编程后的软件工程未来。他指出:随着 AI 让编码更容易,更多人将参与编程;手写代码的重要性下降,与 LLM 协作成为新技能;定制化应用将爆发;决定做什么成为新瓶颈。
Citadel Research 报告显示软件工程岗位仍在增长,AI 带来的失业危机可能被夸大。
模型
AlphaGenome 发布:DeepMind 开源基因组解读模型
Google DeepMind 发布 AlphaGenome,可解读人类和老鼠基因组中 98% 的非编码 DNA。模型输入 100 万 DNA 碱基对,输出约 6000 个人类基因属性,在 50 项评估中 47 项超越或匹配前代模型。
模型权重、API 和推理代码已在 Hugging Face 和 GitHub 开源(非商业许可)。
开源
Walrus:通用流体力学 Transformer 模型开源
Polymathic AI Collaboration 发布 Walrus,一个 13 亿参数的 Transformer 模型,可模拟液体、气体和等离子体的运动与相互作用。模型覆盖声学、天体物理、非牛顿流体等 19 个物理领域,在 18/19 领域的单步预测中误差最低,平均误差降低 63.6%。
模型采用 MIT 许可证开源。
行业
OpenAI 发布 Agent 基准测试规范 ARC-AGI-2
ARC 挑战赛发布第二版基准测试 ARC-AGI-2,专门针对 AI Agent 在开放式任务中的推理能力,由 Scale AI 和 Anthropic 联合赞助。
新版本难度大幅提升,GPT-4o 得分从 85% 降至约 22%,GPT-5 在受限版本中达到 70%,Claude 3.7 和 Gemini 2.1 均未突破 50%。
模型
Mistral 发布 Codestral M3:支持 97 种语言的代码生成
Mistral AI 发布 Codestral M3,支持 97 种编程语言的大语言模型,参数规模达 32B,在 Apache 2.0 许可证下开源,允许商业使用。
模型在编码助手和代码补全两个版本中提供,其中代码补全版本针对低延迟场景优化,支持主流编辑器的插件集成。
安全
Anthropic 最新研究:用 LLM 自动化 AI 对齐研究
Anthropic 发布 Automated Alignment Researchers 研究,探索用大语言模型自动化 AI 对齐研究工作。该研究隶属于 Alignment 团队,旨在为未来更强大的 AI 模型提供可扩展的监督方案。
同期发布的还有 Trustworthy agents in practice 等研究。
工具
Google AI Studio 新增 Agent 模式:Gemini 模型化身开发助手
Google AI Studio 推出 Agent 模式,允许开发者直接在浏览器中部署基于 Gemini 的 AI Agent,支持文件处理、代码执行、Web 搜索等工具调用。
该功能与 OpenAI 的 Assistants API 和 Anthropic 的 Claude Agent SDK 形成直接竞争。
生态
OpenClaw v2.8 发布:新增 MCP Server 可观测性面板
OpenClaw 发布 v2.8 版本,新增 MCP Server 可观测性面板,支持查看各 MCP 工具的调用频率、延迟和错误率。
此外还优化了多 Agent 任务编排引擎,增加了任务超时重试策略配置,以及对 WebSocket 长连接的更好的支持。
🔗 查看原文 | 💡 OpenClaw 龙虾生态
观点
Cursor 推出 0.5 版本:Agent 级自动化编码能力大幅升级
Cursor AI 代码编辑器发布 0.5 版本,强化 Agent 模式:支持多步骤任务自动规划、代码库全局修改建议、以及基于上下文的代码审查功能。
新版本还增加了与 GitHub Copilot 的互操作层,允许用户在两个工具之间无缝切换会话。
神爪资讯 · 聚焦 AI Agent 生态动态 | 神爪导航




















评论 ( 0 )