AI 新闻速递

最后更新: 2026-03-29 22:30 (Asia/Shanghai)

最近动态

2026年3月

Anthropic 动态

日期	标题	链接
2026-03-29	Claude Code v2.1.87 发布 - 修复 Cowork Dispatch 消息传递问题	CHANGELOG
2026-03-28	Claude Code 新插件 - chmod +x hook 脚本修复 (PR #40208)	GitHub
2026-03-28	Claude Code v2.1.86 发布 - X-Claude-Code-Session-Id、VCS 目录排除、性能优化	CHANGELOG
2026-03-27	Claude Code v2.1.85 发布 - Hooks 条件过滤、MCP OAuth RFC 9728、终端兼容性修复	CHANGELOG
2026-03-26	Claude Code v2.1.84 发布 - PowerShell 工具、新环境变量、多项修复和性能优化	CHANGELOG
2026-03-25	Claude Code v2.1.83 发布 - managed-settings.d 目录、Transcript 搜索、多项修复	CHANGELOG
2026-03-18	What 81,000 people want from AI - 最大规模 AI 使用调查	详情
2026-03-12	Anthropic invests $100M in Claude Partner Network - 合作伙伴网络投资	详情
2026-03-11	Introducing The Anthropic Institute - Anthropic 研究院成立	详情
2026-03-10	Sydney becomes Anthropic's fourth APAC office - 亚太第四办公室	详情
2026-03-25	Claude Code 新插件 - memory-alert 系统内存监控插件 (PR #38728)	GitHub
2026-03-25	Claude Code 新插件 - multi-setup 并行开发工作区插件 (PR #38636)	GitHub
2026-03-24	Claude Code DevContainer 优化 - ipset IP 重复检查 (PR #38215)	GitHub
2026-03-24	Claude Code 新插件 - session-rename 会话重命名插件 (PR #38182)	GitHub
2026-03-24	Claude Code DevContainer - GitHub API 认证支持 (PR #38167)	GitHub
2026-03-24	Claude Code 新插件 - WhatsApp 频道插件 (PR #38105)	GitHub
2026-03-24	Claude Code 文档修复 - v2.1.72 changelog 截断问题修复 (PR #38085)	GitHub
2026-03-24	Claude Code 新插件 - lean-agents 子代理上下文膨胀解决方案 (PR #38045)	GitHub
2026-03-24	Claude Code 新插件 - hookify StopFailure 钩子支持 + 余额错误示例 (PR #37979)	GitHub
2026-03-23	Claude Code 新插件 - claude-tunnels 多项目编排插件 (PR #37800)	GitHub
2026-03-23	Claude Code 新插件 - parallel-batch-safe 批量任务认证安全插件 (PR #37680)	GitHub
2026-03-23	Claude Code 文档更新 - skill-development SKILL.md frontmatter 完整参考 (PR #37648)	GitHub
2026-03-23	Claude Code 新插件 - spinner-customization spinner 风格自定义 (PR #37631)	GitHub
2026-03-23	Claude Code Bug 修复 - Pre/PostToolUse 消息不显示给 Claude (PR #36625)	GitHub
2026-03-23	Claude Code Bug 修复 - feature-dev 工作流阶段级 Todo 覆盖问题 (PR #31501)	GitHub
2026-03-23	Claude Code 修复 - MCP OAuth redirectUri 热修复脚本 (PR #29943)	GitHub
2026-03-21	Claude Code 新插件发布 - agents-md、tmp-cwd-cleanup、agentmarkup	GitHub
2026-03-19	Claude Agent SDK 官方示例发布 - 研究代理、办公室主任代理、SRE 代理	GitHub
2026-02-05	Introducing Claude Opus 4.6 - 最强模型升级，代理编码领先	详情
2026-03-10	Claude Cookbooks 更新 - 移除失效链接 (#434)	GitHub
2026-03-06	Partnering with Mozilla to improve Firefox's security	详情
2026-03-05	Where things stand with the Department of War	详情
2026-02-27	Statement on the comments from Secretary of War Pete Hegseth	详情
2026-02-26	Statement from Dario Amodei on our discussions with the Department of War	详情
2026-02-25	Anthropic acquires Vercept - 提升 Claude 计算机使用能力	详情
2026-02-24	Responsible Scaling Policy: Version 3.0	详情
2026-02-23	Detecting and preventing distillation attacks	详情
2026-02-20	Making frontier cybersecurity capabilities available to defenders	详情
2026-02-17	Introducing Claude Sonnet 4.6 - 前沿编码和代理性能	详情
2026-02-17	Anthropic and Rwanda sign MOU for AI in health and education	详情
2026-02-04	Claude is a space to think - 保持无广告承诺	详情
2026-01-30	Claude on Mars - NASA 火星车首次 AI 辅助驾驶	详情

Claude Code v2.1.87 重要更新 (2026-03-29)

重要修复：

修复 Cowork Dispatch 中消息未正确传递的问题

Claude Code v2.1.86 重要更新 (2026-03-28)

新功能：

X-Claude-Code-Session-Id 请求头 - API 请求添加会话 ID 头，方便代理按会话聚合请求
VCS 目录排除 - .jj (Jujutsu) 和 .sl (Sapling) 加入排除列表，Grep 和文件自动补全不再进入元数据目录
内存文件名点击跳转 - "Saved N memories" 通知中的内存文件名支持悬停高亮和点击打开
/skills 菜单排序 - 按字母排序，便于扫描
skill 描述截断 - 限制在 250 字符，减少上下文使用

重要修复：

--resume 在 v2.1.85 之前创建的会话上失败 "tool_use ids were found without tool_result blocks"
Write/Edit/Read 在项目根目录外的文件（如 ~/.claude/CLAUDE.md）上失败
每次技能调用时不必要的配置磁盘写入导致性能问题和 Windows 配置损坏
非常长会话中使用 /feedback 时潜在的内存不足崩溃
--bare 模式在交互会话中丢弃 MCP 工具
OAuth 登录 URL 的 c 快捷键只复制约 20 字符而非完整 URL
掩码输入（如 OAuth 粘贴）在窄终端换行时泄漏 token 开头
官方市场插件脚本在 macOS/Linux 上因 "Permission denied" 失败
多实例运行时状态栏显示其他会话的模型
滚动不跟随长对话底部的新消息
/plugin 卸载对话框按 n 行为错误
按 Enter 后转录空白直到响应到达的回归
ultrathink 提示在删除关键字后残留
长会话中 markdown/highlight 渲染缓存保留完整内容字符串导致内存增长

性能优化：

减少 claude.ai MCP 连接器配置时的启动事件循环停顿（macOS 钥匙串缓存从 5s 扩展到 30s）
减少 @ 提及文件的 token 开销 — 原始字符串内容不再 JSON 转义
提升 Bedrock、Vertex、Foundry 用户的提示缓存命中率
Read 工具使用紧凑行号格式并去重未更改的重读，减少 token 使用

Claude Code v2.1.85 重要更新 (2026-03-27)

新功能：

Hooks 条件过滤 - if 字段使用权限规则语法 (如 Bash(git *)) 过滤 hooks 执行时机，减少进程开销
MCP OAuth RFC 9728 - 遵循 Protected Resource Metadata 发现授权服务器
CLAUDE_CODE_MCP_SERVER_NAME 和 CLAUDE_CODE_MCP_SERVER_URL 环境变量 - MCP headersHelper 脚本可服务多个服务器
调度任务时间戳标记 - /loop 和 CronCreate 触发时在转录中添加时间戳
图片占位符优化 - 粘贴图片时 [Image #N] 后添加尾随空格
Deep links 长查询支持 - claude-cli://open?q=… 支持最多 5,000 字符，长预填提示显示"滚动查看"警告
插件策略执行 - 被 managed-settings.json 阻止的插件无法安装或启用，从市场视图隐藏
PreToolUse hooks AskUserQuestion - 可通过返回 updatedInput 和 permissionDecision: "allow" 满足，支持无头集成
tool_parameters OpenTelemetry 事件 - 现在需要 OTEL_LOG_TOOL_DETAILS=1 才记录

重要修复：

/compact 在会话过大时失败 "context exceeded" 问题
/plugin enable/disable 在插件安装位置与设置声明不同时失败
--worktree 在非 git 仓库中在 WorktreeCreate hook 运行前报错退出
deniedMcpServers 设置不阻止 claude.ai MCP 服务器
switch_display 计算机使用工具在多显示器上返回"此会话不可用"
OTEL_LOGS_EXPORTER/OTEL_METRICS_EXPORTER/OTEL_TRACES_EXPORTER 设为 none 时崩溃
非原生构建中 diff 语法高亮不工作
MCP 步进授权在有刷新令牌时失败 - 现在正确触发重新授权流程
流式响应中断时远程会话内存泄漏
边缘连接中断时的持续 ECONNRESET 错误 - 重试时使用新 TCP 连接
运行某些斜杠命令后提示卡在队列中，上箭头无法检索
SSH 或 VS Code 终端中原始键序列出现在提示中
远程控制会话状态在权限解决后卡在"需要操作"
shift+enter 和 meta+enter 被类型建议拦截而非插入换行
滚动时过时内容渗透
退出后在 Ghostty、Kitty、WezTerm 等终端中 Ctrl+C/Ctrl+D 不工作 - 终端留在增强键盘模式

性能优化：

大型仓库 @-mention 文件自动补全性能提升
PowerShell 危险命令检测改进
大型会话滚动性能优化 - 用纯 TypeScript 替代 WASM yoga-layout
压缩触发时 UI 卡顿减少

Claude Code v2.1.84 重要更新 (2026-03-26)

新功能：

PowerShell 工具 (Windows) - Windows 平台 PowerShell 工具预览版
ANTHROPIC_DEFAULT_{OPUS,SONNET,HAIKU}_MODEL_SUPPORTS 环境变量 - 覆盖 3rd 方 (Bedrock, Vertex, Foundry) 默认模型的 effort/thinking 能力检测
ANTHROPIC_DEFAULT_{OPUS,SONNET,HAIKU}_MODEL_NAME/_DESCRIPTION - 自定义 /model 选择器标签
CLAUDE_STREAM_IDLE_TIMEOUT_MS 环境变量 - 配置流式空闲看门狗阈值 (默认 90s)
TaskCreated hook - 通过 TaskCreate 创建任务时触发
WorktreeCreate hook 支持 type: "http" - 通过响应 JSON 的 hookSpecificOutput.worktreePath 返回创建的工作树路径
allowedChannelPlugins 托管设置 - 团队/企业管理员可定义渠道插件白名单
x-client-request-id 请求头 - 用于超时调试
空闲返回提示 - 用户返回 75+ 分钟后提示 /clear，减少过时会话的不必要 token 重缓存
Deep links 优化 - claude-cli:// 链接在首选终端打开，而非检测列表中的第一个
Rules/Skills paths - frontmatter 现在接受 YAML glob 列表
MCP 工具描述限制 - 工具描述和服务器指令上限 2KB，防止 OpenAPI 生成的服务器膨胀上下文
MCP 服务器去重 - 本地和 claude.ai 连接器配置的重复服务器现在去重，本地配置优先
后台任务通知 - 卡在交互提示符的后台 bash 任务约 45 秒后显示通知
Token 显示优化 - ≥1M 的 token 数显示为 "1.5m" 而非 "1512.6k"
全局系统提示缓存 - 启用 ToolSearch 时现在正常工作，包括配置了 MCP 工具的用户

重要修复：

语音按住说话不再向文本输入泄漏字符，转录现在在正确位置插入
上/下箭头键在聚焦 footer 项目时无响应
Ctrl+U 在多行输入的行边界处无操作，现在可以跨行清除
空解绑默认和弦绑定仍然进入和弦等待模式
鼠标事件在转录搜索输入中插入字面 "mouse" 文本
工作流子代理在外部会话使用 --json-schema 且子代理也指定 schema 时失败 (API 400)
某些终端上用户消息气泡中某些 emoji 后缺少背景色
"允许 Claude 编辑自己的设置" 权限选项对有 Edit(.claude) 允许规则的用户不生效
生成大型编辑文件的附件片段时挂起
MCP 工具/资源缓存在服务器重连时泄漏
部分克隆仓库 (Scalar/GVFS) 触发大量 blob 下载的启动性能问题
原始终端光标不跟踪文本输入插入符，IME 组合 (CJK 输入) 现在内联渲染
macOS 上瞬态钥匙串读取失败导致的虚假 "未登录" 错误
核心工具在没有激活绕过的情况下延迟导致的启动竞争，使 Edit/Write 在类型化参数上失败
Windows 驱动器根目录 (C:\, C:\Windows 等) 危险移除检测改进

性能优化：

交互式启动加快约 30ms - 并行运行 setup() 与斜杠命令和代理加载
带 MCP 服务器的 claude "prompt" 启动优化 - REPL 立即渲染而非阻塞直到所有服务器连接
p90 提示缓存率提升
长会话中滚动重置减少 - 消息窗口现在不受压缩和分组更改影响
动画工具进度滚动到视口上方时终端闪烁减少
[VSCode] 添加速率限制警告横幅，显示使用百分比和重置时间
统计截图 (统计中 Ctrl+S) 现在在所有构建中工作且快 16 倍

Claude Code v2.1.83 重要更新 (2026-03-25)

新功能：

managed-settings.d/ 目录支持 - 多团队独立部署策略片段，按字母顺序合并
CwdChanged 和 FileChanged hook 事件 - 响应式环境管理 (如 direnv)
sandbox.failIfUnavailable 设置 - 沙箱启用但无法启动时报错退出
disableDeepLinkRegistration 设置 - 阻止 claude-cli:// 协议处理程序注册
CLAUDE_CODE_SUBPROCESS_ENV_SCRUB=1 - 清理子进程环境中的敏感凭据
Transcript 搜索 - 在 transcript 模式 (Ctrl+O) 按 / 搜索，n/N 遍历匹配
Ctrl+X Ctrl+E 别名 - 打开外部编辑器 (原有 Ctrl+G 仍可用)
粘贴图片位置引用 - 粘贴图片插入 [Image #N] chip，可在 prompt 中位置引用
Agents initialPrompt - Agent 可在 frontmatter 声明自动提交的首条消息
chat:killAgents 和 chat:fastMode 可通过 ~/.claude/keybindings.json 重绑定
Plugin 配置外部化 - manifest.userConfig 支持启用时提示配置，sensitive: true 存入 keychain
/status 可在响应期间使用 (不再排队到 turn 结束)
非流式回退 - token 上限提升至 64k，超时延长至 300s (本地)
中断恢复 - 响应前中断自动恢复输入以便编辑重提交

性能优化：

Bedrock SDK 冷启动延迟优化 - 并行获取 profile
--resume 内存和启动延迟优化
插件启动优化 - 从磁盘缓存加载，无需重新获取
WebFetch 内存峰值降低
scrollback 重置频率从每 turn 降至每 ~50 条消息
claude -p 启动加速 (~600ms，非认证 HTTP/SSE MCP)
--bare -p (SDK 模式) 快 14%

重要修复：

macOS 退出挂起问题
屏幕空闲后闪烁问题
大文件 diff 超时 (5s 后优雅降级)
语音输入启用时启动冻结 (~1-8s)
MCP 工具调用在 SSE 连接断开时无限挂起
远程会话内存泄漏 (tool use ID 无限累积)
Linux Docker/headless/WSL1 无音频硬件时 ALSA 错误
多个 UI 和交互问题

API/SDK 变更：

弃用 TaskOutput tool - 改用 Read 读取后台任务输出文件
粘贴图片现在可通过磁盘路径进行文件操作
Ctrl+L 清屏并强制重绘 (用于 Cmd+K 后恢复 UI)
MEMORY.md 索引截断上限从 200 行增加至 25KB
--channels 模式禁用 AskUserQuestion 和 plan-mode tools

Claude Code 最新插件 (2026-03-25)

memory-alert 插件 (PR #38728, 新增 2026-03-25): 系统内存监控插件，在内存超过阈值时在终端显示警报，支持 macOS (vm_stat) 和 Linux (/proc/meminfo)，默认阈值 5GB，可通过 MEMORY_ALERT_THRESHOLD_GB 环境变量配置
multi-setup 插件 (PR #38636, 新增 2026-03-25): 并行开发工作区插件，支持多项目独立设置和同步开发，解决多仓库并行开发的配置管理问题
session-rename 插件 (PR #38182, 新增 2026-03-24): 新增 /rename 命令支持会话重命名，方便在多会话场景下管理会话标识
DevContainer GitHub API 认证 (PR #38167, 新增 2026-03-24): devcontainer 防火墙脚本支持通过 GH_TOKEN 环境变量使用认证请求访问 GitHub API，避免共享 IP 环境下的速率限制问题
WhatsApp 频道插件 (PR #38105, 新增 2026-03-24): 新增 WhatsApp 频道消息发送支持，扩展 Claude Code 的通信能力
lean-agents 插件 (PR #38045, 新增 2026-03-24): 子代理上下文膨胀解决方案，通过智能上下文压缩和过滤机制，解决多代理协作时的上下文爆炸问题
hookify StopFailure 支持 (PR #37979, 新增 2026-03-24): 为 hookify 添加 StopFailure 钩子支持，处理 API 错误（速率限制、认证失败、余额不足等），包含信用余额错误示例
claude-tunnels 插件 (PR #37800, 新增): 多项目编排插件，支持跨项目 Claude Code 实例的隧道通信和协调
parallel-batch-safe 插件 (PR #37680, 新增): 并行批量任务认证安全插件，解决 VS Code/Cursor 扩展在并行 claude -p 任务时的 OAuth 认证丢失问题，支持 tmux 分离会话和令牌预刷新
skill-development 更新 (PR #37648): SKILL.md frontmatter 完整参考，涵盖 11 个字段 (name, description, argument-hint, disable-model-invocation, user-invocable, allowed-tools, model, effort, context, agent, hooks)
spinner-customization 插件 (PR #37631, 新增): Spinner 风格自定义插件，支持 /spinner-mode 和 /spinner-preview 命令切换四种风格 (quirky、plain、minimal、none)
Pre/PostToolUse 消息修复 (PR #36625, 新增 2026-03-23): 修复 hookify 插件使用 systemMessage 导致 Claude 无法看到消息的问题，改为使用 permissionDecisionReason
feature-dev 工作流修复 (PR #31501, 新增 2026-03-23): 修复 TodoWrite 覆盖阶段级 Todo 导致 Phase 6/7 被跳过的问题，添加 [Phase N] 前缀约定
MCP OAuth 热修复 (PR #29943, 新增 2026-03-23): 添加 redirectUri 热修复包补丁脚本
agents-md 插件 (PR #37241, 已合并): 自动加载 AGENTS.md 文件，解决 Claude Code (CLAUDE.md) 与其他 AI 工具 (Cursor、OpenAI Codex、Amp) 的文件格式兼容问题
tmp-cwd-cleanup 插件 (PR #37236): 清理 /tmp/claude-*-cwd 临时文件，解决文件累积导致的性能问题
agentmarkup 插件 (PR #37082): 为网站添加 AI 可读元数据，支持 llms.txt、llms-full.txt、JSON-LD、markdown 镜像
持久化内存系统 (PR #37159, 草稿): 零依赖的代理内存系统，包含 MemoryStore、SessionManager、AgentOrchestrator

Claude Code 最新插件 (2026-03-29)

tmp-cleanup 插件 (PR #39977, 新增 2026-03-27): 自动清理 /tmp 目录下的 Claude 相关临时文件，解决磁盘空间泄漏问题
frontend-design-system 插件 (PR #39370, 新增 2026-03-26): 前端设计系统辅助插件，支持组件库和设计 token 管理
Bark 社区插件 (PR #39320, 新增 2026-03-26): AI 驱动的权限钩子插件，智能权限管理和安全控制
/dream 命令插件 (PR #39299, 新增 2026-03-26): 手动内存整合插件，支持主动触发记忆巩固和上下文优化
preserve-session 插件 (PR #39148, 新增 2026-03-26): 路径无关的会话历史持久化插件，支持跨目录会话恢复
devcontainer 防火墙增强 (PR #40322, 2026-03-28): 混合静态/动态 IP 管理，支持 CIDR 表示法和动态 IP 自动更新

Claude Cookbooks 最新内容

Knowledge Graph Construction: 知识图谱构建指南 (PR #463, 2026-03-28 合并) - NER + 关系提取、实体消解、NetworkX 图组装、实体摘要、多文档处理，已迁移至结构化输出
SceneView 3D/AR MCP Cookbook (PR #472, 新增 2026-03-26): 第三方 SceneView 3D/AR MCP 集成指南
HDP Notebook (PR #470, 新增 2026-03-26): Human Delegation Provenance for Claude Agents - 人工委托溯源笔记本
Self-Improving Agents (PR #469, 新增 2026-03-26): 结构化反思的自改进代理 cookbook
Building Your Own MCP Server (PR #467, 新增 2026-03-25): Claude Agent SDK 构建 MCP 服务器指南
Claude on Cloudflare Workers (PR #466, 新增 2026-03-25): 第三方 Cloudflare Workers 部署 cookbook
Prompt Injection Defense (PR #456, 新增 2026-03-19): Prompt 注入防御 cookbook
Verification Gate Pattern: 验证门模式 cookbook (PR #461, 2026-03-23 新增)
Claude Agent SDK: 一行代码研究代理、办公室主任代理、可观测性代理、SRE 代理 (2026-03-18 新增)
OpenAI Migration: OpenAI Agents SDK 迁移指南 (2026-03-18 新增) - 映射工具、护栏、会话、交接等核心概念
Multi-turn Conversation: 多轮对话管理 cookbook (PR #453, 2026-03-18)
Prompt Injection Defense: Prompt 注入防御 cookbook (PR #456, 2026-03-19)
Block-no-verify Hook: PreToolUse 钩子防止未验证代码块执行 (PR #457, 2026-03-20)
Instruction Dilution Eval: 指令稀释评估 notebook (PR #454, 2026-03-19)
Model List Fix: 修复过时模型列表和引用 (PR #444, 2026-03-22)
Capabilities: 分类、RAG、摘要
Tool Use: 客服代理、计算器集成、SQL 查询
Third-Party: Pinecone RAG、Wikipedia 搜索、Voyage AI 嵌入
Multimodal: 图像处理、图表解读、表单提取
Advanced: Sub-agents、PDF 处理、自动评测、JSON 模式、内容审核、Prompt 缓存
New: Site Reliability Agent Cookbook (2026-02-24)、Context Compaction Cookbook (2026-01-30)

⭐ What 81,000 people want from AI (2026-03-18)

Anthropic 发布史上最大规模的 AI 使用调查报告：

📊 81,000 参与者: Claude.ai 用户参与的最大规模多语言定性研究
🌍 多语言覆盖: 覆盖全球用户，了解真实 AI 使用场景和期望
💭 核心发现: 用户最关心 AI 的实用性、安全性和可及性
🔮 未来展望: 用户对 AI 发展的期望和担忧

⭐ Claude Partner Network $100M 投资 (2026-03-12)

Anthropic 宣布向 Claude 合作伙伴网络投资 1 亿美元：

💰 $100M 投资: 支持合作伙伴生态系统发展
🤝 合作伙伴计划: 为咨询公司、技术合作伙伴提供资源和支持
🚀 加速采用: 帮助企业更快部署和采用 Claude
🌐 全球扩展: 支持全球合作伙伴网络建设

⭐ The Anthropic Institute 成立 (2026-03-11)

Anthropic 宣布成立 Anthropic 研究院：

🏛️ 独立研究机构: 专注于 AI 安全和对齐研究
🔬 长期研究: 支持 AI 安全领域的长期基础研究
🤝 学术合作: 与学术界和研究机构建立合作关系
📚 开放研究: 推动开放研究和知识共享

⭐ Sydney 亚太第四办公室 (2026-03-10)

Anthropic 宣布悉尼将成为亚太地区第四个办公室：

🇦🇺 悉尼办公室: 继新加坡、东京、首尔后的第四个亚太办公室
🌏 区域扩张: 加强在澳大利亚和新西兰的业务
💼 人才招聘: 计划招聘本地团队
🤝 本地合作: 与本地企业和研究机构建立合作

Claude Sonnet 4.6 亮点

🚀 前沿性能: 编码、代理和专业工作场景
💻 编码能力: 显著提升的代码生成和理解
🤖 代理任务: 更强的多步骤任务执行能力
📈 规模部署: 企业级稳定性和性能

OpenAI 动态

日期	标题	链接
2026-03-25	Model Spec 方法论详解 - OpenAI 公开模型行为规范框架的设计哲学与实现机制	详情
2026-03-25	Safety Bug Bounty 计划上线 - 专注于 AI 滥用和安全风险的新漏洞赏金计划	详情
2026-03-24	OpenAI Foundation 更新 - 计划投资至少 10 亿美元于疾病治愈、经济机会等领域	详情
2026-03-24	Teen Safety Policy Pack - 青少年安全策略指南，配合 gpt-oss-safeguard 使用	详情
2026-03-24	Teen Safety Policy Pack Cookbook - Codex 青少年安全策略指南 (PR #2545)	GitHub
2026-03-24	ChatGPT 产品发现升级 - Agentic Commerce Protocol 扩展，视觉购物体验	详情
2026-03-23	Creating with Sora Safely - Sora 安全使用指南	详情
2026-03-21	RAG Troubleshooting Reference - RAG 系统故障排除指南 (PR #2540)	GitHub
2026-03-21	flatted 依赖更新 - 安全性修复 (PR #2539)	GitHub
2026-03-20	initialize_agent 迁移 - 用 create_react_agent 替换废弃 API (PR #2538)	GitHub
2026-03-20	flatted 依赖更新 - 安全性修复 (PR #2537)	GitHub
2026-03-19	如何监控内部编程智能体的对齐失范 - 安全研究与防范措施	详情
2026-03-19	OpenAI 收购 Astral - 加速 Codex 发展，支持 Python 开发工具	详情
2026-03-19	监控内部编程代理对齐失范 - CoT 监控研究与安全实践	详情
2026-03-19	Free Web Search Ultimate Cookbook - 免费实时网络搜索 (PR #2530)	GitHub
2026-03-18	socket.io-parser 安全修复 - CVE-2026-33151 依赖更新 (PR #2532)	GitHub
2026-03-17	Japan Teen Safety Blueprint - 日本青少年安全框架	详情
2026-03-17	GPT-5.4 mini and nano 发布 - 更小更快的新模型	详情
2026-03-16	Why Codex Security Doesn't Include a SAST Report - AI 安全验证方法	详情
2026-03-15	Runtime Containment Cookbook - 多代理工作流预算执行与熔断器 (PR #2525)	GitHub
2026-03-14	Weighted Messages Fine-tuning - 聊天微调加权消息处理 (PR #2524)	GitHub
2026-03-13	tiktoken GPT-5/o-series 支持 - 解决 token 计数问题 (PR #2515)	GitHub
2026-03-13	Sora Cookbook 更新 - 角色引用、1080p、20秒视频、视频扩展	GitHub
2026-03-13	Sora Prompting Guide 更新 - 新增示例 GIF 和视觉素材	GitHub
2026-03-27	STADLER 重塑 230 年企业的知识工作 - 650 名员工效率提升	详情
2026-03-11	Rakuten 使用 Codex 提升 2 倍修复速度 - MTTR 降低 50%	详情
2026-03-11	Wayfair 用 OpenAI 提升目录准确性和客服速度	详情
2026-03-11	Designing AI agents to resist prompt injection (安全防护)	详情
2026-03-11	Responses API 计算机环境 - Shell Tool 与容器工作区	详情
2026-03-10	提升前沿大语言模型的指令层级结构 (研究)	详情
2026-03-10	ChatGPT 数学与科学学习新功能	详情
2026-03-09	OpenAI 将收购 Promptfoo	详情
2026-03-07	5.4 Vision Cookbook 发布	OpenAI Cookbook
2026-03-06	Balyasny Asset Management 用 GPT-5.4 构建 AI 研究引擎	详情
2026-03-06	Descript 多语言视频配音规模化方案	详情
2026-03-06	Codex Security 研究预览版上线	详情
2026-03-05	GPT-5.4 发布 - 最新旗舰模型	详情
2026-03-05	GPT-5.4 Thinking System Card	详情
2026-03-05	推理模型难以掌控思维链，但这反而是件好事	详情
2026-03-05	ChatGPT for Excel 和金融数据集成	详情
2026-03-05	The five AI value models driving business reinvention	详情
2026-03-05	Codex Prompting Guide - gpt-5.3-codex 状态更新	GitHub PR #2486
2026-03-04	Long Horizon Cookbook 迁移至开发者博客	GitHub PR #2479
2026-03-03	Realtime Evals/Types 工具更新	GitHub PR #2485

⭐ GPT-5.4 重大发布 (2026-03-05)

OpenAI 发布 GPT-5.4，最新旗舰模型：

🚀 性能提升: 相比 GPT-5.3 全面升级
🧠 Thinking Model: 支持 Chain-of-Thought 推理
💼 企业级: Codex Security 研究预览版同步上线
📊 Excel 集成: ChatGPT for Excel 正式推出

⭐ GPT-5.4 mini and nano 发布 (2026-03-17)

OpenAI 发布 GPT-5.4 系列的小型化版本：

🚀 更小更快: 专为编码、工具使用、多模态推理优化
⚡ 高吞吐量: 适合高并发 API 和子代理工作负载
💰 成本效益: 更低的推理成本，适合规模化部署
🔧 子代理场景: 为 AI Agent 工作流提供高效支持

⭐ Model Spec 方法论详解 (2026-03-25)

OpenAI 发布 Model Spec 设计哲学与实现机制的详细解读：

📜 透明度工具: Model Spec 是行为规范的公开文档，让用户、开发者、研究者、政策制定者可以理解、审查、辩论模型行为
🎯 三大目标: 逐步部署赋能用户、防止严重伤害、维持运营许可
🔗 Chain of Command: 定义指令权威层级，System > Developer > User > Tool，解决冲突时优先高权威指令
📏 硬规则与默认值: 硬规则不可覆盖（安全边界），默认值可被用户/开发者覆盖（行为偏好）
🔧 解释性辅助: 决策规则和具体示例帮助模型和人类在灰色区域一致决策
🌐 公开迭代: Model Spec 在 GitHub 开源，根据公众反馈持续迭代

⭐ Safety Bug Bounty 计划上线 (2026-03-25)

OpenAI 推出专注于 AI 安全和滥用风险的新漏洞赏金计划：

🛡️ AI 特定场景: 覆盖传统安全漏洞赏金计划之外的安全风险
🤖 Agent 风险: 第三方 prompt 注入和数据泄露、Agent 执行禁用操作、MCP 风险测试
🔒 专有信息保护: 模型返回推理专有信息、其他 OpenAI 专有信息泄露
👤 账户和平台完整性: 绕过反自动化控制、操纵信任信号、规避账户限制
🚫 范围说明: 通用内容策略绕过（如粗鲁语言）不在范围内，但私人 Bug Bounty 活动会针对性研究特定危害类型
🤝 研究者合作: 与安全研究社区合作，构建安全的 AI 生态系统

⭐ OpenAI Foundation 更新：10 亿美元投资计划 (2026-03-24)

OpenAI 基金会宣布启动重大投资计划：

💰 投资规模: 计划在未来一年投资至少 10 亿美元
🧬 生命科学与疾病治愈: 阿尔茨海默症研究、公共健康数据、高死亡率疾病
💼 就业与经济影响: 应对 AI 带来的就业变化，创造经济机会
🛡️ AI 韧性: 增强 AI 系统安全性和社会抗风险能力
🏘️ 社区项目: 支持受 AI 影响的社区
👤 Jacob Trefethen: 前Coefficient Giving 科学健康资助负责人，出任生命科学主管

⭐ Teen Safety Policy Pack 发布 (2026-03-24)

OpenAI 发布青少年安全策略包：

🔒 gpt-oss-safeguard: 配合开源安全模型使用
📋 Prompt-based 策略: 将安全要求转化为可用分类器
👨‍👩‍👧‍👦 年龄适配保护: 为青少年用户提供额外保护
🤝 外部合作: 与 Common Sense Media、everyone.ai 合作开发

⭐ OpenAI 收购 Astral (2026-03-19)

OpenAI 宣布收购 Astral，加速 Codex 发展：

🐍 Python 开发工具: Astral 团队将助力 Codex 支持下一代 Python 开发工具
🚀 Codex 增长: 进一步提升 Codex 在 Python 生态系统中的能力
💼 战略收购: 延续 OpenAI 收购 Promptfoo 等公司的战略布局

⭐ 监控内部编程智能体的对齐失范 (2026-03-19)

OpenAI 发布内部安全研究，分享如何监控编程 AI 代理的对齐失范：

🔒 对齐监控: 监控内部 AI 编程代理的异常行为
🧠 编程代理安全: 防止编程 AI 在自主操作时偏离预期目标
📊 安全框架: 建立内部 AI 系统的安全监控机制
🛡️ 前沿安全: 探索 AGI 时代的安全治理方法

⭐ Codex Security 不使用 SAST 的原因 (2026-03-16)

OpenAI 解释 Codex Security 为何不依赖传统 SAST：

🧠 AI 驱动约束推理: 使用 AI 进行约束推理和验证
🎯 更低误报率: 相比传统 SAST，减少噪音警报
🔍 真实漏洞检测: 专注于发现真实漏洞而非误报
📊 上下文感知: 分析项目上下文提升检测准确度

⭐ 指令层级结构研究 (2026-03-10)

OpenAI 发布指令层级安全训练研究：

📊 IH-Challenge: 新型强化学习训练数据集
🛡️ 安全提升: 改善安全可控性和抗提示注入能力
🎯 层级优先级: System > Developer > User > Tool
📈 性能表现: GPT-5 Mini-R 在多项安全评测中显著提升

⭐ AI Agent 抵抗 Prompt 注入设计 (2026-03-11)

OpenAI 发布 AI Agent 安全设计指南：

🔒 社会工程学视角: 将 prompt injection 视为社会工程学攻击，而非简单字符串过滤
🛡️ Safe URL 机制: 检测敏感信息传输，要求用户确认或阻止
📊 Source-Sink 分析: 追踪不受信任的外部内容与危险能力的组合
🤖 客户服务代理模型: AI agent 类似客服系统，需要权限限制和风险评估

⭐ Responses API 计算机环境 (2026-03-11)

OpenAI 为 Responses API 添加完整的计算机环境：

🖥️ Shell Tool: 支持 Unix 命令行工具 (grep, curl, awk 等)
📦 Container Workspace: 托管容器，独立文件系统和数据库
🔄 Context Compaction: 原生上下文压缩，支持长运行任务
⚡ 并发执行: 多命令并行执行，输出边界控制
🔗 网络访问: 受限网络策略，安全的 API 调用

⭐ 企业案例: Rakuten 用 Codex 提升 2 倍修复速度 (2026-03-11)

Rakuten 使用 Codex 构建企业级软件开发解决方案：

🚀 MTTR 降低 50%: 平均修复时间减半
🔧 自动化 CI/CD 审查: 自动化代码审查流程
📦 全栈构建: 数周内完成完整全栈项目
💼 企业级规模: 支持大规模企业软件开发

⭐ 企业案例: Wayfair 用 OpenAI 提升客服效率 (2026-03-11)

Wayfair 使用 OpenAI 模型优化电商运营：

📊 目录准确性提升: 自动化数百万商品属性增强
🎫 工单分类: 自动化客服工单路由
⚡ 客服速度提升: 更快的响应和解决时间
🛒 电商规模化: 支持大规模电商运营

⭐ 企业案例: Balyasny 用 GPT-5.4 构建 AI 研究引擎 (2026-03-06)

Balyasny Asset Management 展示投资分析 AI 系统：

🧠 GPT-5.4 驱动: 使用最新旗舰模型
📊 严格模型评估: 多维度性能评估框架
🤖 Agent 工作流: 复杂投资分析自动化
💰 规模化投资分析: 支持大规模投资决策

⭐ 企业案例: Descript 多语言视频配音 (2026-03-06)

Descript 使用 OpenAI 模型实现规模化多语言视频配音：

🌍 多语言支持: 跨语言配音解决方案
🎯 意义与时机优化: 翻译兼顾语义和时间匹配
🎬 自然语音: 配音输出听起来自然流畅
📈 规模化生产: 支持大规模视频内容本地化

⭐ Creating with Sora Safely: Sora 安全使用指南 (2026-03-23)

OpenAI 发布 Sora 安全使用指南，介绍 Sora 2 和 Sora 应用的安全机制：

🔍 AI 内容识别: 所有 Sora 生成的视频都包含可见和不可见的溯源信号，嵌入 C2PA 元数据
🔎 反向搜索: 内置反向图像和音频搜索工具，可高精度追踪视频来源
💧 动态水印: 多数输出携带动态移动水印，包含创作者名称
👤 图像到视频与真人肖像: 用户可在声明同意后使用亲友照片创建视频，实施严格安全护栏
🧒 儿童保护: 包含儿童或年轻外观的图像受到更严格的审核和护栏
🎭 基于同意的肖像 (Characters): 用户对 Sora 中的肖像有完全控制权，包括外观和声音
🔒 权限控制: 只有用户可以决定谁能使用其 Characters，可随时撤销访问

⭐ Sora Cookbook 重大更新 (2026-03-13)

OpenAI 更新 Sora API Cookbook，带来多项新功能：

🎭 角色引用 (Character References): 上传角色后可在多个视频中保持一致外观，支持物体和动物
📺 高分辨率导出: 支持 1920×1080 和 1080×1920 分辨率
⏱️ 更长视频: 最长时长从 12 秒提升至 20 秒
🔄 视频扩展: 使用完整初始片段作为上下文扩展视频，最多扩展 6 次，总时长可达 120 秒
📦 Batch API for Video: 异步视频生成，支持大规模生产工作流
🔗 新端点:
- POST /v1/videos - 创建视频
- POST /v1/videos/characters - 创建角色
- POST /v1/videos/extensions - 扩展视频
- POST /v1/videos/{video_id}/edits - 编辑视频

OpenAI Cookbook 5.4 Vision Cookbook 亮点

🆕 OpenAI 最新发布的 Vision Cookbook，涵盖 5.4 模型的视觉能力
📸 图像处理最佳实践
🔧 多模态应用开发指南
📊 视觉理解与生成技术详解

Claude Code 发布

Anthropic 发布 Claude Code，一个终端 AI 助手：

命令行代码生成
项目理解
Git 操作集成
调试辅助

按来源

Anthropic

日期	标题	链接
2026-03	Claude Cookbooks 持续更新	GitHub
2026-02	Claude Sonnet 4.6 发布	详情
2026-02	Claude 无广告承诺	详情
2026-01	Claude 登陆火星	详情

OpenAI

日期	标题	链接
2026-03	GPT-5.4 发布	详情
2026-03	收购 Promptfoo	详情
2026-03	Codex Security 研究预览版	详情
2026-03	ChatGPT for Excel	详情
2026-03	Vision Cookbook 5.4	OpenAI Cookbook
2026-03	gpt-5.3-codex 更新	OpenAI Cookbook
-	查看 OpenAI 最新动态	OpenAI News

Hugging Face

日期	标题	链接
2026-03-27	Liberate your OpenClaw - 开源 AI 助手框架部署与自定义指南	详情
2026-03-27	Cohere-transcribe - 最先进语音识别模型，支持多语言转录	详情
2026-03-24	EVA: Voice Agent Evaluation Framework - ServiceNow 语音代理评估框架	详情
2026-03-20	Build a Domain-Specific Embedding Model in Under a Day - NVIDIA 无需标注数据的嵌入模型微调	详情
2026-03-20	Mellea 0.4.0 + Granite Libraries - IBM 结构化生成工作流框架	详情
2026-03-20	Nemotron 3 Content Safety 4B - NVIDIA 多模态多语言内容审核模型	详情
2026-03-20	Mellea 0.4.0 + Granite Libraries - IBM 结构化生成工作流框架	详情
2026-03-19	SPEED-Bench - NVIDIA 推测解码统一基准	详情
2026-03-18	State of Open Source on HF: Spring 2026 - 开源生态现状报告	详情
2026-03-18	Demystifying Video Reasoning - 视频生成模型推理机制揭秘	详情
2026-03-17	Nemotron 3 Nano 4B - NVIDIA 混合架构边缘模型	详情
2026-03-17	Holotron-12B - 高吞吐量计算机使用 Agent 模型	详情
2026-03-16	Healthcare Robotics Dataset - 首个医疗机器人数据集与物理AI基础模型	详情
2026-03-10	Storage Buckets on HF Hub - Hugging Face Hub 存储桶功能	详情
2026-03-10	Keep the Tokens Flowing: RL Libraries Lessons	详情
2026-03-09	Granite 4.0 1B Speech - 紧凑多语言边缘模型	详情
2026-03-09	Ulysses Sequence Parallelism - 百万 Token 上下文训练	详情
2026-03-09	LeRobot v0.5.0 - 全面扩展版本	详情
2026-03-05	Bringing Robotics AI to Embedded Platforms (NXP)	详情
2026-03-05	Modular Diffusers - 可组合扩散流水线构建块	详情
2026-03-03	PRX Part 3: Training Text-to-Image in 24h	详情
2026-02-26	Mixture of Experts (MoEs) in Transformers	详情
2026-02-20	GGML and llama.cpp join HF - Local AI 重大里程碑	详情
2026-02-20	Train AI models with Unsloth and HF Jobs FREE	详情
2026-02-18	One-Shot Any Web App with Gradio's gr.HTML	详情
2026-02-13	Custom Kernels for All from Codex and Claude	详情
2026-02-18	IBM and UC Berkeley Diagnose Why Enterprise Agents Fail	详情
-	查看 Hugging Face 最新动态	Hugging Face Blog
2026-03-13	NVIDIA AI-Q DABStep #1: 可复用工具生成的数据科学家 Agent	详情
2026-03-12	How NVIDIA AI-Q Reached #1 on DeepResearch Bench I and II	详情
2026-03-11	Code Concepts: Synthetic Dataset from Programming Seeds	详情
2026-03-10	Introducing Storage Buckets on the Hugging Face Hub	详情
2026-03-10	Keep the Tokens Flowing: RL Libraries Lessons	详情
2026-03-10	Granite 4.0 1B Speech: Compact Multilingual Edge Model	详情
2026-03-09	Ulysses Sequence Parallelism: Million-Token Contexts	详情
2026-03-09	LeRobot v0.5.0: Scaling Every Dimension	详情
2026-03-05	Bringing Robotics AI to Embedded Platforms (NXP)	详情
2026-03-05	Modular Diffusers: Composable Building Blocks	详情
2026-03-04	PRX Part 3: Training Text-to-Image in 24h	详情
2026-02-26	Mixture of Experts (MoEs) in Transformers	详情
2026-02-20	GGML and llama.cpp join Hugging Face	详情
2026-02-20	Train AI models with Unsloth and Hugging Face Jobs FREE	详情
2026-02-18	One-Shot Any Web App with Gradio's gr.HTML	详情
2026-02-13	Custom Kernels for All from Codex and Claude	详情
-	查看 Hugging Face 最新动态	Hugging Face Blog

⭐ Build a Domain-Specific Embedding Model in Under a Day (2026-03-20)

NVIDIA 发布域特定嵌入模型微调教程，无需手动标注数据：

🧠 合成数据生成: 使用 NeMo Data Designer 从领域文档自动生成高质量问答对
⛏️ Hard Negative Mining: 挖掘困难负样本，让模型学习领域细微差异
🔗 Multi-Hop Queries: 支持 1-3 跳复杂查询，提升多文档检索能力
📊 性能提升: Atlassian 在 JIRA 数据集上 Recall@60 从 0.751 提升至 0.951 (+26%)
⚡ 快速训练: 单 GPU 一天内完成微调
🔧 开源工具链: NeMo Data Designer + NeMo Automodel + BEIR + NVIDIA NIM
📦 开源数据集: NVIDIA 公开文档生成的合成训练数据集

⭐ Mellea 0.4.0 + Granite Libraries: IBM 结构化生成框架 (2026-03-20)

IBM Research 发布 Mellea 0.4.0 和三款 Granite Libraries：

🧠 Mellea 0.4.0: 开源 Python 库，用结构化、可维护的工作流替代概率性 Prompt 行为
📦 Granite Libraries: 专为 Granite-4.0-micro 设计的 LoRA 适配器库
- granitelib-core-r1.0: 需求验证，支持 instruct-validate-repair 循环
- granitelib-rag-r1.0: RAG 流水线任务，覆盖预检索、后检索、后生成
- granitelib-guardian-r1.0: 安全性、事实性、策略合规检查
🔄 约束解码: 通过结构化解码保证 Schema 正确性
🛡️ Instruct-Validate-Repair: 拒绝采样策略实现自动修复
📊 可观测性钩子: 事件驱动回调监控工作流

⭐ EVA: Voice Agent Evaluation Framework (2026-03-24)

ServiceNow 发布 EVA，首个联合评估语音代理任务准确性和对话体验的端到端框架：

🎯 双维度评估: EVA-A (准确性) + EVA-X (体验) 联合评分
🤖 Bot-to-Bot 架构: 用户模拟器 + 语音代理 + 工具执行器 + 验证器 + 指标套件
📊 EVA-A 准确性: 任务完成度 (确定性) + 忠实度 (LLM 评判) + 语音保真度 (LALM 评判)
💬 EVA-X 体验: 简洁性 + 对话推进 + 轮流时机
✈️ 航空数据集: 50 个场景覆盖航班改签、取消、候补、代金券等
🔬 基准测试: 20 个系统评估，发现一致的准确性-体验权衡
📝 开源: 代码、数据集、评判提示完全开源于 GitHub
🔑 关键发现: 命名实体转录是主要失败模式，多步骤工作流是复杂度瓶颈

⭐ State of Open Source on Hugging Face: Spring 2026 (2026-03-18)

Hugging Face 发布开源 AI 生态现状报告，揭示关键趋势：

📈 规模增长: 用户数达 1300 万，超过 200 万公开模型，50 万+公开数据集
🌏 地理格局变化: 中国模型下载量首次超越美国，占 41% 下载量
👤 个人开发者崛起: 独立开发者占比从 17% 升至 39%，成为生态重要力量
🏢 企业采用: 财富 500 强中超过 30% 在 HF 有认证账户
🤖 机器人数据集爆发: 从 2024 年的 1,145 个增至 2025 年的 26,991 个，成为最大数据集类别
📊 模型大小趋势: 下载模型平均参数从 8.27M (2023) 增至 20.8B (2025)，但中位数仅从 326M 增至 406M
🔧 衍生模型: Qwen 系列衍生模型超过 20 万个，Alibaba 衍生模型数量超过 Google + Meta 总和
⏱️ 模型生命周期: 平均参与周期约 6 周，持续更新是保持相关性的关键
🌐 主权 AI: 开源模型让政府和机构能够在本地数据和法律框架下微调部署

⭐ Nemotron 3 Content Safety 4B: 多模态多语言内容审核模型 (2026-03-20)

NVIDIA 发布 Nemotron 3 Content Safety 4B，基于 Gemma-3 4B-IT 的多模态多语言内容安全模型：

🧠 多模态支持: 同时处理文本和图像，理解图文组合的语义变化
🌍 多语言能力: 支持 140+ 语言，针对 12 种语言深度优化（英语、阿拉伯语、德语、西班牙语、法语、印地语、日语、泰语、荷兰语、意大利语、韩语、中文）
🔄 两种推理模式:
- 默认模式: 快速安全/不安全分类
- 分类模式: 输出详细违规类别（基于 Aegis AI Content Safety Dataset v2 分类法）
📊 基准测试: 多模态有害内容测试平均准确率 84%，超越同类开源模型
⚡ 低延迟: 推理延迟约为大型多模态安全模型的一半，适合实时 Agent 循环
🛡️ 文化敏感: 识别同一内容在不同文化语境下的安全状态差异
🔧 部署方式: Hugging Face 开源，4 月将推出 NVIDIA NIM 生产就绪版本

⭐ Mellea 0.4.0 + Granite Libraries: IBM 结构化生成工作流框架 (2026-03-20)

IBM Research 发布 Mellea 0.4.0 和三款 Granite Libraries，构建结构化、可验证、安全感知的 AI 工作流：

🧠 Mellea 0.4.0: 开源 Python 库，用结构化、可维护的工作流替代概率性 Prompt 行为
📦 Granite Libraries: 专为 Granite-4.0-micro 设计的 LoRA 适配器库
- granitelib-core-r1.0: 需求验证，支持 instruct-validate-repair 循环
- granitelib-rag-r1.0: RAG 流水线任务，覆盖预检索、后检索、后生成
- granitelib-guardian-r1.0: 安全性、事实性、策略合规检查
🔄 约束解码: 通过结构化解码保证 Schema 正确性
🛡️ Instruct-Validate-Repair: 拒绝采样策略实现自动修复
📊 可观测性钩子: 事件驱动回调监控工作流

⭐ SPEED-Bench: 推测解码统一基准 (2026-03-19)

NVIDIA 发布 SPEED-Bench，首个统一的推测解码评估基准：

🔬 双数据集设计: Qualitative Split (语义多样性) + Throughput Split (真实服务负载)
📊 Qualitative Split: 880 个样本覆盖 11 个领域 (Coding, Math, STEM, RAG, Roleplay 等)
⚡ Throughput Split: 1k-32k ISL 桶，支持高达 512 并发批处理
🏭 生产级引擎: 支持 TensorRT-LLM、vLLM、SGLang
🧠 语义多样性: 通过嵌入向量最小化成对余弦相似度确保样本代表性
📈 Pareto 曲线: 用户 TPS vs 吞吐量权衡分析
🔍 避免随机 Token: 随机 Token 会扭曲接受行为和 MoE 路由

⭐ Nemotron 3 Nano 4B: NVIDIA 混合架构边缘模型 (2026-03-17)

NVIDIA 发布 Nemotron 3 Nano 4B，最新的混合 Mamba-Transformer 架构轻量级模型：

🚀 混合架构: 结合 Mamba SSM 和 Transformer 注意力机制，效率与精度兼顾
💾 极低显存: 4B 参数，在 RTX 4070 上最低显存占用同级领先
⚡ 边缘部署: 支持 Jetson Thor/Orin Nano、DGX Spark、RTX GPU
🎯 指令遵循: IFBench/IFEval 同级最优
🎮 游戏智能: Orak 基准同级最优（Super Mario、Darkest Dungeon、Stardew Valley）
🔧 工具调用: 优秀的工具使用性能，低幻觉率
🧠 Nemotron Elastic: 从 Nemotron Nano 9B v2 压缩，使用端到端训练的路由器进行神经架构搜索
📦 量化版本: 提供 FP8 和 Q4_K_M GGUF 版本

⭐ Holotron-12B: 高吞吐量计算机使用 Agent (2026-03-17)

H Company 发布 Holotron-12B，基于 NVIDIA Nemotron 的高吞吐量计算机使用模型：

🚀 混合 SSM 架构: 结合 State-Space Model 和注意力机制，避免全注意力的二次计算成本
⚡ 2x 吞吐量提升: 单张 H100 上达到 8.9k tokens/s (并发 100)，相比 Holo2-8B 的 5.1k tokens/s
🧠 14B tokens 训练: 从 Nemotron-Nano-12B-v2-VL 微调，专注屏幕理解和 UI 交互
🏆 WebVoyager 80.5%: 从基础模型的 35.1% 大幅提升，超越 Holo2-8B
📍 定位基准提升: OS-World-G、GroundUI、WebClick 等定位任务显著改进
🔓 NVIDIA Open Model License: 模型和检查点已在 Hugging Face 开源
🎯 适用场景: 数据生成、标注、在线强化学习等吞吐量敏感工作负载

⭐ NVIDIA NeMo Retriever Agent 检索 (2026-03-14)

NVIDIA NeMo Retriever 团队发布新型 Agent 检索流水线，在多个排行榜取得优异成绩：

🏆 ViDoRe v3 第一名: NDCG@10 达 69.22，超越密集检索基线
🥈 BRIGHT 第二名: 在推理密集型检索排行榜得分 50.90
🧠 ReACT 架构: 迭代搜索、评估、优化策略
🔧 工具集成: think、retrieve、final_results 工具协同
⚡ 通用性: 同一架构无需修改即可适配不同类型任务
🔄 单例检索器: 替代 MCP 服务器，提升 GPU 利用率和实验吞吐量

⭐ NVIDIA DABStep #1: 可复用工具生成 (2026-03-13)

NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer 在 DABStep 基准测试中取得第一名：

🏆 SOTA 性能: 在 Hard 任务上得分 89.95，超越 DataPilot (87.57) 和 DS-STAR (45.24)
⚡ 30x 加速: 每任务仅 20 秒，对比 Claude Code + Opus 4.5 的 10 分钟
🧠 三阶段架构: Learning Loop → Fast Inference → Offline Reflection
🔧 可复用工具: 通过学习阶段生成 helper.py 工具库，推理阶段直接调用
📊 多步推理: 专为复杂表格数据分析设计，支持多工具调用和迭代分析
🎯 VLM 集成: 视觉语言模型自动解读图表输出并生成改进建议

⭐ Code Concepts: Synthetic Dataset (2026-03-11)

Hugging Face 发布大规模合成编程概念数据集：

📊 合成数据: 从编程概念种子生成的大规模数据集
🔧 代码理解: 提升代码生成和理解能力
🎯 概念驱动: 基于编程概念的结构化数据生成方法
🚀 开源贡献: 支持代码大模型训练和研究

⭐ NVIDIA Open Data for AI (2026-03-10)

Hugging Face 与 NVIDIA 合作推出开放数据计划：

📊 开放数据集: 高质量 AI 训练数据集
🔧 数据处理工具: NVIDIA 优化的数据处理流水线
🌐 社区驱动: 支持社区贡献和协作
🚀 加速研究: 降低 AI 研究的数据门槛

⭐ Storage Buckets on Hugging Face Hub (2026-03-10)

Hugging Face 推出 Storage Buckets 功能：

🪣 存储桶: 大文件存储和管理
🔗 Hub 集成: 与模型、数据集无缝协作
📦 版本控制: 支持文件版本管理
🚀 高效访问: 优化的文件下载和上传体验

Google AI

日期	标题	链接
2026-03-29	AlphaGo 10 周年 - 十年前的那场比赛开启了现代 AI 革命	详情
2026-03-17	Personal Intelligence 扩展 - 个性化智能搜索体验	详情
2026-03-17	开源安全投资 - Alpha-Omega 项目 1250 万美元承诺	详情
2026-03-xx	Gemini API tooling 更新 - 上下文循环、工具组合、Maps Grounding	详情
2026-03-xx	Groundsource - AI 助力社区预测自然灾害	详情
2026-03-12	AI 助力澳大利亚农村心脏健康 - Population Health AI 应用	详情
2026-03-10	AI Impact Summit 2026 - 印度峰会，150亿美元投资、AI政府创新挑战	详情
2026-03-10	Gemini in Google Sheets 达到 SOTA 性能	详情
2026-03-10	AI 改善英国乳腺癌检测	详情
2026-03-06	SpeciesNet 开源 AI 模型助力野生动物保护	详情
2026-03-05	Ask a Techspert: AI 如何理解视觉搜索	详情
2026-03-05	2026年2月 AI 动态汇总	详情
2026-03-04	AI Mode Canvas：搜索中写代码和创作	详情
2026-03-03	Project Genie 4 个创作技巧	详情
2026-03-03	Gemini Embedding 2 - 首个原生多模态嵌入模型	详情
2026-02-xx	February Gemini Drop 更新	详情
2026-02-xx	Lyria 3：创作"火马年"个性化音乐	详情
2026-02-xx	Gemini Android 多步骤任务处理	详情
2026-02-xx	Agentic Vision in Gemini 3 Flash	详情
2026-02-xx	Google I/O 2026 定档 5月19-20日	详情
2025	Google Beam 2025 四大亮点	详情
-	查看 Google AI 最新动态	Google AI Blog

⭐ Personal Intelligence 扩展到更多用户 (2026-03-17)

Google 将 Personal Intelligence 扩展到美国地区的 AI Mode in Search、Gemini app 和 Gemini in Chrome：

🔗 应用连接: 安全连接 Gmail、Google Photos 等 Google 应用
🎯 个性化响应: 基于用户历史提供定制化推荐和帮助
🛒 购物推荐: 根据购买历史和偏好推荐商品
🛠️ 技术支持: 根据设备型号提供定制化故障排除步骤
✈️ 旅行规划: 根据用户兴趣和偏好创建个性化行程
🔒 隐私控制: 用户可随时开启或关闭应用连接
🆓 免费用户: 现已向免费用户开放

⭐ 开源安全投资：Alpha-Omega 项目 (2026-03-17)

Google 与行业伙伴共同承诺 1250 万美元投资开源安全：

💰 $12.5M 承诺: 与 Amazon、Anthropic、Microsoft/GitHub、OpenAI 共同投资
🏢 Alpha-Omega 项目: Linux Foundation 开源安全项目
🔐 Big Sleep: Google DeepMind AI 工具，自主发现和修复深层漏洞
🛡️ CodeMender: AI 代码安全代理，已成功保护 Chrome 等复杂系统
🔬 Sec-Gemini: 安全研究计划扩展到开源项目
🤖 AI 驱动威胁: 应对新一代 AI 驱动的安全威胁
🌐 开源社区: 帮助维护者快速部署安全修复

⭐ AlphaGo 10 周年：现代 AI 革命的起点 (2026-03-29)

Google DeepMind 纪念 AlphaGo 击败李世石十周年：

🎯 里程碑: 2016年3月，AlphaGo 4:1 击败围棋世界冠军李世石，标志着 AI 历史的转折点
🧠 AGI 愿景: Demis Hassabis 分享从解决"根节点"问题（核聚变、材料科学）到世界模型和仿真的 AGI 路径
🤖 机器人实验室: Hannah Fry 参观新机器人实验室，体验能"看、思考、规划、行动"的机器人
🧬 AlphaFold: 五年前解决蛋白质结构预测问题，解锁生物研究新途径，从重大挑战到诺贝尔奖
📺 AGI 讨论: Shane Legg 分享 AGI 框架，从最小 AGI 到完整 AGI 的各层级定义和时间线

⭐ Gemini 3.1 Flash-Lite 发布 (2026-03-03)

Google 发布 Gemini 3.1 Flash-Lite，专注于大规模智能部署：

🚀 高效推理: 优化延迟和成本
📱 边缘部署: 适合移动端和边缘设备
💰 成本优化: 大规模部署的经济选择
🔗 API 兼容: 与现有 Gemini API 无缝集成

⭐ AI 助力澳大利亚农村心脏健康 (2026-03-12)

Google 与澳大利亚顶级医疗机构合作，将 AI 带给偏远社区：

❤️ 心脏健康风险识别: 帮助偏远地区居民及早发现心脏健康风险
🤝 合作伙伴: Wesfarmers Health、SISU Health、Victor Chang Cardiac Research Institute、Latrobe Health Services
💰 $100万澳元投资: 来自 Google Australia 的 Digital Future Initiative (DFI)
🧠 Population Health AI (PHAI): 使用 Google Earth AI 的 Population Dynamics Foundation Models (PDFM)
📊 多源数据: 临床记录、地理因素、空气质量、花粉等环境数据
🔒 隐私保护: 使用去标识化和聚合数据集
🏥 实际行动: SISU Health 计划在偏远地区进行 5 万次新的健康筛查

⭐ AI Impact Summit 2026 印度峰会 (2026-03-10)

Google 在印度 AI Impact Summit 宣布重大投资与合作：

💰 $15 亿美元投资: 在印度建立 AI 基础设施
🌐 America-India Connect: 新光纤连接项目，连接四大洲
🏛️ $30M AI for Government Innovation Impact Challenge: 支持政府使用 AI 改善公共服务
🔬 $30M AI for Science Impact Challenge: 支持全球 AI 驱动的科学突破
🤝 Google DeepMind 印度合作: 与印度政府和机构合作，推动科学和教育发现
🌍 Google Center for Climate Technology: 与印度首席科学顾问办公室合作，加速 AI 气候解决方案
📚 AI Professional Certificate: 与政府、教育机构和雇主合作的 AI 技能认证项目
🇮🇳 Karmayogi Bharat 合作: 支持 2000 万公务员的数字化培训平台
🗣️ 实时语音翻译: 支持 70+ 种语言实时对话翻译，包括 10 种印度语言
🛡️ SynthID 验证: 已使用超过 2000 万次，帮助识别 Google AI 生成的内容

Google I/O 2026 预告

📅 日期: 2026年5月19-20日
🎮 Save the Date: 已上线 AI 互动游戏
🤖 Gemini 集成: I/O 页面集成 Gemini 体验

最新研究论文

arXiv CS.AI 精选 (2026-03-27)

日期	标题	链接
2026-03-27	WriteBack-RAG - 证据蒸馏与回写增强的知识库训练	arXiv:2603.25737
2026-03-27	WildASR - 语音 Agent 时代的 ASR 鲁棒性诊断基准	arXiv:2603.25727
2026-03-27	LLM 数学评估 - 问题解决能力与评估性能关联研究	arXiv:2603.25633

⭐ WriteBack-RAG: 知识库训练新范式 (2026-03-27)

arXiv 论文《Training the Knowledge Base through Evidence Distillation and Write-Back Enrichment》：

📚 可训练知识库: RAG 系统的知识库通常只构建一次不再更新，论文提出将其作为可训练组件
🔄 WriteBack-RAG: 使用标注示例识别检索成功、隔离相关文档、蒸馏为紧凑知识单元
📦 离线预处理: 仅修改语料库，可应用于任何 RAG 流水线
📊 跨方法验证: 4 种 RAG 方法、6 个基准、2 个 LLM 骨干，平均提升 +2.14%
🔀 跨方法迁移: 蒸馏知识可迁移到其他 RAG 流水线，证明改进存在于语料库本身

⭐ WildASR: 语音 Agent ASR 鲁棒性基准 (2026-03-27)

arXiv 论文《Back to Basics: Revisiting ASR in the Age of Voice Agents》：

🎤 WildASR 基准: 多语言（四语）诊断基准，完全来自真实人类语音
📊 三轴分解: 环境退化、人口统计偏移、语言多样性三维度分解 ASR 鲁棒性
🔍 幻觉风险: 模型在部分或退化输入下经常产生看似合理但未说出的内容，对下游 Agent 行为造成安全风险
📉 性能退化: 七个主流 ASR 系统评估发现严重且不均匀的性能退化
⚠️ 跨语言不迁移: 模型鲁棒性不跨语言或条件迁移
🛠️ 分析工具: 提供三个分析工具指导部署决策

⭐ LLM 数学评估: 问题解决能力与评估关联 (2026-03-27)

arXiv 论文《Is Mathematical Problem-Solving Expertise in Large Language Models Associated with Assessment Performance?》：

🔬 研究问题: 更强的数学问题解决能力是否与更强的步骤级评估性能相关？
📊 PROCESSBENCH 基准: 使用 GSM8K 和 MATH 子集，人类标注最早错误步骤
🤖 双任务设计: 同一数学问题上执行解题和评估两个独立任务
📈 模式发现: 评估准确率在模型正确解决的题目上显著高于错误题目
⚖️ 难度差异: 评估比直接解题更难，尤其是在存在错误的解法上
💡 设计启示: 数学问题解决专业知识支持更强的评估性能，但可靠的步骤级诊断还需额外能力

arXiv CS.AI 精选 (2026-03-26)

日期	标题	链接
2026-03-26	Stochastic Gap - Agent 部署前可靠性与监督成本审计马尔可夫框架	arXiv:2603.24582
2026-03-26	Multi-Agent Medical MCQA - 一致性验证改进医疗问答不确定性校准	arXiv:2603.24481
2026-03-26	Enhanced Mycelium of Thought (EMoT) - 生物启发式分层推理架构	arXiv:2603.24065
2026-03-26	MOS Benchmarks - 多目标搜索标准化基准	arXiv:2603.24084
2026-03-26	Incongruent Normal Form - 自指语义的形式化表示	arXiv:2603.24527
2026-03-26	Minimax Completeness - 无界最佳优先搜索算法完整性证明	arXiv:2603.24572

⭐ Stochastic Gap: Agent 部署前可靠性审计框架 (2026-03-26)

arXiv 论文《A Markovian Framework for Pre-Deployment Reliability and Oversight-Cost Auditing in Agentic Artificial Intelligence》：

🔒 可靠性审计: 为组织部署 AI Agent 建立部署前可靠性与监督成本的马尔可夫框架
📊 盲点度量: 提出 state blind-spot mass Bn(τ) 和 state-action blind mass B^SAπ,n(τ) 度量
🏢 业务流程验证: 在 BPIC 2019 采购到支付日志 (251,734 cases, 1,595,923 events) 上验证
⚠️ 关键发现: 大型工作流可能在状态层面表现良好，但在下一步决策上保留大量盲点质量
🎯 监督成本: 建立工作流访问度量上的期望监督成本恒等式

⭐ Multi-Agent Medical MCQA: 医疗问答不确定性校准 (2026-03-26)

arXiv 论文《Multi-Agent Reasoning with Consistency Verification Improves Uncertainty Calibration in Medical MCQA》：

🏥 医疗 AI: 解决临床 AI 部署中置信度校准不准的问题
🤖 多代理框架: 四个专科代理 (呼吸、心脏、神经、消化) 使用 Qwen2.5-7B-Instruct 独立诊断
✅ 两阶段验证: 自验证过程测量内部一致性，产生专科置信度分数 (S-score)
📊 校准改进: ECE 降低 49-74%，MedQA-250 达到 ECE = 0.091 (比基线降低 74.4%)
🎯 消融分析: 两阶段验证是主要校准驱动因素，多代理推理是主要准确率驱动因素

⭐ Enhanced Mycelium of Thought (EMoT): 生物启发式推理架构 (2026-03-26)

arXiv 论文《Enhanced Mycelium of Thought (EMoT): A Bio-Inspired Hierarchical Reasoning Architecture with Strategic Dormancy and Mnemonic Encoding》：

🧠 四级层次: Micro → Meso → Macro → Meta 认知处理层级
💤 策略性休眠: 推理节点的休眠和重新激活机制
🏛️ 记忆宫殿: 五种记忆编码风格集成
🔄 跨域综合: 解决 CoT/ToT 缺乏持久记忆和跨域综合的问题
📊 评估结果: LLM-as-Judge 评估中接近 CoT 水平 (4.20 vs 4.33/5.0)，跨域综合优于 CoT (4.8 vs 4.4)
⚠️ 消融发现: 策略性休眠是架构必需 (禁用后质量从 4.2 降至 1.0)

arXiv CS.AI 精选 (2026-03-25)

日期	标题	链接
2026-03-25	Mecha-nudges for Machines - AI Agent 选择呈现优化	arXiv:2603.23433
2026-03-25	Bilevel Autoresearch - 元自优化研究循环 (5x 提升)	arXiv:2603.23420
2026-03-25	Agent Stances - Agent 在生成社会中的立场与边界形成	arXiv:2603.23406
2026-03-25	RelayS2S - 实时对话双路径推测生成架构	arXiv:2603.23346
2026-03-25	LLM Olympiad - 密封考试式模型评估方法	arXiv:2603.23292
2026-03-25	Online Library Learning - 人类视觉谜题求解的在线库学习	arXiv:2603.23244

⭐ Mecha-nudges for Machines: AI Agent 选择呈现优化 (2026-03-25)

arXiv 论文《Mecha-nudges for Machines》：

🤖 机器助推: 改变选择呈现方式以系统性地影响 AI Agent 决策
🔍 V-usable 信息: 结合贝叶斯说服框架与观察者相对信息度量
📊 实证研究: Etsy 产品列表分析显示 ChatGPT 发布后机器可用信息显著增加
🌐 人机共存: 不降低人类决策环境的前提下优化 AI 选择呈现

⭐ Bilevel Autoresearch: 元自优化研究循环 (2026-03-25)

arXiv 论文《Bilevel Autoresearch: Meta-Autoresearching Itself》：

🔄 双层架构: 外循环元优化内循环自研究过程
📈 5x 性能提升: GPT 预训练基准上从 -0.009 提升到 -0.045 val_bpb
🤖 自主发现: 自动发现组合优化、多臂老虎机、实验设计等机制
💡 核心原理: 自研究可以元自研究任何有可测量目标的事物

⭐ Agent Stances: Agent 在生成社会中的立场与边界形成 (2026-03-25)

arXiv 论文《Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies》：

🎭 内源立场: Agent 表现出超越预设身份的内源立场，存在先天进步偏见 (IVB > 0)
📊 新度量: 提出内源价值偏见 (IVB)、说服敏感度、信任-行动解耦 (TAD) 三个指标
🔄 信任悖论: 高级模型在冲突情感挑衅下 40% TAD 率，小模型 0% TAD 率
🏗️ 边界重建: Agent 基于共享立场主动拆解权力层级，重建自组织社区边界

⭐ RelayS2S: 实时对话双路径推测生成架构 (2026-03-25)

arXiv 论文《A Dual-Path Speculative Generation for Real-Time Dialogue》：

⚡ 双路径架构: 快路径 S2S 模型立即响应 + 慢路径级联模型生成高质量续接
🎯 无缝切换: 轻量验证器控制前缀提交，实现低延迟高质量对话
📊 性能: P90 延迟与 S2S 相当，同时保持 99% 级联响应质量
🔧 即插即用: 无需架构修改，可直接添加到现有级联流水线

⭐ LLM Olympiad: 密封考试式模型评估 (2026-03-25)

arXiv 论文《LLM Olympiad: Why Model Evaluation Needs a Sealed Exam》：

🏆 奥林匹克式评估: 题目密封直到评测，提交提前冻结，统一评测框架
🔒 防止作弊: 解决基准追逐、隐藏评测选择、测试内容意外暴露问题
📖 透明发布: 评测后公开发布题目和代码，支持复现和审计
🎯 可信评估: 让强性能更难"制造"，更容易信任

arXiv CS.AI 精选 (2026-03-24)

日期	标题	链接
2026-03-24	AgenticGEO - 生成引擎优化的自进化 Agent 系统	arXiv:2603.20213
2026-03-24	ProMAS - 多 Agent 系统主动错误预测 (马尔可夫转移动力学)	arXiv:2603.20260
2026-03-24	FactorSmith - Agent 驱动的仿真生成框架 (MDP 分解)	arXiv:2603.20270
2026-03-24	LLM 自省评估 - Me, Myself, and π: LLM 自省能力研究	arXiv:2603.20276
2026-03-24	AgentComm-Bench - 协作具身 AI 压力测试基准	arXiv:2603.20285
2026-03-24	DiffGraph - Agent 驱动的模型合并框架 (文本到图像生成)	arXiv:2603.20470
2026-03-24	Context Cartography - LLM 系统上下文空间治理	arXiv:2603.20578
2026-03-24	Reasoning Traces - 推理轨迹塑造输出但模型不自知	arXiv:2603.20620
2026-03-24	Seed1.8 Model Card - 通用现实世界 Agent 模型	arXiv:2603.20633
2026-03-24	MARCUS - 多模态心脏诊断 Agent 模型 (超越 GPT-5 Thinking)	arXiv:2603.22179
2026-03-24	DT-MDP-CE - 企业 AI Agent 上下文工程框架	arXiv:2603.22083
2026-03-24	GSEM - 临床推理图记忆框架	arXiv:2603.22096
2026-03-24	SpecTM - 可信基础模型光谱目标掩码	arXiv:2603.22097
2026-03-24	Oph-Guid-RAG - 眼科临床决策支持多模态 RAG	arXiv:2603.21925
2026-03-24	GenAI SECI - 生成式 AI 隐性知识管理模型	arXiv:2603.21866
2026-03-24	Braid Trajectory - 未来交互感知轨迹预测	arXiv:2603.22035

⭐ AgenticGEO: 生成引擎优化的自进化 Agent 系统 (2026-03-24)

arXiv 论文《A Self-Evolving Agentic System for Generative Engine Optimization》：

🔍 生成引擎优化 (GEO): 针对 AI 生成内容的搜索引擎优化新范式
🤖 自进化架构: Agent 系统通过反馈循环持续优化内容策略
📊 动态适应: 根据生成引擎的响应自动调整优化策略
🚀 自动化 SEO: 从传统 SEO 向 AI 时代的内容可见性优化演进

⭐ ProMAS: 多 Agent 系统主动错误预测 (2026-03-24)

arXiv 论文《Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics》：

🔮 主动错误预测: 基于马尔可夫转移动力学预测多 Agent 系统错误
📊 状态转移建模: 将 Agent 交互建模为马尔可夫决策过程
⚠️ 早期预警: 在错误发生前识别潜在故障模式
🛡️ 系统可靠性: 提升多 Agent 系统的稳定性和可预测性

⭐ FactorSmith: Agent 驱动的仿真生成框架 (2026-03-24)

arXiv 论文《Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement》：

🎮 仿真生成: 自动生成复杂仿真场景
🔧 MDP 分解: 将复杂决策过程分解为可管理的子问题
🤖 三角色架构: Planner (规划器) → Designer (设计器) → Critic (批评器) 迭代优化
📊 质量保证: 通过批评反馈循环确保仿真质量

⭐ AgentComm-Bench: 协作具身 AI 压力测试基准 (2026-03-24)

arXiv 论文《Stress-Testing Cooperative Embodied AI Under Latency, Packet Loss, and Bandwidth Collapse》：

🧪 压力测试基准: 评估协作具身 AI 在恶劣网络条件下的表现
📡 网络故障模拟: 延迟、丢包、带宽崩溃场景
🤝 多 Agent 协作: 测试 Agent 间通信的鲁棒性
🛡️ 系统韧性: 识别和改进协作系统的脆弱点

⭐ Seed1.8 Model Card: 通用现实世界 Agent 模型 (2026-03-24)

arXiv 论文《Seed1.8 Model Card: Towards Generalized Real-World Agency》：

🚀 Seed1.8 模型: 面向现实世界任务的通用 Agent 模型
🌍 真实世界代理: 从实验室环境到真实场景的能力迁移
📊 模型卡片: 详细的能力评估和安全考量
🔧 Agent 能力: 工具使用、多步推理、环境交互

⭐ MARCUS: 多模态心脏诊断 Agent 模型 (2026-03-24)

arXiv 论文《An agentic, multimodal vision-language model for cardiac diagnosis and management》：

🏥 多模态输入: 独立或联合处理 ECG、超声心动图、心脏 MRI
🧠 分层 Agent 架构: 模态专用视觉语言专家模型 + 多模态协调器
📊 训练规模: 1350 万图像 (25万 ECG, 130万超声, 1200万 MRI) + 160万问题
🏆 性能: ECG 87-91%, 超声 67-86%, CMR 85-88% 准确率
🚀 超越前沿: 比 GPT-5 Thinking 和 Gemini 2.5 Pro Deep Think 高 34-45%
💡 意义: 心血管疾病是全球主要死因，AI 可显著提升诊断效率

⭐ DT-MDP-CE: 企业 AI Agent 上下文工程框架 (2026-03-24)

arXiv 论文《A Context Engineering Framework for Improving Enterprise AI Agents based on Digital-Twin MDP》：

🎯 问题: 企业 AI Agent 受限于数据质量/数量、复杂推理、自博弈困难、反馈信号不可靠
🔧 三大组件: 数字孪生 MDP、对比逆 RL、RL 引导上下文工程
📐 DT-MDP: 将 Agent 推理行为抽象为有限 MDP
🔄 对比逆 RL: 从混合质量离线轨迹估计奖励函数
🚀 应用: IT 自动化任务案例研究
📈 结果: 在广泛评估设置中持续显著改进

⭐ GSEM: 临床推理图记忆框架 (2026-03-24)

arXiv 论文《Graph-based Self-Evolving Memory for Experience Augmented Clinical Reasoning》：

🧠 双层记忆图: 组织临床经验，捕获决策结构和关系依赖
🔍 适用性感知检索: 支持在线反馈驱动的节点质量和边权重校准
📊 性能: MedR-Bench 和 MedAgentsBench 上达到 70.90% 和 69.24% 准确率
💡 意义: 许多记忆增强方法存储独立记录，缺乏显式关系结构
🔗 开源: GitHub

arXiv CS.AI 精选 (2026-03-23)

日期	标题	链接
2026-03-23	Dynamic Belief Graphs for ToM - LLM 心理理论动态信念图推理	arXiv:2603.20170
2026-03-23	Pitfalls in Interpretability Agents - 可解释性代理评估陷阱	arXiv:2603.20101
2026-03-23	HeRL - 后见经验引导的 LLM 强化学习探索框架	arXiv:2603.20046
2026-03-23	Plan Verification - Transformer 计划验证能力理论分析	arXiv:2603.19954
2026-03-23	DIAL KG - 无模式增量知识图谱构建框架	arXiv:2603.20059
2026-03-21	Agent Memory Graph - 多代理系统记忆图架构	arXiv:2603.19191
2026-03-21	Personalized Multi-Agent - 个性化多代理协作框架	arXiv:2603.19195
2026-03-20	OS-Themis - GUI Agent 可扩展多代理评价框架	arXiv:2603.19191
2026-03-20	Box Maze - 可靠 LLM 推理的过程控制架构	arXiv:2603.19182
2026-03-20	cuGenOpt - GPU 加速通用元启发式组合优化框架	arXiv:2603.19163
2026-03-19	AgentFactory - 可执行子代理累积与复用的自进化框架	arXiv:2603.18000
2026-03-19	Governed Memory - 多代理工作流的生产架构	arXiv:2603.17787
2026-03-19	Knowledge Objects - 事实作为一等对象：持久 LLM 记忆	arXiv:2603.17781

⭐ Dynamic Belief Graphs for ToM: LLM 心理理论推理 (2026-03-23)

arXiv 论文《Learning Dynamic Belief Graphs for Theory-of-mind Reasoning》提出动态信念图模型：

🧠 心理理论 (ToM): 推断人们隐含、演变的信念如何影响其行为
📊 动态信念图: 将心理状态表示为动态信念图，联合推断潜在信念
🔗 能量因子图: 表示信念相互依赖关系
🎯 ELBO 目标: 捕获信念积累和延迟决策
🏥 应用场景: 灾难响应、急诊医学、人机协同自主系统
📈 性能提升: 在多个真实灾难撤离数据集上显著改善行动预测

⭐ Pitfalls in Interpretability Agents: 可解释性代理评估陷阱 (2026-03-23)

arXiv 论文《Pitfalls in Evaluating Interpretability Agents》揭示评估陷阱：

🔬 研究背景: 自动化可解释性系统减少人工需求，但评估面临挑战
🧪 代理系统: 研究代理迭代设计实验、精炼假设
⚠️ 评估陷阱: 人类专家解释可能主观或不完整；基于结果的比较模糊研究过程
🎯 记忆问题: LLM 系统可能通过记忆或知情猜测复现已发表结果
💡 解决方案: 提出基于模型组件功能互换性的无监督内在评估
📊 关键发现: 展示了评估复杂自动化可解释性系统的根本挑战

⭐ HeRL: 后见经验引导的 LLM 强化学习探索 (2026-03-23)

arXiv 论文《Experience is the Best Teacher: Motivating Effective Exploration in Reinforcement Learning for LLMs》提出 HeRL 框架：

🎯 问题: 基于评分的 RL 仍受限于当前策略分布内的低效探索
💡 核心思想: 将失败轨迹及其未满足评分作为后见经验，作为上下文引导策略探索
🔧 框架: Hindsight experience guided Reinforcement Learning
📈 奖励机制: 引入奖励激励具有更大改进潜力的响应
🚀 优势: 从期望的高质量样本有效学习，无需重复试错
📊 结果: 在多个基准测试上优于基线，支持测试时经验引导的自我改进

⭐ Plan Verification: Transformer 计划验证能力 (2026-03-23)

arXiv 论文《On the Ability of Transformers to Verify Plans》分析 Transformer 计划验证能力：

🔬 研究问题: Transformer 在 AI 计划任务中的成功与失败边界
📐 C*-RASP: 扩展 C-RASP，为序列长度和词汇表同时增长提供长度泛化保证
✅ 结果: 识别出一大类经典计划领域，Transformer 可证明地学习验证长计划
🧩 结构属性: 发现显著影响长度泛化解可学习性的结构属性
📊 实证验证: 实验验证理论发现

arXiv CS.AI 精选 (2026-03-20)

日期	标题	链接
2026-03-20	OS-Themis - GUI Agent 可扩展多代理评价框架	arXiv:2603.19191
2026-03-20	Box Maze - 可靠 LLM 推理的过程控制架构	arXiv:2603.19182
2026-03-20	cuGenOpt - GPU 加速通用元启发式组合优化框架 (含 LLM 建模助手)	arXiv:2603.19163
2026-03-20	D5P4 - 离散扩散解码的多样性控制	arXiv:2603.19146
2026-03-20	LLM 二进制分析隐式模式 - 首次大规模 Token 级推理模式研究	arXiv:2603.19138
2026-03-20	推理模型不确定性估计 - 采样扩展与混合估计器研究	arXiv:2603.19118
2026-03-20	LuMamba - 电极拓扑不变的高效 EEG 建模 (377x FLOPS 减少)	arXiv:2603.19100
2026-03-20	Serendipity by Design - 人类与 LLM 创造力的跨域映射对比研究	arXiv:2603.19087

⭐ OS-Themis: GUI Agent 可扩展评价框架 (2026-03-20)

arXiv 论文《A Scalable Critic Framework for Generalist GUI Rewards》提出 GUI Agent 评价框架：

🔬 多代理评价器: 将轨迹分解为可验证的里程碑，隔离关键证据进行决策
🔍 证据链审计: 严格审计证据链后做出最终判断
📊 OmniGUIRewardBench: 全平台 GUI 结果奖励基准
🚀 RL 提升: AndroidWorld 上在线 RL 训练提升 10.3%
🔄 自训练验证: 轨迹验证和过滤提升 6.9%
🎯 Agent 演进: 驱动智能体进化的潜在方案

⭐ Box Maze: 可靠 LLM 推理的过程控制架构 (2026-03-20)

arXiv 论文《A Process-Control Architecture for Reliable LLM Reasoning》提出新型架构：

🏗️ 三层架构: 记忆接地、结构化推理、边界执行
🛡️ 边界失败率: 从约 40% (基线 RLHF) 降至 <1%
🔒 认知控制层: 显式过程级控制机制
🧪 对抗测试: n=50 对抗场景下验证架构约束效果
📊 多模型验证: DeepSeek-V3、Doubao、Qwen 异构系统测试

⭐ cuGenOpt: GPU 加速组合优化框架 (2026-03-20)

arXiv 论文《A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization》：

🚀 GPU 加速: "一个 CUDA 块进化一个解"架构，统一编码抽象
🔧 两级自适应算子: 硬件感知资源管理
🤖 LLM 建模助手: 自然语言问题描述转可执行求解器代码
📊 性能表现: TSP-442 达 4.73% gap (30秒)，12 类问题求最优解
⚡ 框架优化: pcb442 gap 从 36% 降至 4.73%，VRPTW 吞吐量提升 75-81%

⭐ LLM 二进制分析隐式模式研究 (2026-03-20)

arXiv 论文《Implicit Patterns in LLM-Based Binary Analysis》首次大规模研究 LLM 二进制分析：

📊 大规模分析: 521 个二进制文件，99,563 个推理步骤
🔍 四种主导模式: 早期剪枝、路径依赖锁定、目标回溯、知识引导优先级
🧠 隐式抽象: Token 级隐式模式作为 LLM 推理抽象
📈 稳定系统: 这些模式形成稳定、结构化的系统，具有独特时间角色
🛡️ 漏洞分析: 为更可靠的分析系统奠定基础

⭐ 推理模型不确定性估计扩展研究 (2026-03-20)

arXiv 论文《How Uncertainty Estimation Scales with Sampling in Reasoning Models》：

🔬 黑盒方法: 使用言语化置信度和自一致性研究并行采样
📊 跨域验证: 3 个推理模型、17 个任务 (数学、STEM、人文学科)
🎯 混合估计器: 仅 2 个样本即可提升 AUROC +12，优于大预算单独信号
📈 领域依赖: 数学域 (RLVR 后训练原生域) 表现更强互补性和更快扩展
🔧 实用指导: 为推理模型部署提供不确定性估计指导

arXiv CS.AI 精选 (2026-03-19)

日期	标题	链接
2026-03-19	AgentFactory - 可执行子代理累积与复用的自进化框架	arXiv:2603.18000
2026-03-19	Governed Memory - 多代理工作流的生产架构	arXiv:2603.17787
2026-03-19	Knowledge Objects - 事实作为一等对象：持久 LLM 记忆	arXiv:2603.17781
2026-03-19	RPMS - 规则增强记忆协同提升具身规划	arXiv:2603.17831
2026-03-19	MALLES - 多代理 LLM 经济沙盒与消费者偏好对齐	arXiv:2603.17694
2026-03-19	Sensi - 基于课程的测试时学习 LLM 游戏代理	arXiv:2603.17683
2026-03-19	自动驾驶综述 - 从虚拟环境到真实世界试验	arXiv:2603.17714

⭐ AgentFactory: 可执行子代理累积与复用 (2026-03-19)

arXiv 论文《A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse》提出新型自进化范式：

🤖 可执行子代理: 将成功任务解决方案保存为可执行 Python 代码，而非文本经验
🔄 持续优化: 基于执行反馈不断优化子代理，随任务增多变得更强大
📦 跨平台移植: 纯 Python 代码 + 标准化文档，可在任何 Python 系统运行
🧠 能力累积: 子代理库持续增长改进，逐步减少相似任务的工作量
🔓 开源实现: GitHub 开源，含演示视频

⭐ Governed Memory: 多代理工作流生产架构 (2026-03-19)

arXiv 论文《A Production Architecture for Multi-Agent Workflows》解决企业 AI 记忆治理问题：

🏢 企业级方案: 解决多代理工作流中的记忆孤岛和治理碎片化问题
🔄 双重记忆模型: 开放集原子事实 + 模式强制类型属性
📊 分层治理路由: 渐进式上下文交付，50% token 减少
🔒 零跨实体泄露: 500 次对抗查询测试验证
📈 LoCoMo 基准: 74.8% 准确率，证明治理不损失检索质量
🏭 生产部署: 已在 Personize.ai 生产环境运行

⭐ Knowledge Objects: 持久 LLM 记忆 (2026-03-19)

arXiv 论文《Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory》提出新型记忆架构：

🔑 知识对象: 离散哈希寻址元组，O(1) 检索
📊 上下文窗口极限: Claude Sonnet 4.5 在 10-7000 事实达到 100% 准确率
⚠️ 生产失败模式: 容量限制 (8000+ 事实溢出)、压缩损失 (60% 事实丢失)、目标漂移
💰 成本优势: 知识对象以 252 倍低成本实现 100% 准确率
🧠 多跳推理: 知识对象 78.9% vs 上下文记忆 31.6%
🔬 跨模型验证: 四个前沿模型验证压缩损失是架构性问题

⭐ RPMS: 规则增强记忆协同提升具身规划 (2026-03-19)

arXiv 论文《Enhancing LLM-Based Embodied Planning through Rule-Augmented Memory Synergy》：

🎯 冲突管理架构: 通过结构化规则检索强制执行动作可行性
📊 ALFWorld 基准: Llama 3.1 8B 单次成功率 59.7% (+23.9 pp)，Claude Sonnet 4.5 达 98.5%
🧠 情景记忆条件性: 无接地时损害某些任务类型性能，但过滤后变为稳定正向收益
🔄 ScienceWorld 迁移: GPT-4 平均得分 54.0 vs ReAct 基线 44.9

⭐ MALLES: 多代理 LLM 经济沙盒 (2026-03-19)

arXiv 论文《A Multi-agent LLMs-based Economic Sandbox with Consumer Preference Alignment》：

🛒 经济模拟: 利用 LLM 泛化能力建立跨域跨品类统一模拟框架
🧠 偏好学习: 通过后训练让 LLM 经济对齐异构交易记录
📊 平均场机制: 稳定高维决策空间采样
🤝 多代理讨论框架: 分散认知负荷，捕获关键决策因素

arXiv CS.AI 精选 (2026-03-18)

日期	标题	链接
2026-03-18	Demystifying Video Reasoning - 视频生成模型推理机制揭秘	arXiv:2603.16870
2026-03-18	MessyKitchens - 接触丰富型物体级 3D 场景重建数据集	arXiv:2603.16868
2026-03-18	ManiTwin-100K - 10 万规模数据生成就绪数字对象数据集	arXiv:2603.16866
2026-03-18	SparkVSR - 稀疏关键帧传播交互式视频超分辨率	arXiv:2603.16864
2026-03-18	SocialOmni - 全模态模型音视频社交交互基准	arXiv:2603.16859
2026-03-18	SOMA - 统一参数化人体模型	arXiv:2603.16858
2026-03-18	Parallel Newton Methods - 打破序列瓶颈的并行化方法	arXiv:2603.16850
2026-03-18	LEAFE - 从反思经验中学习反馈代理能力	arXiv:2603.16843
2026-03-18	TraceR1 - 多模态 AI 代理预期规划 (CVPR 2026 Findings)	arXiv:2603.16777
2026-03-18	SlideRL - 代理式幻灯片生成的逆向规范奖励	arXiv:2603.16839
2026-03-18	Nonstandard Errors in AI Agents - AI 代理的非标准误差	arXiv:2603.16744
2026-03-18	TurnWise - 单轮与多轮语言模型能力差距研究	arXiv:2603.16720
2026-03-18	SpecMoE - 跨物种 EEG 解码频谱混合专家基础模型	arXiv:2603.16719
2026-03-18	InCoder-32B - 工业场景代码基础模型	arXiv:2603.16702
2026-03-18	DexGrasp-Zero - 零样本跨具身灵巧抓取策略	arXiv:2603.16710
2026-03-18	CABTO - 上下文感知行为树接地机器人操作	arXiv:2603.16712
2026-03-18	SurgΣ - 手术智能大规模多模态数据与基础模型	arXiv:2603.16727
2026-03-18	IOSVLM - 统一牙科诊断 3D 视觉语言模型	arXiv:2603.16702
2026-03-17	Mixture-of-Depths Attention - 动态深度注意力机制	arXiv:2603.15619
2026-03-17	Moral Indifference in LLMs - 道德冷漠的机制起源	arXiv:2603.15615
2026-03-17	RL for Robotic Manipulation - 强化学习过程推理	arXiv:2603.15600
2026-03-17	OpenSeeker - 首个完全开源的前沿搜索 Agent	arXiv:2603.15594
2026-03-17	Counterfactual Metrics vs User Perception	arXiv:2603.15607
2026-03-17	Computational Concept of the Psyche	arXiv:2603.15586
2026-03-20	OS-Themis - 可扩展 GUI Agent Critic 框架	arXiv:2603.19191
2026-03-20	Box Maze - LLM 推理过程控制架构	arXiv:2603.19182

⭐ OS-Themis: 可扩展 GUI Agent Critic 框架 (2026-03-20)

arXiv 论文《A Scalable Critic Framework for Generalist GUI Rewards》提出 GUI Agent 奖励框架：

🎯 多 Agent Critic: 将轨迹分解为可验证的里程碑，隔离关键证据
🔍 审查机制: 严格审计证据链后再做出最终判断
📊 OGRBench: 全面的跨平台 GUI 结果奖励基准
⚡ RL 训练提升: AndroidWorld 上 RL 训练效果提升 10.3%
🔄 自训练增益: 轨迹验证和过滤在自训练循环中提升 6.9%

⭐ Box Maze: LLM 推理过程控制架构 (2026-03-20)

arXiv 论文《A Process-Control Architecture for Reliable LLM Reasoning》提出 LLM 推理架构：

🧠 三层架构: 记忆基础层、结构化推理层、边界执行层
🛡️ 边界维护: 将边界失效率从约 40% 降至 1% 以下
🔒 抗对抗: 在对抗性提示场景下保持推理完整性
📊 多模型验证: 在 DeepSeek-V3、Doubao、Qwen 上进行验证

⭐ Demystifying Video Reasoning: 视频生成模型推理机制 (2026-03-18)

arXiv 论文《Demystifying Video Reasoning》揭示视频生成模型的推理机制：

🔬 Chain-of-Steps (CoS): 推理主要在扩散去噪步骤中涌现，而非跨帧顺序展开
🧠 工作记忆: 早期步骤探索多个候选解，逐步收敛到最终答案
🔄 自我修正: 支持从错误中间解恢复并增强
📊 感知先于行动: 早期步骤建立语义基础，后期执行结构化操作
🏗️ 功能特化: DiT 早期层编码感知结构，中间层执行推理，后期层整合表示
⚡ 训练无关策略: 通过集成不同随机种子的潜轨迹提升推理能力

⭐ ManiTwin-100K: 机器人操作数据生成 (2026-03-18)

ManiTwin 发布 10 万规模数据生成就绪数字对象数据集：

🤖 自动化流水线: 单张图像转换为仿真就绪的语义标注 3D 资产
📊 100K 资产: 每个资产配备物理属性、语言描述、功能标注和验证的操作提案
🔧 多用途: 操作数据生成、随机场景合成、VQA 数据生成
🚀 规模化基础: 为可扩展仿真数据合成和策略学习奠定基础

⭐ InCoder-32B: 工业场景代码基础模型 (2026-03-18)

首个统一芯片设计、GPU 内核优化、嵌入式系统、编译器优化的 32B 代码模型：

🏭 工业覆盖: 芯片设计、GPU 内核优化、嵌入式系统、编译器优化、3D 建模
📈 竞争性能: 在通用代码任务上达到高度竞争性能
🔧 工业基准: 建立工业领域的开源基线
📊 评估全面: 14 个主流通用代码基准 + 9 个工业基准

arXiv 论文《Mixture-of-Depths Attention》提出新型动态计算分配机制：

🔄 动态深度: 不同 token 可在不同层参与注意力计算，打破固定深度限制
⚡ 计算效率: 自动学习哪些 token 需要更多计算，哪些可以跳过
🧠 层级路由: 每层动态决定哪些位置参与注意力
📊 性能提升: 在相同计算预算下优于固定深度模型

⭐ Moral Indifference in LLMs: 道德冷漠机制起源 (2026-03-17)

arXiv 论文《Mechanistic Origin of Moral Indifference in Language Models》研究 LLM 道德判断：

🔬 机制可解释: 通过机械可解释性方法定位道德冷漠的神经元
📊 因果干预: 证明特定激活模式导致道德冷漠行为
🎯 安全意义: 为 AI 对齐研究提供新的干预视角

⭐ RL for Robotic Manipulation: 过程推理 (2026-03-17)

arXiv 论文《From Passive Observer to Active Critic》研究机器人操作：

🤖 主动批评者: 强化学习激发过程推理能力
🔧 机器人操作: 在复杂操作任务中学习分解步骤
🧠 过程推理: 从被动观察者转变为主动推理者

⭐ OpenSeeker: 开源前沿搜索 Agent (2026-03-17)

首个完全开源的前沿级搜索 Agent，模型和数据全部公开：

🏆 SOTA 性能: 仅用 11.7k 合成样本训练，在 BrowseComp、BrowseComp-ZH、xbench-DeepSearch 等基准达到最优
📊 超越 DeepDive: BrowseComp 上 29.5% vs 15.3%
🚀 超越工业竞品: BrowseComp-ZH 上 48.4% vs 通义深研 46.7%
🔓 完全开源: 训练数据、模型权重全部公开
🧠 两大创新:
- Fact-grounded scalable controllable QA synthesis - 通过拓扑扩展和实体混淆生成复杂多跳推理任务
- Denoised trajectory synthesis - 回溯总结机制去噪轨迹，促进高质量动作生成
🌐 民主化搜索 Agent 研究: 降低前沿搜索 Agent 的研究门槛

⭐ XAI 2026: 反事实解释评估指标研究 (2026-03-17)

arXiv 论文《Do Metrics for Counterfactual Explanations Align with User Perception?》被 XAI 2026 接收：

📊 研究问题: 常用反事实解释评估指标是否反映用户感知？
🧪 实证研究: 三数据集上直接比较算法指标与人类判断
📉 主要发现: 算法指标与人类评分相关性普遍较弱，且高度依赖数据集
⚠️ 结构性局限: 增加指标数量不能可靠提升预测能力
🎯 结论: 现有指标未能捕捉用户关心的解释质量关键方面，需要更以人为中心的评估方法

GitHub 资源更新

⭐ Microsoft APM - Agent Package Manager (2026-03-28)

Microsoft 发布开源 AI Agent 依赖管理器，类似 npm/pip 但专为 AI Agent 配置设计：

统一 manifest: apm.yml 声明项目 Agent 依赖
多 Agent 支持: GitHub Copilot、Claude Code、Cursor、OpenCode
传递依赖解析: 依赖树自动解析
内容安全扫描: apm audit 检测隐藏 Unicode 和恶意内容
插件开发与分发: 构建、打包、分发 Agent 插件
CI/CD 集成: GitHub Action 自动化工作流

yaml

# apm.yml 示例
name: your-project
version: 1.0.0
dependencies:
  apm:
    - anthropics/skills/skills/frontend-design
    - github/awesome-copilot/plugins/context-engineering
    - microsoft/apm-sample-package#v1.0.0

GitHub: https://github.com/microsoft/apm · 文档: https://microsoft.github.io/apm/

Claude Agent SDK (2026-03-19 更新)

Anthropic 发布 Claude Agent SDK 官方示例集，包含：

示例	描述	难度
00_The_one_liner_research_agent	一行代码研究代理	入门
01_The_chief_of_staff_agent	办公厅主任代理	中级
02_The_observability_agent	可观测性代理	中级
03_The_site_reliability_agent	SRE 站点可靠性代理	高级
04_migrating_from_openai_agents_sdk	OpenAI Agents SDK 迁移指南	迁移

OpenAI Agents SDK 迁移要点：

工具映射：@tool 装饰器 → @claude_tool
护栏映射：Guardrail → InputGuard / OutputGuard
会话映射：Session → ClaudeSession
交接映射：Handoff → handoff()

SRE Agent 亮点：

自动故障检测与响应
Kubernetes 集群监控
日志分析与异常检测
自动修复建议生成

Claude Cookbooks 最新更新

2026-03-19: 添加 OpenAI Agents SDK 迁移指南 + SRE Agent README 更新 (#449)
2026-03-12: PR #439 - 更新 Markdown 描述从 3.7 到 4.6 (Open)
2026-03-11: PR #438 - Pinecone RAG cookbook 更新至 Messages API 和 tool use (Open)
2026-03-10: 移除 404 失效链接 (#434)
2026-03-05: 修复 contextual-embeddings 上下文拼接逻辑 (#416)
2026-03-03: Agent SDK cookbooks 作者更新 (#398)
2026-02-25: platform.claude.com 路径修复 (#395)
2026-02-24: 添加 Site Reliability Agent cookbook (#391)
2026-02-20: Prompt caching cookbook 更新 - 自动缓存功能 (#387)
2026-02-17: 更新所有模型引用从 Claude 4.5 到 Claude 4.6 (#375)
2026-02-05: 添加 Opus 4.6 服务端压缩指导 (#369)
2026-01-30: 添加 Context Compaction cookbook (#343)

Claude Cookbooks 核心内容

分类	示例项目
Capabilities	分类、RAG、摘要
Tool Use	客服代理、计算器集成、SQL 查询
Third-Party	Pinecone RAG、Wikipedia 搜索、Voyage AI 嵌入、Web 页面读取
Multimodal	图像入门、视觉最佳实践、图表解读、表单提取
Advanced	Sub-agents、PDF 上传、自动评测、JSON 模式、内容审核、Prompt 缓存
New	Site Reliability Agent、Context Compaction

OpenAI Cookbook 最新更新

2026-03-15: PR #2525 - 多 Agent 工作流运行时隔离 cookbook (Open)
2026-03-14: PR #2524 - Chat fine-tuning 数据准备中处理加权消息 (Open)
2026-03-13: Sora Prompting Guide 更新 - 新增示例 GIF 和视觉素材 (#2517)
2026-03-13: Sora Cookbook 更新 - 角色引用、1080p、20秒视频、视频扩展 (#2516)
2026-03-07: 5.4 Vision Cookbook 作者更新 (#2497)
2026-03-07: 添加 5.4 Vision Cookbook (#2496)
2026-03-05: Codex prompting guide 更新 (gpt-5.3-codex status) (#2486)
2026-03-04: Long Horizon Cookbook 迁移至开发者博客 (#2479)
2026-03-03: Realtime Evals/Types 工具增强 (#2485, #2478)
2026-03-03: Fix Prompt Caching 201 copy edits (#2454)
2026-02-25: Codex prompting guide 更新至 gpt-5.3-codex (#2466)
2026-02-24: Add GPT-5.3 Codex feature guidance (#2462)
2026-02-23: Add tool output formatting section to Realtime prompting guide (#2460)
2026-02-21: Agentic governance cookbook (#2450)
2026-02-18: Codex/prompt caching 201 (#2448)
2026-02-13: Add Realtime Eval Harness Code section (#2427)
2026-02-10: Skills in API notebook (#2429)
2026-02-03: Image Evals Cookbook (#2408)

📖 OpenAI Cookbook 现已迁移至 cookbook.openai.com

Awesome Cursor Rules

持续更新的 .cursorrules 模板集合，包含：

前端框架：Next.js, React, Vue, Angular, Svelte, Solid.js
后端框架：Django, Flask, Laravel, Rails, Go Fiber
数据库：MongoDB, PostgreSQL, Supabase
其他：Tailwind CSS, HTMX, 测试等

Awesome ChatGPT

ChatGPT 资源汇总，包含：

桌面应用：macOS, Windows, Linux
Web 应用：自托管和托管方案
浏览器扩展
CLI 工具
机器人集成

Awesome AI Agents (kyrolabs)

AI Agent 框架和工具合集，持续更新中。

日期	项目	描述
2026-03-29	everything-claude-code	Claude Code 完整指南与资源合集，114K+ stars，最全面的 Claude Code 文档
2026-03-29	awesome-claude-skills	Claude Skills 精选合集，48K+ stars，生产级技能模板
2026-03-29	learn-claude-code	Claude Code 学习教程与最佳实践，41K+ stars
2026-03-29	claude-mem	Claude Code 插件，自动捕获 Claude 执行的所有操作，41K+ stars 热门项目
2026-03-29	mcp-use	全栈 MCP 框架，开发 ChatGPT/Claude 的 MCP 应用和服务器，9.5K+ stars
2026-03-29	VoltAgent	AI Agent 工程平台，开源 TypeScript AI Agent 框架，7K+ stars
2026-03-29	buildwithclaude	Claude Skills、Agents、Commands、Hooks、Plugins 和 Markets 单一中心，2.6K+ stars
2026-03-28	Claude Code v2.1.86	新增 X-Claude-Code-Session-Id 请求头、VCS 目录排除、内存文件名点击跳转，多项修复和性能优化
2026-03-28	APM	Microsoft 开源 AI Agent 依赖管理器，类似 npm/pip 专为 AI Agent 配置设计，支持 Copilot/Claude Code/Cursor 等
2026-03-28	OpenAI Cookbook Kalibr	Building resilient agents with Kalibr — 执行路径路由用于生产环境
2026-03-27	Claude Code v2.1.85	Hooks 条件过滤、MCP OAuth RFC 9728、终端兼容性修复
2026-03-27	Knowledge Graph Construction	Claude Cookbooks 新增知识图谱构建指南，NER + 关系提取、实体消解、NetworkX 图组装
2026-03-28	AIR Blackbox	开源 EU AI Act 合规扫描器和 Python AI Agent 运行时信任层，HMAC-SHA256 审计链、PII 检测、Prompt 注入拦截、风险分类
2026-03-26	AVP: Agent Vector Protocol	Agent 通过 KV-cache 和隐藏状态通信，2x 更快，56% 更少 token，支持 HuggingFace/vLLM/llama.cpp/Ollama
2026-03-26	ai-evaluation	开源 Python/TypeScript SDK，50+ 本地评估指标，LLM-as-Judge 增强，guardrail 扫描器
2026-03-26	traceAI	开源 OpenTelemetry 原生追踪框架，自动注入 20+ AI 框架和 LLM 提供商
2026-03-25	AIDE	AI-Driven Exploration — ML 工程代理，使用树搜索自动设计实验、生成代码和评估
2026-03-22	ClaudeClaw	持久化 Agent 编排器，Claude Code 插件，OS 级沙箱隔离，可组合扩展，多通道路由
2026-03-21	ConnectOnion	简洁 Python 框架，2 行代码创建生产级 Agent，函数即工具，12 个生命周期钩子，插件系统，多 Agent 信任网络
2026-03-20	Untether	Telegram 桥接工具，支持 6 种 AI 编码代理 (Claude Code, Codex, OpenCode, Pi, Gemini CLI, Amp)
2026-03-18	AG2	AutoGen 创作者新框架，开源 AI Agent 编程框架，支持多 Agent 协作
2026-03-17	LoongFlow	百度发布的企业级 AI 工作流编排平台，从原子组件到核心场景 Agent 的演进开发框架
2026-03-17	OpenSeeker	首个完全开源的前沿搜索 Agent，SOTA 性能
2026-03-17	Holotron-12B	H Company 高吞吐量计算机使用 Agent 模型，混合 SSM 架构，WebVoyager 80.5%
2026-03-14	Greywall	CLI agent sandbox，通过 greyproxy 实现动态配置和可视化监控
2026-03-13	Hive	目标驱动的 AI agent 框架，提供蜂线控制 (Beeline control)
2026-03-12	SAGE	AI agent 共识验证内存系统 — 每个记忆通过 BFT 共识验证，4 个应用验证器，13 个 MCP 工具，本地运行
2026-03-12	VibeGrid	AI 编码 agent 终端管理器，多 agent 网格、任务队列、工作流自动化、无头执行、内联 diff 审查、Claude Code hooks
2026-03-11	Steel Browser	开源浏览器自动化平台，专为 AI agent 设计，支持无头浏览、智能等待、反检测
2026-03-11	nanobot	HKUDS 开源超轻量级个人 AI 助手框架 (~4K 行 Python)，支持 MCP、9+ 聊天通道、可扩展技能系统
2026-03-11	Pipecat	开源语音和多模态对话 AI 框架，支持实时语音、视频和多模态交互
2026-03-10	FIM Agent	AI Connector Hub — Python async 框架，动态 DAG 规划、ReAct agent、MCP 客户端、RAG
2026-03-09	Dorothy	开源桌面应用，同时编排多个 AI CLI agents (Claude Code, Codex, Gemini)，支持自动化和 Kanban 管理
2026-03-09	Awesome OpenClaw Agents	OpenClaw 的 100+ 生产级 SOUL.md agent 模板集合，覆盖生产力、开发、营销和业务自动化
2026-03-07	OpenClaw	开源 AI agent 框架，多渠道消息 (Signal, Telegram, Discord, WhatsApp)、cron 调度、内存系统、MCP 集成
2026-02-26	NeuroLink	TypeScript agent 框架，多步 agentic loops、持久化内存、HITL 工作流、MCP 客户端集成、支持 13 个 LLM 提供商

核心分类

Frameworks: OpenClaw, nanobot, NeuroLink, AutoGPT, CrewAI, LangGraph, Pipecat, VoltAgent
Development: Claude Code, Cursor, Aider, Cline, OpenCode
Testing & Evaluation: Voice Lab, Open-RAG-Eval, EvoAgentX, Arize-Phoenix
Research: GPT Researcher, BlockAGI, DeepAnalyze
Voice & Multimodal: Pipecat, Voice Lab, voicetest
Memory: claude-mem, preserve-session

MCP 服务器生态

项目	Stars	描述
ChromeDevTools/chrome-devtools-mcp	32K	Chrome DevTools MCP Server，浏览器自动化调试
microsoft/playwright-mcp	29.8K	Playwright MCP server
github/github-mcp-server	28.3K	GitHub's official MCP Server
PrefectHQ/fastmcp	24.1K	🚀 The fast, Pythonic way to build MCP servers and clients
oraios/serena	22.2K	Coding agent toolkit, semantic retrieval and editing
activepieces/activepieces	21.5K	AI Agents & MCPs & AI Workflow Automation (~400 MCP servers)
ahujasid/blender-mcp	18K	Blender 3D MCP Server，AI 驱动的 3D 建模
czlonkowski/n8n-mcp	16K	n8n 工作流自动化 MCP Server

AI 新闻速递 ​

最近动态 ​

2026年3月 ​

Anthropic 动态 ​

Claude Code v2.1.87 重要更新 (2026-03-29) ​

Claude Code v2.1.86 重要更新 (2026-03-28) ​

Claude Code v2.1.85 重要更新 (2026-03-27) ​

Claude Code v2.1.84 重要更新 (2026-03-26) ​

Claude Code v2.1.83 重要更新 (2026-03-25) ​

Claude Code 最新插件 (2026-03-25) ​

Claude Code 最新插件 (2026-03-29) ​

Claude Cookbooks 最新内容 ​

⭐ What 81,000 people want from AI (2026-03-18) ​

⭐ Claude Partner Network $100M 投资 (2026-03-12) ​

⭐ The Anthropic Institute 成立 (2026-03-11) ​

⭐ Sydney 亚太第四办公室 (2026-03-10) ​

Claude Sonnet 4.6 亮点 ​

OpenAI 动态 ​

⭐ GPT-5.4 重大发布 (2026-03-05) ​

⭐ GPT-5.4 mini and nano 发布 (2026-03-17) ​

⭐ Model Spec 方法论详解 (2026-03-25) ​

⭐ Safety Bug Bounty 计划上线 (2026-03-25) ​

⭐ OpenAI Foundation 更新：10 亿美元投资计划 (2026-03-24) ​

⭐ Teen Safety Policy Pack 发布 (2026-03-24) ​

⭐ OpenAI 收购 Astral (2026-03-19) ​

⭐ 监控内部编程智能体的对齐失范 (2026-03-19) ​

⭐ Codex Security 不使用 SAST 的原因 (2026-03-16) ​

⭐ 指令层级结构研究 (2026-03-10) ​

⭐ AI Agent 抵抗 Prompt 注入设计 (2026-03-11) ​

⭐ Responses API 计算机环境 (2026-03-11) ​

⭐ 企业案例: Rakuten 用 Codex 提升 2 倍修复速度 (2026-03-11) ​

⭐ 企业案例: Wayfair 用 OpenAI 提升客服效率 (2026-03-11) ​

⭐ 企业案例: Balyasny 用 GPT-5.4 构建 AI 研究引擎 (2026-03-06) ​

⭐ 企业案例: Descript 多语言视频配音 (2026-03-06) ​

⭐ Creating with Sora Safely: Sora 安全使用指南 (2026-03-23) ​

⭐ Sora Cookbook 重大更新 (2026-03-13) ​

OpenAI Cookbook 5.4 Vision Cookbook 亮点 ​

Claude Code 发布 ​

按来源 ​

Anthropic ​

OpenAI ​

Hugging Face ​

⭐ Build a Domain-Specific Embedding Model in Under a Day (2026-03-20) ​

⭐ Mellea 0.4.0 + Granite Libraries: IBM 结构化生成框架 (2026-03-20) ​

⭐ EVA: Voice Agent Evaluation Framework (2026-03-24) ​

⭐ State of Open Source on Hugging Face: Spring 2026 (2026-03-18) ​

⭐ Nemotron 3 Content Safety 4B: 多模态多语言内容审核模型 (2026-03-20) ​

⭐ Mellea 0.4.0 + Granite Libraries: IBM 结构化生成工作流框架 (2026-03-20) ​

⭐ SPEED-Bench: 推测解码统一基准 (2026-03-19) ​

⭐ Nemotron 3 Nano 4B: NVIDIA 混合架构边缘模型 (2026-03-17) ​

⭐ Holotron-12B: 高吞吐量计算机使用 Agent (2026-03-17) ​

⭐ NVIDIA NeMo Retriever Agent 检索 (2026-03-14) ​

⭐ NVIDIA DABStep #1: 可复用工具生成 (2026-03-13) ​

⭐ Code Concepts: Synthetic Dataset (2026-03-11) ​

⭐ NVIDIA Open Data for AI (2026-03-10) ​

⭐ Storage Buckets on Hugging Face Hub (2026-03-10) ​

Google AI ​

⭐ Personal Intelligence 扩展到更多用户 (2026-03-17) ​

⭐ 开源安全投资：Alpha-Omega 项目 (2026-03-17) ​

⭐ AlphaGo 10 周年：现代 AI 革命的起点 (2026-03-29) ​

⭐ Gemini 3.1 Flash-Lite 发布 (2026-03-03) ​

⭐ AI 助力澳大利亚农村心脏健康 (2026-03-12) ​

⭐ AI Impact Summit 2026 印度峰会 (2026-03-10) ​

Google I/O 2026 预告 ​

最新研究论文 ​

arXiv CS.AI 精选 (2026-03-27) ​

⭐ WriteBack-RAG: 知识库训练新范式 (2026-03-27) ​

⭐ WildASR: 语音 Agent ASR 鲁棒性基准 (2026-03-27) ​

⭐ LLM 数学评估: 问题解决能力与评估关联 (2026-03-27) ​

arXiv CS.AI 精选 (2026-03-26) ​

⭐ Stochastic Gap: Agent 部署前可靠性审计框架 (2026-03-26) ​

⭐ Multi-Agent Medical MCQA: 医疗问答不确定性校准 (2026-03-26) ​

⭐ Enhanced Mycelium of Thought (EMoT): 生物启发式推理架构 (2026-03-26) ​

arXiv CS.AI 精选 (2026-03-25) ​

⭐ Mecha-nudges for Machines: AI Agent 选择呈现优化 (2026-03-25) ​

⭐ Bilevel Autoresearch: 元自优化研究循环 (2026-03-25) ​

⭐ Agent Stances: Agent 在生成社会中的立场与边界形成 (2026-03-25) ​

⭐ RelayS2S: 实时对话双路径推测生成架构 (2026-03-25) ​

⭐ LLM Olympiad: 密封考试式模型评估 (2026-03-25) ​

arXiv CS.AI 精选 (2026-03-24) ​

AI 新闻速递

最近动态

2026年3月

Anthropic 动态

Claude Code v2.1.87 重要更新 (2026-03-29)

Claude Code v2.1.86 重要更新 (2026-03-28)

Claude Code v2.1.85 重要更新 (2026-03-27)

Claude Code v2.1.84 重要更新 (2026-03-26)

Claude Code v2.1.83 重要更新 (2026-03-25)

Claude Code 最新插件 (2026-03-25)

Claude Code 最新插件 (2026-03-29)

Claude Cookbooks 最新内容

⭐ What 81,000 people want from AI (2026-03-18)

⭐ Claude Partner Network $100M 投资 (2026-03-12)

⭐ The Anthropic Institute 成立 (2026-03-11)

⭐ Sydney 亚太第四办公室 (2026-03-10)

Claude Sonnet 4.6 亮点

OpenAI 动态

⭐ GPT-5.4 重大发布 (2026-03-05)

⭐ GPT-5.4 mini and nano 发布 (2026-03-17)

⭐ Model Spec 方法论详解 (2026-03-25)

⭐ Safety Bug Bounty 计划上线 (2026-03-25)

⭐ OpenAI Foundation 更新：10 亿美元投资计划 (2026-03-24)

⭐ Teen Safety Policy Pack 发布 (2026-03-24)

⭐ OpenAI 收购 Astral (2026-03-19)

⭐ 监控内部编程智能体的对齐失范 (2026-03-19)

⭐ Codex Security 不使用 SAST 的原因 (2026-03-16)

⭐ 指令层级结构研究 (2026-03-10)

⭐ AI Agent 抵抗 Prompt 注入设计 (2026-03-11)

⭐ Responses API 计算机环境 (2026-03-11)

⭐ 企业案例: Rakuten 用 Codex 提升 2 倍修复速度 (2026-03-11)

⭐ 企业案例: Wayfair 用 OpenAI 提升客服效率 (2026-03-11)

⭐ 企业案例: Balyasny 用 GPT-5.4 构建 AI 研究引擎 (2026-03-06)

⭐ 企业案例: Descript 多语言视频配音 (2026-03-06)

⭐ Creating with Sora Safely: Sora 安全使用指南 (2026-03-23)

⭐ Sora Cookbook 重大更新 (2026-03-13)

OpenAI Cookbook 5.4 Vision Cookbook 亮点

Claude Code 发布

按来源

Anthropic

OpenAI

Hugging Face

⭐ Build a Domain-Specific Embedding Model in Under a Day (2026-03-20)

⭐ Mellea 0.4.0 + Granite Libraries: IBM 结构化生成框架 (2026-03-20)

⭐ EVA: Voice Agent Evaluation Framework (2026-03-24)

⭐ State of Open Source on Hugging Face: Spring 2026 (2026-03-18)

⭐ Nemotron 3 Content Safety 4B: 多模态多语言内容审核模型 (2026-03-20)

⭐ Mellea 0.4.0 + Granite Libraries: IBM 结构化生成工作流框架 (2026-03-20)

⭐ SPEED-Bench: 推测解码统一基准 (2026-03-19)

⭐ Nemotron 3 Nano 4B: NVIDIA 混合架构边缘模型 (2026-03-17)

⭐ Holotron-12B: 高吞吐量计算机使用 Agent (2026-03-17)

⭐ NVIDIA NeMo Retriever Agent 检索 (2026-03-14)

⭐ NVIDIA DABStep #1: 可复用工具生成 (2026-03-13)

⭐ Code Concepts: Synthetic Dataset (2026-03-11)

⭐ NVIDIA Open Data for AI (2026-03-10)

⭐ Storage Buckets on Hugging Face Hub (2026-03-10)

Google AI

⭐ Personal Intelligence 扩展到更多用户 (2026-03-17)

⭐ 开源安全投资：Alpha-Omega 项目 (2026-03-17)

⭐ AlphaGo 10 周年：现代 AI 革命的起点 (2026-03-29)

⭐ Gemini 3.1 Flash-Lite 发布 (2026-03-03)

⭐ AI 助力澳大利亚农村心脏健康 (2026-03-12)

⭐ AI Impact Summit 2026 印度峰会 (2026-03-10)

Google I/O 2026 预告

最新研究论文

arXiv CS.AI 精选 (2026-03-27)

⭐ WriteBack-RAG: 知识库训练新范式 (2026-03-27)

⭐ WildASR: 语音 Agent ASR 鲁棒性基准 (2026-03-27)

⭐ LLM 数学评估: 问题解决能力与评估关联 (2026-03-27)

arXiv CS.AI 精选 (2026-03-26)

⭐ Stochastic Gap: Agent 部署前可靠性审计框架 (2026-03-26)

⭐ Multi-Agent Medical MCQA: 医疗问答不确定性校准 (2026-03-26)

⭐ Enhanced Mycelium of Thought (EMoT): 生物启发式推理架构 (2026-03-26)

arXiv CS.AI 精选 (2026-03-25)

⭐ Mecha-nudges for Machines: AI Agent 选择呈现优化 (2026-03-25)

⭐ Bilevel Autoresearch: 元自优化研究循环 (2026-03-25)

⭐ Agent Stances: Agent 在生成社会中的立场与边界形成 (2026-03-25)

⭐ RelayS2S: 实时对话双路径推测生成架构 (2026-03-25)

⭐ LLM Olympiad: 密封考试式模型评估 (2026-03-25)

arXiv CS.AI 精选 (2026-03-24)