Skip to content

AI 新闻速递

最后更新: 2026-03-29 22:30 (Asia/Shanghai)

最近动态

2026年3月

Anthropic 动态

日期标题链接
2026-03-29Claude Code v2.1.87 发布 - 修复 Cowork Dispatch 消息传递问题CHANGELOG
2026-03-28Claude Code 新插件 - chmod +x hook 脚本修复 (PR #40208)GitHub
2026-03-28Claude Code v2.1.86 发布 - X-Claude-Code-Session-Id、VCS 目录排除、性能优化CHANGELOG
2026-03-27Claude Code v2.1.85 发布 - Hooks 条件过滤、MCP OAuth RFC 9728、终端兼容性修复CHANGELOG
2026-03-26Claude Code v2.1.84 发布 - PowerShell 工具、新环境变量、多项修复和性能优化CHANGELOG
2026-03-25Claude Code v2.1.83 发布 - managed-settings.d 目录、Transcript 搜索、多项修复CHANGELOG
2026-03-18What 81,000 people want from AI - 最大规模 AI 使用调查详情
2026-03-12Anthropic invests $100M in Claude Partner Network - 合作伙伴网络投资详情
2026-03-11Introducing The Anthropic Institute - Anthropic 研究院成立详情
2026-03-10Sydney becomes Anthropic's fourth APAC office - 亚太第四办公室详情
2026-03-25Claude Code 新插件 - memory-alert 系统内存监控插件 (PR #38728)GitHub
2026-03-25Claude Code 新插件 - multi-setup 并行开发工作区插件 (PR #38636)GitHub
2026-03-24Claude Code DevContainer 优化 - ipset IP 重复检查 (PR #38215)GitHub
2026-03-24Claude Code 新插件 - session-rename 会话重命名插件 (PR #38182)GitHub
2026-03-24Claude Code DevContainer - GitHub API 认证支持 (PR #38167)GitHub
2026-03-24Claude Code 新插件 - WhatsApp 频道插件 (PR #38105)GitHub
2026-03-24Claude Code 文档修复 - v2.1.72 changelog 截断问题修复 (PR #38085)GitHub
2026-03-24Claude Code 新插件 - lean-agents 子代理上下文膨胀解决方案 (PR #38045)GitHub
2026-03-24Claude Code 新插件 - hookify StopFailure 钩子支持 + 余额错误示例 (PR #37979)GitHub
2026-03-23Claude Code 新插件 - claude-tunnels 多项目编排插件 (PR #37800)GitHub
2026-03-23Claude Code 新插件 - parallel-batch-safe 批量任务认证安全插件 (PR #37680)GitHub
2026-03-23Claude Code 文档更新 - skill-development SKILL.md frontmatter 完整参考 (PR #37648)GitHub
2026-03-23Claude Code 新插件 - spinner-customization spinner 风格自定义 (PR #37631)GitHub
2026-03-23Claude Code Bug 修复 - Pre/PostToolUse 消息不显示给 Claude (PR #36625)GitHub
2026-03-23Claude Code Bug 修复 - feature-dev 工作流阶段级 Todo 覆盖问题 (PR #31501)GitHub
2026-03-23Claude Code 修复 - MCP OAuth redirectUri 热修复脚本 (PR #29943)GitHub
2026-03-21Claude Code 新插件发布 - agents-md、tmp-cwd-cleanup、agentmarkupGitHub
2026-03-19Claude Agent SDK 官方示例发布 - 研究代理、办公室主任代理、SRE 代理GitHub
2026-02-05Introducing Claude Opus 4.6 - 最强模型升级,代理编码领先详情
2026-03-10Claude Cookbooks 更新 - 移除失效链接 (#434)GitHub
2026-03-06Partnering with Mozilla to improve Firefox's security详情
2026-03-05Where things stand with the Department of War详情
2026-02-27Statement on the comments from Secretary of War Pete Hegseth详情
2026-02-26Statement from Dario Amodei on our discussions with the Department of War详情
2026-02-25Anthropic acquires Vercept - 提升 Claude 计算机使用能力详情
2026-02-24Responsible Scaling Policy: Version 3.0详情
2026-02-23Detecting and preventing distillation attacks详情
2026-02-20Making frontier cybersecurity capabilities available to defenders详情
2026-02-17Introducing Claude Sonnet 4.6 - 前沿编码和代理性能详情
2026-02-17Anthropic and Rwanda sign MOU for AI in health and education详情
2026-02-04Claude is a space to think - 保持无广告承诺详情
2026-01-30Claude on Mars - NASA 火星车首次 AI 辅助驾驶详情

Claude Code v2.1.87 重要更新 (2026-03-29)

重要修复:

  • 修复 Cowork Dispatch 中消息未正确传递的问题

Claude Code v2.1.86 重要更新 (2026-03-28)

新功能:

  • X-Claude-Code-Session-Id 请求头 - API 请求添加会话 ID 头,方便代理按会话聚合请求
  • VCS 目录排除 - .jj (Jujutsu) 和 .sl (Sapling) 加入排除列表,Grep 和文件自动补全不再进入元数据目录
  • 内存文件名点击跳转 - "Saved N memories" 通知中的内存文件名支持悬停高亮和点击打开
  • /skills 菜单排序 - 按字母排序,便于扫描
  • skill 描述截断 - 限制在 250 字符,减少上下文使用

重要修复:

  • --resume 在 v2.1.85 之前创建的会话上失败 "tool_use ids were found without tool_result blocks"
  • Write/Edit/Read 在项目根目录外的文件(如 ~/.claude/CLAUDE.md)上失败
  • 每次技能调用时不必要的配置磁盘写入导致性能问题和 Windows 配置损坏
  • 非常长会话中使用 /feedback 时潜在的内存不足崩溃
  • --bare 模式在交互会话中丢弃 MCP 工具
  • OAuth 登录 URL 的 c 快捷键只复制约 20 字符而非完整 URL
  • 掩码输入(如 OAuth 粘贴)在窄终端换行时泄漏 token 开头
  • 官方市场插件脚本在 macOS/Linux 上因 "Permission denied" 失败
  • 多实例运行时状态栏显示其他会话的模型
  • 滚动不跟随长对话底部的新消息
  • /plugin 卸载对话框按 n 行为错误
  • 按 Enter 后转录空白直到响应到达的回归
  • ultrathink 提示在删除关键字后残留
  • 长会话中 markdown/highlight 渲染缓存保留完整内容字符串导致内存增长

性能优化:

  • 减少 claude.ai MCP 连接器配置时的启动事件循环停顿(macOS 钥匙串缓存从 5s 扩展到 30s)
  • 减少 @ 提及文件的 token 开销 — 原始字符串内容不再 JSON 转义
  • 提升 Bedrock、Vertex、Foundry 用户的提示缓存命中率
  • Read 工具使用紧凑行号格式并去重未更改的重读,减少 token 使用

Claude Code v2.1.85 重要更新 (2026-03-27)

新功能:

  • Hooks 条件过滤 - if 字段使用权限规则语法 (如 Bash(git *)) 过滤 hooks 执行时机,减少进程开销
  • MCP OAuth RFC 9728 - 遵循 Protected Resource Metadata 发现授权服务器
  • CLAUDE_CODE_MCP_SERVER_NAMECLAUDE_CODE_MCP_SERVER_URL 环境变量 - MCP headersHelper 脚本可服务多个服务器
  • 调度任务时间戳标记 - /loopCronCreate 触发时在转录中添加时间戳
  • 图片占位符优化 - 粘贴图片时 [Image #N] 后添加尾随空格
  • Deep links 长查询支持 - claude-cli://open?q=… 支持最多 5,000 字符,长预填提示显示"滚动查看"警告
  • 插件策略执行 - 被 managed-settings.json 阻止的插件无法安装或启用,从市场视图隐藏
  • PreToolUse hooks AskUserQuestion - 可通过返回 updatedInputpermissionDecision: "allow" 满足,支持无头集成
  • tool_parameters OpenTelemetry 事件 - 现在需要 OTEL_LOG_TOOL_DETAILS=1 才记录

重要修复:

  • /compact 在会话过大时失败 "context exceeded" 问题
  • /plugin enable/disable 在插件安装位置与设置声明不同时失败
  • --worktree 在非 git 仓库中在 WorktreeCreate hook 运行前报错退出
  • deniedMcpServers 设置不阻止 claude.ai MCP 服务器
  • switch_display 计算机使用工具在多显示器上返回"此会话不可用"
  • OTEL_LOGS_EXPORTER/OTEL_METRICS_EXPORTER/OTEL_TRACES_EXPORTER 设为 none 时崩溃
  • 非原生构建中 diff 语法高亮不工作
  • MCP 步进授权在有刷新令牌时失败 - 现在正确触发重新授权流程
  • 流式响应中断时远程会话内存泄漏
  • 边缘连接中断时的持续 ECONNRESET 错误 - 重试时使用新 TCP 连接
  • 运行某些斜杠命令后提示卡在队列中,上箭头无法检索
  • SSH 或 VS Code 终端中原始键序列出现在提示中
  • 远程控制会话状态在权限解决后卡在"需要操作"
  • shift+enter 和 meta+enter 被类型建议拦截而非插入换行
  • 滚动时过时内容渗透
  • 退出后在 Ghostty、Kitty、WezTerm 等终端中 Ctrl+C/Ctrl+D 不工作 - 终端留在增强键盘模式

性能优化:

  • 大型仓库 @-mention 文件自动补全性能提升
  • PowerShell 危险命令检测改进
  • 大型会话滚动性能优化 - 用纯 TypeScript 替代 WASM yoga-layout
  • 压缩触发时 UI 卡顿减少

Claude Code v2.1.84 重要更新 (2026-03-26)

新功能:

  • PowerShell 工具 (Windows) - Windows 平台 PowerShell 工具预览版
  • ANTHROPIC_DEFAULT_{OPUS,SONNET,HAIKU}_MODEL_SUPPORTS 环境变量 - 覆盖 3rd 方 (Bedrock, Vertex, Foundry) 默认模型的 effort/thinking 能力检测
  • ANTHROPIC_DEFAULT_{OPUS,SONNET,HAIKU}_MODEL_NAME/_DESCRIPTION - 自定义 /model 选择器标签
  • CLAUDE_STREAM_IDLE_TIMEOUT_MS 环境变量 - 配置流式空闲看门狗阈值 (默认 90s)
  • TaskCreated hook - 通过 TaskCreate 创建任务时触发
  • WorktreeCreate hook 支持 type: "http" - 通过响应 JSON 的 hookSpecificOutput.worktreePath 返回创建的工作树路径
  • allowedChannelPlugins 托管设置 - 团队/企业管理员可定义渠道插件白名单
  • x-client-request-id 请求头 - 用于超时调试
  • 空闲返回提示 - 用户返回 75+ 分钟后提示 /clear,减少过时会话的不必要 token 重缓存
  • Deep links 优化 - claude-cli:// 链接在首选终端打开,而非检测列表中的第一个
  • Rules/Skills paths - frontmatter 现在接受 YAML glob 列表
  • MCP 工具描述限制 - 工具描述和服务器指令上限 2KB,防止 OpenAPI 生成的服务器膨胀上下文
  • MCP 服务器去重 - 本地和 claude.ai 连接器配置的重复服务器现在去重,本地配置优先
  • 后台任务通知 - 卡在交互提示符的后台 bash 任务约 45 秒后显示通知
  • Token 显示优化 - ≥1M 的 token 数显示为 "1.5m" 而非 "1512.6k"
  • 全局系统提示缓存 - 启用 ToolSearch 时现在正常工作,包括配置了 MCP 工具的用户

重要修复:

  • 语音按住说话不再向文本输入泄漏字符,转录现在在正确位置插入
  • 上/下箭头键在聚焦 footer 项目时无响应
  • Ctrl+U 在多行输入的行边界处无操作,现在可以跨行清除
  • 空解绑默认和弦绑定仍然进入和弦等待模式
  • 鼠标事件在转录搜索输入中插入字面 "mouse" 文本
  • 工作流子代理在外部会话使用 --json-schema 且子代理也指定 schema 时失败 (API 400)
  • 某些终端上用户消息气泡中某些 emoji 后缺少背景色
  • "允许 Claude 编辑自己的设置" 权限选项对有 Edit(.claude) 允许规则的用户不生效
  • 生成大型编辑文件的附件片段时挂起
  • MCP 工具/资源缓存在服务器重连时泄漏
  • 部分克隆仓库 (Scalar/GVFS) 触发大量 blob 下载的启动性能问题
  • 原始终端光标不跟踪文本输入插入符,IME 组合 (CJK 输入) 现在内联渲染
  • macOS 上瞬态钥匙串读取失败导致的虚假 "未登录" 错误
  • 核心工具在没有激活绕过的情况下延迟导致的启动竞争,使 Edit/Write 在类型化参数上失败
  • Windows 驱动器根目录 (C:\, C:\Windows 等) 危险移除检测改进

性能优化:

  • 交互式启动加快约 30ms - 并行运行 setup() 与斜杠命令和代理加载
  • 带 MCP 服务器的 claude "prompt" 启动优化 - REPL 立即渲染而非阻塞直到所有服务器连接
  • p90 提示缓存率提升
  • 长会话中滚动重置减少 - 消息窗口现在不受压缩和分组更改影响
  • 动画工具进度滚动到视口上方时终端闪烁减少
  • [VSCode] 添加速率限制警告横幅,显示使用百分比和重置时间
  • 统计截图 (统计中 Ctrl+S) 现在在所有构建中工作且快 16 倍

Claude Code v2.1.83 重要更新 (2026-03-25)

新功能:

  • managed-settings.d/ 目录支持 - 多团队独立部署策略片段,按字母顺序合并
  • CwdChangedFileChanged hook 事件 - 响应式环境管理 (如 direnv)
  • sandbox.failIfUnavailable 设置 - 沙箱启用但无法启动时报错退出
  • disableDeepLinkRegistration 设置 - 阻止 claude-cli:// 协议处理程序注册
  • CLAUDE_CODE_SUBPROCESS_ENV_SCRUB=1 - 清理子进程环境中的敏感凭据
  • Transcript 搜索 - 在 transcript 模式 (Ctrl+O) 按 / 搜索,n/N 遍历匹配
  • Ctrl+X Ctrl+E 别名 - 打开外部编辑器 (原有 Ctrl+G 仍可用)
  • 粘贴图片位置引用 - 粘贴图片插入 [Image #N] chip,可在 prompt 中位置引用
  • Agents initialPrompt - Agent 可在 frontmatter 声明自动提交的首条消息
  • chat:killAgentschat:fastMode 可通过 ~/.claude/keybindings.json 重绑定
  • Plugin 配置外部化 - manifest.userConfig 支持启用时提示配置,sensitive: true 存入 keychain
  • /status 可在响应期间使用 (不再排队到 turn 结束)
  • 非流式回退 - token 上限提升至 64k,超时延长至 300s (本地)
  • 中断恢复 - 响应前中断自动恢复输入以便编辑重提交

性能优化:

  • Bedrock SDK 冷启动延迟优化 - 并行获取 profile
  • --resume 内存和启动延迟优化
  • 插件启动优化 - 从磁盘缓存加载,无需重新获取
  • WebFetch 内存峰值降低
  • scrollback 重置频率从每 turn 降至每 ~50 条消息
  • claude -p 启动加速 (~600ms,非认证 HTTP/SSE MCP)
  • --bare -p (SDK 模式) 快 14%

重要修复:

  • macOS 退出挂起问题
  • 屏幕空闲后闪烁问题
  • 大文件 diff 超时 (5s 后优雅降级)
  • 语音输入启用时启动冻结 (~1-8s)
  • MCP 工具调用在 SSE 连接断开时无限挂起
  • 远程会话内存泄漏 (tool use ID 无限累积)
  • Linux Docker/headless/WSL1 无音频硬件时 ALSA 错误
  • 多个 UI 和交互问题

API/SDK 变更:

  • 弃用 TaskOutput tool - 改用 Read 读取后台任务输出文件
  • 粘贴图片现在可通过磁盘路径进行文件操作
  • Ctrl+L 清屏并强制重绘 (用于 Cmd+K 后恢复 UI)
  • MEMORY.md 索引截断上限从 200 行增加至 25KB
  • --channels 模式禁用 AskUserQuestion 和 plan-mode tools

Claude Code 最新插件 (2026-03-25)

  • memory-alert 插件 (PR #38728, 新增 2026-03-25): 系统内存监控插件,在内存超过阈值时在终端显示警报,支持 macOS (vm_stat) 和 Linux (/proc/meminfo),默认阈值 5GB,可通过 MEMORY_ALERT_THRESHOLD_GB 环境变量配置
  • multi-setup 插件 (PR #38636, 新增 2026-03-25): 并行开发工作区插件,支持多项目独立设置和同步开发,解决多仓库并行开发的配置管理问题
  • session-rename 插件 (PR #38182, 新增 2026-03-24): 新增 /rename 命令支持会话重命名,方便在多会话场景下管理会话标识
  • DevContainer GitHub API 认证 (PR #38167, 新增 2026-03-24): devcontainer 防火墙脚本支持通过 GH_TOKEN 环境变量使用认证请求访问 GitHub API,避免共享 IP 环境下的速率限制问题
  • WhatsApp 频道插件 (PR #38105, 新增 2026-03-24): 新增 WhatsApp 频道消息发送支持,扩展 Claude Code 的通信能力
  • lean-agents 插件 (PR #38045, 新增 2026-03-24): 子代理上下文膨胀解决方案,通过智能上下文压缩和过滤机制,解决多代理协作时的上下文爆炸问题
  • hookify StopFailure 支持 (PR #37979, 新增 2026-03-24): 为 hookify 添加 StopFailure 钩子支持,处理 API 错误(速率限制、认证失败、余额不足等),包含信用余额错误示例
  • claude-tunnels 插件 (PR #37800, 新增): 多项目编排插件,支持跨项目 Claude Code 实例的隧道通信和协调
  • parallel-batch-safe 插件 (PR #37680, 新增): 并行批量任务认证安全插件,解决 VS Code/Cursor 扩展在并行 claude -p 任务时的 OAuth 认证丢失问题,支持 tmux 分离会话和令牌预刷新
  • skill-development 更新 (PR #37648): SKILL.md frontmatter 完整参考,涵盖 11 个字段 (name, description, argument-hint, disable-model-invocation, user-invocable, allowed-tools, model, effort, context, agent, hooks)
  • spinner-customization 插件 (PR #37631, 新增): Spinner 风格自定义插件,支持 /spinner-mode/spinner-preview 命令切换四种风格 (quirky、plain、minimal、none)
  • Pre/PostToolUse 消息修复 (PR #36625, 新增 2026-03-23): 修复 hookify 插件使用 systemMessage 导致 Claude 无法看到消息的问题,改为使用 permissionDecisionReason
  • feature-dev 工作流修复 (PR #31501, 新增 2026-03-23): 修复 TodoWrite 覆盖阶段级 Todo 导致 Phase 6/7 被跳过的问题,添加 [Phase N] 前缀约定
  • MCP OAuth 热修复 (PR #29943, 新增 2026-03-23): 添加 redirectUri 热修复包补丁脚本
  • agents-md 插件 (PR #37241, 已合并): 自动加载 AGENTS.md 文件,解决 Claude Code (CLAUDE.md) 与其他 AI 工具 (Cursor、OpenAI Codex、Amp) 的文件格式兼容问题
  • tmp-cwd-cleanup 插件 (PR #37236): 清理 /tmp/claude-*-cwd 临时文件,解决文件累积导致的性能问题
  • agentmarkup 插件 (PR #37082): 为网站添加 AI 可读元数据,支持 llms.txt、llms-full.txt、JSON-LD、markdown 镜像
  • 持久化内存系统 (PR #37159, 草稿): 零依赖的代理内存系统,包含 MemoryStore、SessionManager、AgentOrchestrator

Claude Code 最新插件 (2026-03-29)

  • tmp-cleanup 插件 (PR #39977, 新增 2026-03-27): 自动清理 /tmp 目录下的 Claude 相关临时文件,解决磁盘空间泄漏问题
  • frontend-design-system 插件 (PR #39370, 新增 2026-03-26): 前端设计系统辅助插件,支持组件库和设计 token 管理
  • Bark 社区插件 (PR #39320, 新增 2026-03-26): AI 驱动的权限钩子插件,智能权限管理和安全控制
  • /dream 命令插件 (PR #39299, 新增 2026-03-26): 手动内存整合插件,支持主动触发记忆巩固和上下文优化
  • preserve-session 插件 (PR #39148, 新增 2026-03-26): 路径无关的会话历史持久化插件,支持跨目录会话恢复
  • devcontainer 防火墙增强 (PR #40322, 2026-03-28): 混合静态/动态 IP 管理,支持 CIDR 表示法和动态 IP 自动更新

Claude Cookbooks 最新内容

  • Knowledge Graph Construction: 知识图谱构建指南 (PR #463, 2026-03-28 合并) - NER + 关系提取、实体消解、NetworkX 图组装、实体摘要、多文档处理,已迁移至结构化输出
  • SceneView 3D/AR MCP Cookbook (PR #472, 新增 2026-03-26): 第三方 SceneView 3D/AR MCP 集成指南
  • HDP Notebook (PR #470, 新增 2026-03-26): Human Delegation Provenance for Claude Agents - 人工委托溯源笔记本
  • Self-Improving Agents (PR #469, 新增 2026-03-26): 结构化反思的自改进代理 cookbook
  • Building Your Own MCP Server (PR #467, 新增 2026-03-25): Claude Agent SDK 构建 MCP 服务器指南
  • Claude on Cloudflare Workers (PR #466, 新增 2026-03-25): 第三方 Cloudflare Workers 部署 cookbook
  • Prompt Injection Defense (PR #456, 新增 2026-03-19): Prompt 注入防御 cookbook
  • Verification Gate Pattern: 验证门模式 cookbook (PR #461, 2026-03-23 新增)
  • Claude Agent SDK: 一行代码研究代理、办公室主任代理、可观测性代理、SRE 代理 (2026-03-18 新增)
  • OpenAI Migration: OpenAI Agents SDK 迁移指南 (2026-03-18 新增) - 映射工具、护栏、会话、交接等核心概念
  • Multi-turn Conversation: 多轮对话管理 cookbook (PR #453, 2026-03-18)
  • Prompt Injection Defense: Prompt 注入防御 cookbook (PR #456, 2026-03-19)
  • Block-no-verify Hook: PreToolUse 钩子防止未验证代码块执行 (PR #457, 2026-03-20)
  • Instruction Dilution Eval: 指令稀释评估 notebook (PR #454, 2026-03-19)
  • Model List Fix: 修复过时模型列表和引用 (PR #444, 2026-03-22)
  • Capabilities: 分类、RAG、摘要
  • Tool Use: 客服代理、计算器集成、SQL 查询
  • Third-Party: Pinecone RAG、Wikipedia 搜索、Voyage AI 嵌入
  • Multimodal: 图像处理、图表解读、表单提取
  • Advanced: Sub-agents、PDF 处理、自动评测、JSON 模式、内容审核、Prompt 缓存
  • New: Site Reliability Agent Cookbook (2026-02-24)、Context Compaction Cookbook (2026-01-30)

⭐ What 81,000 people want from AI (2026-03-18)

Anthropic 发布史上最大规模的 AI 使用调查报告:

  • 📊 81,000 参与者: Claude.ai 用户参与的最大规模多语言定性研究
  • 🌍 多语言覆盖: 覆盖全球用户,了解真实 AI 使用场景和期望
  • 💭 核心发现: 用户最关心 AI 的实用性、安全性和可及性
  • 🔮 未来展望: 用户对 AI 发展的期望和担忧

⭐ Claude Partner Network $100M 投资 (2026-03-12)

Anthropic 宣布向 Claude 合作伙伴网络投资 1 亿美元:

  • 💰 $100M 投资: 支持合作伙伴生态系统发展
  • 🤝 合作伙伴计划: 为咨询公司、技术合作伙伴提供资源和支持
  • 🚀 加速采用: 帮助企业更快部署和采用 Claude
  • 🌐 全球扩展: 支持全球合作伙伴网络建设

⭐ The Anthropic Institute 成立 (2026-03-11)

Anthropic 宣布成立 Anthropic 研究院:

  • 🏛️ 独立研究机构: 专注于 AI 安全和对齐研究
  • 🔬 长期研究: 支持 AI 安全领域的长期基础研究
  • 🤝 学术合作: 与学术界和研究机构建立合作关系
  • 📚 开放研究: 推动开放研究和知识共享

⭐ Sydney 亚太第四办公室 (2026-03-10)

Anthropic 宣布悉尼将成为亚太地区第四个办公室:

  • 🇦🇺 悉尼办公室: 继新加坡、东京、首尔后的第四个亚太办公室
  • 🌏 区域扩张: 加强在澳大利亚和新西兰的业务
  • 💼 人才招聘: 计划招聘本地团队
  • 🤝 本地合作: 与本地企业和研究机构建立合作

Claude Sonnet 4.6 亮点

  • 🚀 前沿性能: 编码、代理和专业工作场景
  • 💻 编码能力: 显著提升的代码生成和理解
  • 🤖 代理任务: 更强的多步骤任务执行能力
  • 📈 规模部署: 企业级稳定性和性能

OpenAI 动态

日期标题链接
2026-03-25Model Spec 方法论详解 - OpenAI 公开模型行为规范框架的设计哲学与实现机制详情
2026-03-25Safety Bug Bounty 计划上线 - 专注于 AI 滥用和安全风险的新漏洞赏金计划详情
2026-03-24OpenAI Foundation 更新 - 计划投资至少 10 亿美元于疾病治愈、经济机会等领域详情
2026-03-24Teen Safety Policy Pack - 青少年安全策略指南,配合 gpt-oss-safeguard 使用详情
2026-03-24Teen Safety Policy Pack Cookbook - Codex 青少年安全策略指南 (PR #2545)GitHub
2026-03-24ChatGPT 产品发现升级 - Agentic Commerce Protocol 扩展,视觉购物体验详情
2026-03-23Creating with Sora Safely - Sora 安全使用指南详情
2026-03-21RAG Troubleshooting Reference - RAG 系统故障排除指南 (PR #2540)GitHub
2026-03-21flatted 依赖更新 - 安全性修复 (PR #2539)GitHub
2026-03-20initialize_agent 迁移 - 用 create_react_agent 替换废弃 API (PR #2538)GitHub
2026-03-20flatted 依赖更新 - 安全性修复 (PR #2537)GitHub
2026-03-19如何监控内部编程智能体的对齐失范 - 安全研究与防范措施详情
2026-03-19OpenAI 收购 Astral - 加速 Codex 发展,支持 Python 开发工具详情
2026-03-19监控内部编程代理对齐失范 - CoT 监控研究与安全实践详情
2026-03-19Free Web Search Ultimate Cookbook - 免费实时网络搜索 (PR #2530)GitHub
2026-03-18socket.io-parser 安全修复 - CVE-2026-33151 依赖更新 (PR #2532)GitHub
2026-03-17Japan Teen Safety Blueprint - 日本青少年安全框架详情
2026-03-17GPT-5.4 mini and nano 发布 - 更小更快的新模型详情
2026-03-16Why Codex Security Doesn't Include a SAST Report - AI 安全验证方法详情
2026-03-15Runtime Containment Cookbook - 多代理工作流预算执行与熔断器 (PR #2525)GitHub
2026-03-14Weighted Messages Fine-tuning - 聊天微调加权消息处理 (PR #2524)GitHub
2026-03-13tiktoken GPT-5/o-series 支持 - 解决 token 计数问题 (PR #2515)GitHub
2026-03-13Sora Cookbook 更新 - 角色引用、1080p、20秒视频、视频扩展GitHub
2026-03-13Sora Prompting Guide 更新 - 新增示例 GIF 和视觉素材GitHub
2026-03-27STADLER 重塑 230 年企业的知识工作 - 650 名员工效率提升详情
2026-03-11Rakuten 使用 Codex 提升 2 倍修复速度 - MTTR 降低 50%详情
2026-03-11Wayfair 用 OpenAI 提升目录准确性和客服速度详情
2026-03-11Designing AI agents to resist prompt injection (安全防护)详情
2026-03-11Responses API 计算机环境 - Shell Tool 与容器工作区详情
2026-03-10提升前沿大语言模型的指令层级结构 (研究)详情
2026-03-10ChatGPT 数学与科学学习新功能详情
2026-03-09OpenAI 将收购 Promptfoo详情
2026-03-075.4 Vision Cookbook 发布OpenAI Cookbook
2026-03-06Balyasny Asset Management 用 GPT-5.4 构建 AI 研究引擎详情
2026-03-06Descript 多语言视频配音规模化方案详情
2026-03-06Codex Security 研究预览版上线详情
2026-03-05GPT-5.4 发布 - 最新旗舰模型详情
2026-03-05GPT-5.4 Thinking System Card详情
2026-03-05推理模型难以掌控思维链,但这反而是件好事详情
2026-03-05ChatGPT for Excel 和金融数据集成详情
2026-03-05The five AI value models driving business reinvention详情
2026-03-05Codex Prompting Guide - gpt-5.3-codex 状态更新GitHub PR #2486
2026-03-04Long Horizon Cookbook 迁移至开发者博客GitHub PR #2479
2026-03-03Realtime Evals/Types 工具更新GitHub PR #2485

⭐ GPT-5.4 重大发布 (2026-03-05)

OpenAI 发布 GPT-5.4,最新旗舰模型:

  • 🚀 性能提升: 相比 GPT-5.3 全面升级
  • 🧠 Thinking Model: 支持 Chain-of-Thought 推理
  • 💼 企业级: Codex Security 研究预览版同步上线
  • 📊 Excel 集成: ChatGPT for Excel 正式推出

⭐ GPT-5.4 mini and nano 发布 (2026-03-17)

OpenAI 发布 GPT-5.4 系列的小型化版本:

  • 🚀 更小更快: 专为编码、工具使用、多模态推理优化
  • 高吞吐量: 适合高并发 API 和子代理工作负载
  • 💰 成本效益: 更低的推理成本,适合规模化部署
  • 🔧 子代理场景: 为 AI Agent 工作流提供高效支持

⭐ Model Spec 方法论详解 (2026-03-25)

OpenAI 发布 Model Spec 设计哲学与实现机制的详细解读:

  • 📜 透明度工具: Model Spec 是行为规范的公开文档,让用户、开发者、研究者、政策制定者可以理解、审查、辩论模型行为
  • 🎯 三大目标: 逐步部署赋能用户、防止严重伤害、维持运营许可
  • 🔗 Chain of Command: 定义指令权威层级,System > Developer > User > Tool,解决冲突时优先高权威指令
  • 📏 硬规则与默认值: 硬规则不可覆盖(安全边界),默认值可被用户/开发者覆盖(行为偏好)
  • 🔧 解释性辅助: 决策规则和具体示例帮助模型和人类在灰色区域一致决策
  • 🌐 公开迭代: Model Spec 在 GitHub 开源,根据公众反馈持续迭代

⭐ Safety Bug Bounty 计划上线 (2026-03-25)

OpenAI 推出专注于 AI 安全和滥用风险的新漏洞赏金计划:

  • 🛡️ AI 特定场景: 覆盖传统安全漏洞赏金计划之外的安全风险
  • 🤖 Agent 风险: 第三方 prompt 注入和数据泄露、Agent 执行禁用操作、MCP 风险测试
  • 🔒 专有信息保护: 模型返回推理专有信息、其他 OpenAI 专有信息泄露
  • 👤 账户和平台完整性: 绕过反自动化控制、操纵信任信号、规避账户限制
  • 🚫 范围说明: 通用内容策略绕过(如粗鲁语言)不在范围内,但私人 Bug Bounty 活动会针对性研究特定危害类型
  • 🤝 研究者合作: 与安全研究社区合作,构建安全的 AI 生态系统

⭐ OpenAI Foundation 更新:10 亿美元投资计划 (2026-03-24)

OpenAI 基金会宣布启动重大投资计划:

  • 💰 投资规模: 计划在未来一年投资至少 10 亿美元
  • 🧬 生命科学与疾病治愈: 阿尔茨海默症研究、公共健康数据、高死亡率疾病
  • 💼 就业与经济影响: 应对 AI 带来的就业变化,创造经济机会
  • 🛡️ AI 韧性: 增强 AI 系统安全性和社会抗风险能力
  • 🏘️ 社区项目: 支持受 AI 影响的社区
  • 👤 Jacob Trefethen: 前Coefficient Giving 科学健康资助负责人,出任生命科学主管

⭐ Teen Safety Policy Pack 发布 (2026-03-24)

OpenAI 发布青少年安全策略包:

  • 🔒 gpt-oss-safeguard: 配合开源安全模型使用
  • 📋 Prompt-based 策略: 将安全要求转化为可用分类器
  • 👨‍👩‍👧‍👦 年龄适配保护: 为青少年用户提供额外保护
  • 🤝 外部合作: 与 Common Sense Media、everyone.ai 合作开发

⭐ OpenAI 收购 Astral (2026-03-19)

OpenAI 宣布收购 Astral,加速 Codex 发展:

  • 🐍 Python 开发工具: Astral 团队将助力 Codex 支持下一代 Python 开发工具
  • 🚀 Codex 增长: 进一步提升 Codex 在 Python 生态系统中的能力
  • 💼 战略收购: 延续 OpenAI 收购 Promptfoo 等公司的战略布局

⭐ 监控内部编程智能体的对齐失范 (2026-03-19)

OpenAI 发布内部安全研究,分享如何监控编程 AI 代理的对齐失范:

  • 🔒 对齐监控: 监控内部 AI 编程代理的异常行为
  • 🧠 编程代理安全: 防止编程 AI 在自主操作时偏离预期目标
  • 📊 安全框架: 建立内部 AI 系统的安全监控机制
  • 🛡️ 前沿安全: 探索 AGI 时代的安全治理方法

⭐ Codex Security 不使用 SAST 的原因 (2026-03-16)

OpenAI 解释 Codex Security 为何不依赖传统 SAST:

  • 🧠 AI 驱动约束推理: 使用 AI 进行约束推理和验证
  • 🎯 更低误报率: 相比传统 SAST,减少噪音警报
  • 🔍 真实漏洞检测: 专注于发现真实漏洞而非误报
  • 📊 上下文感知: 分析项目上下文提升检测准确度

⭐ 指令层级结构研究 (2026-03-10)

OpenAI 发布指令层级安全训练研究:

  • 📊 IH-Challenge: 新型强化学习训练数据集
  • 🛡️ 安全提升: 改善安全可控性和抗提示注入能力
  • 🎯 层级优先级: System > Developer > User > Tool
  • 📈 性能表现: GPT-5 Mini-R 在多项安全评测中显著提升

⭐ AI Agent 抵抗 Prompt 注入设计 (2026-03-11)

OpenAI 发布 AI Agent 安全设计指南:

  • 🔒 社会工程学视角: 将 prompt injection 视为社会工程学攻击,而非简单字符串过滤
  • 🛡️ Safe URL 机制: 检测敏感信息传输,要求用户确认或阻止
  • 📊 Source-Sink 分析: 追踪不受信任的外部内容与危险能力的组合
  • 🤖 客户服务代理模型: AI agent 类似客服系统,需要权限限制和风险评估

⭐ Responses API 计算机环境 (2026-03-11)

OpenAI 为 Responses API 添加完整的计算机环境:

  • 🖥️ Shell Tool: 支持 Unix 命令行工具 (grep, curl, awk 等)
  • 📦 Container Workspace: 托管容器,独立文件系统和数据库
  • 🔄 Context Compaction: 原生上下文压缩,支持长运行任务
  • 并发执行: 多命令并行执行,输出边界控制
  • 🔗 网络访问: 受限网络策略,安全的 API 调用

⭐ 企业案例: Rakuten 用 Codex 提升 2 倍修复速度 (2026-03-11)

Rakuten 使用 Codex 构建企业级软件开发解决方案:

  • 🚀 MTTR 降低 50%: 平均修复时间减半
  • 🔧 自动化 CI/CD 审查: 自动化代码审查流程
  • 📦 全栈构建: 数周内完成完整全栈项目
  • 💼 企业级规模: 支持大规模企业软件开发

⭐ 企业案例: Wayfair 用 OpenAI 提升客服效率 (2026-03-11)

Wayfair 使用 OpenAI 模型优化电商运营:

  • 📊 目录准确性提升: 自动化数百万商品属性增强
  • 🎫 工单分类: 自动化客服工单路由
  • 客服速度提升: 更快的响应和解决时间
  • 🛒 电商规模化: 支持大规模电商运营

⭐ 企业案例: Balyasny 用 GPT-5.4 构建 AI 研究引擎 (2026-03-06)

Balyasny Asset Management 展示投资分析 AI 系统:

  • 🧠 GPT-5.4 驱动: 使用最新旗舰模型
  • 📊 严格模型评估: 多维度性能评估框架
  • 🤖 Agent 工作流: 复杂投资分析自动化
  • 💰 规模化投资分析: 支持大规模投资决策

⭐ 企业案例: Descript 多语言视频配音 (2026-03-06)

Descript 使用 OpenAI 模型实现规模化多语言视频配音:

  • 🌍 多语言支持: 跨语言配音解决方案
  • 🎯 意义与时机优化: 翻译兼顾语义和时间匹配
  • 🎬 自然语音: 配音输出听起来自然流畅
  • 📈 规模化生产: 支持大规模视频内容本地化

⭐ Creating with Sora Safely: Sora 安全使用指南 (2026-03-23)

OpenAI 发布 Sora 安全使用指南,介绍 Sora 2 和 Sora 应用的安全机制:

  • 🔍 AI 内容识别: 所有 Sora 生成的视频都包含可见和不可见的溯源信号,嵌入 C2PA 元数据
  • 🔎 反向搜索: 内置反向图像和音频搜索工具,可高精度追踪视频来源
  • 💧 动态水印: 多数输出携带动态移动水印,包含创作者名称
  • 👤 图像到视频与真人肖像: 用户可在声明同意后使用亲友照片创建视频,实施严格安全护栏
  • 🧒 儿童保护: 包含儿童或年轻外观的图像受到更严格的审核和护栏
  • 🎭 基于同意的肖像 (Characters): 用户对 Sora 中的肖像有完全控制权,包括外观和声音
  • 🔒 权限控制: 只有用户可以决定谁能使用其 Characters,可随时撤销访问

⭐ Sora Cookbook 重大更新 (2026-03-13)

OpenAI 更新 Sora API Cookbook,带来多项新功能:

  • 🎭 角色引用 (Character References): 上传角色后可在多个视频中保持一致外观,支持物体和动物
  • 📺 高分辨率导出: 支持 1920×1080 和 1080×1920 分辨率
  • ⏱️ 更长视频: 最长时长从 12 秒提升至 20 秒
  • 🔄 视频扩展: 使用完整初始片段作为上下文扩展视频,最多扩展 6 次,总时长可达 120 秒
  • 📦 Batch API for Video: 异步视频生成,支持大规模生产工作流
  • 🔗 新端点:
    • POST /v1/videos - 创建视频
    • POST /v1/videos/characters - 创建角色
    • POST /v1/videos/extensions - 扩展视频
    • POST /v1/videos/{video_id}/edits - 编辑视频

OpenAI Cookbook 5.4 Vision Cookbook 亮点

  • 🆕 OpenAI 最新发布的 Vision Cookbook,涵盖 5.4 模型的视觉能力
  • 📸 图像处理最佳实践
  • 🔧 多模态应用开发指南
  • 📊 视觉理解与生成技术详解

Claude Code 发布

Anthropic 发布 Claude Code,一个终端 AI 助手:

  • 命令行代码生成
  • 项目理解
  • Git 操作集成
  • 调试辅助

按来源

Anthropic

日期标题链接
2026-03Claude Cookbooks 持续更新GitHub
2026-02Claude Sonnet 4.6 发布详情
2026-02Claude 无广告承诺详情
2026-01Claude 登陆火星详情

OpenAI

日期标题链接
2026-03GPT-5.4 发布详情
2026-03收购 Promptfoo详情
2026-03Codex Security 研究预览版详情
2026-03ChatGPT for Excel详情
2026-03Vision Cookbook 5.4OpenAI Cookbook
2026-03gpt-5.3-codex 更新OpenAI Cookbook
-查看 OpenAI 最新动态OpenAI News

Hugging Face

日期标题链接
2026-03-27Liberate your OpenClaw - 开源 AI 助手框架部署与自定义指南详情
2026-03-27Cohere-transcribe - 最先进语音识别模型,支持多语言转录详情
2026-03-24EVA: Voice Agent Evaluation Framework - ServiceNow 语音代理评估框架详情
2026-03-20Build a Domain-Specific Embedding Model in Under a Day - NVIDIA 无需标注数据的嵌入模型微调详情
2026-03-20Mellea 0.4.0 + Granite Libraries - IBM 结构化生成工作流框架详情
2026-03-20Nemotron 3 Content Safety 4B - NVIDIA 多模态多语言内容审核模型详情
2026-03-20Mellea 0.4.0 + Granite Libraries - IBM 结构化生成工作流框架详情
2026-03-19SPEED-Bench - NVIDIA 推测解码统一基准详情
2026-03-18State of Open Source on HF: Spring 2026 - 开源生态现状报告详情
2026-03-18Demystifying Video Reasoning - 视频生成模型推理机制揭秘详情
2026-03-17Nemotron 3 Nano 4B - NVIDIA 混合架构边缘模型详情
2026-03-17Holotron-12B - 高吞吐量计算机使用 Agent 模型详情
2026-03-16Healthcare Robotics Dataset - 首个医疗机器人数据集与物理AI基础模型详情
2026-03-10Storage Buckets on HF Hub - Hugging Face Hub 存储桶功能详情
2026-03-10Keep the Tokens Flowing: RL Libraries Lessons详情
2026-03-09Granite 4.0 1B Speech - 紧凑多语言边缘模型详情
2026-03-09Ulysses Sequence Parallelism - 百万 Token 上下文训练详情
2026-03-09LeRobot v0.5.0 - 全面扩展版本详情
2026-03-05Bringing Robotics AI to Embedded Platforms (NXP)详情
2026-03-05Modular Diffusers - 可组合扩散流水线构建块详情
2026-03-03PRX Part 3: Training Text-to-Image in 24h详情
2026-02-26Mixture of Experts (MoEs) in Transformers详情
2026-02-20GGML and llama.cpp join HF - Local AI 重大里程碑详情
2026-02-20Train AI models with Unsloth and HF Jobs FREE详情
2026-02-18One-Shot Any Web App with Gradio's gr.HTML详情
2026-02-13Custom Kernels for All from Codex and Claude详情
2026-02-18IBM and UC Berkeley Diagnose Why Enterprise Agents Fail详情
-查看 Hugging Face 最新动态Hugging Face Blog
2026-03-13NVIDIA AI-Q DABStep #1: 可复用工具生成的数据科学家 Agent详情
2026-03-12How NVIDIA AI-Q Reached #1 on DeepResearch Bench I and II详情
2026-03-11Code Concepts: Synthetic Dataset from Programming Seeds详情
2026-03-10Introducing Storage Buckets on the Hugging Face Hub详情
2026-03-10Keep the Tokens Flowing: RL Libraries Lessons详情
2026-03-10Granite 4.0 1B Speech: Compact Multilingual Edge Model详情
2026-03-09Ulysses Sequence Parallelism: Million-Token Contexts详情
2026-03-09LeRobot v0.5.0: Scaling Every Dimension详情
2026-03-05Bringing Robotics AI to Embedded Platforms (NXP)详情
2026-03-05Modular Diffusers: Composable Building Blocks详情
2026-03-04PRX Part 3: Training Text-to-Image in 24h详情
2026-02-26Mixture of Experts (MoEs) in Transformers详情
2026-02-20GGML and llama.cpp join Hugging Face详情
2026-02-20Train AI models with Unsloth and Hugging Face Jobs FREE详情
2026-02-18One-Shot Any Web App with Gradio's gr.HTML详情
2026-02-13Custom Kernels for All from Codex and Claude详情
-查看 Hugging Face 最新动态Hugging Face Blog

⭐ Build a Domain-Specific Embedding Model in Under a Day (2026-03-20)

NVIDIA 发布域特定嵌入模型微调教程,无需手动标注数据:

  • 🧠 合成数据生成: 使用 NeMo Data Designer 从领域文档自动生成高质量问答对
  • ⛏️ Hard Negative Mining: 挖掘困难负样本,让模型学习领域细微差异
  • 🔗 Multi-Hop Queries: 支持 1-3 跳复杂查询,提升多文档检索能力
  • 📊 性能提升: Atlassian 在 JIRA 数据集上 Recall@60 从 0.751 提升至 0.951 (+26%)
  • 快速训练: 单 GPU 一天内完成微调
  • 🔧 开源工具链: NeMo Data Designer + NeMo Automodel + BEIR + NVIDIA NIM
  • 📦 开源数据集: NVIDIA 公开文档生成的合成训练数据集

⭐ Mellea 0.4.0 + Granite Libraries: IBM 结构化生成框架 (2026-03-20)

IBM Research 发布 Mellea 0.4.0 和三款 Granite Libraries:

  • 🧠 Mellea 0.4.0: 开源 Python 库,用结构化、可维护的工作流替代概率性 Prompt 行为
  • 📦 Granite Libraries: 专为 Granite-4.0-micro 设计的 LoRA 适配器库
    • granitelib-core-r1.0: 需求验证,支持 instruct-validate-repair 循环
    • granitelib-rag-r1.0: RAG 流水线任务,覆盖预检索、后检索、后生成
    • granitelib-guardian-r1.0: 安全性、事实性、策略合规检查
  • 🔄 约束解码: 通过结构化解码保证 Schema 正确性
  • 🛡️ Instruct-Validate-Repair: 拒绝采样策略实现自动修复
  • 📊 可观测性钩子: 事件驱动回调监控工作流

⭐ EVA: Voice Agent Evaluation Framework (2026-03-24)

ServiceNow 发布 EVA,首个联合评估语音代理任务准确性和对话体验的端到端框架:

  • 🎯 双维度评估: EVA-A (准确性) + EVA-X (体验) 联合评分
  • 🤖 Bot-to-Bot 架构: 用户模拟器 + 语音代理 + 工具执行器 + 验证器 + 指标套件
  • 📊 EVA-A 准确性: 任务完成度 (确定性) + 忠实度 (LLM 评判) + 语音保真度 (LALM 评判)
  • 💬 EVA-X 体验: 简洁性 + 对话推进 + 轮流时机
  • ✈️ 航空数据集: 50 个场景覆盖航班改签、取消、候补、代金券等
  • 🔬 基准测试: 20 个系统评估,发现一致的准确性-体验权衡
  • 📝 开源: 代码、数据集、评判提示完全开源于 GitHub
  • 🔑 关键发现: 命名实体转录是主要失败模式,多步骤工作流是复杂度瓶颈

⭐ State of Open Source on Hugging Face: Spring 2026 (2026-03-18)

Hugging Face 发布开源 AI 生态现状报告,揭示关键趋势:

  • 📈 规模增长: 用户数达 1300 万,超过 200 万公开模型,50 万+公开数据集
  • 🌏 地理格局变化: 中国模型下载量首次超越美国,占 41% 下载量
  • 👤 个人开发者崛起: 独立开发者占比从 17% 升至 39%,成为生态重要力量
  • 🏢 企业采用: 财富 500 强中超过 30% 在 HF 有认证账户
  • 🤖 机器人数据集爆发: 从 2024 年的 1,145 个增至 2025 年的 26,991 个,成为最大数据集类别
  • 📊 模型大小趋势: 下载模型平均参数从 8.27M (2023) 增至 20.8B (2025),但中位数仅从 326M 增至 406M
  • 🔧 衍生模型: Qwen 系列衍生模型超过 20 万个,Alibaba 衍生模型数量超过 Google + Meta 总和
  • ⏱️ 模型生命周期: 平均参与周期约 6 周,持续更新是保持相关性的关键
  • 🌐 主权 AI: 开源模型让政府和机构能够在本地数据和法律框架下微调部署

⭐ Nemotron 3 Content Safety 4B: 多模态多语言内容审核模型 (2026-03-20)

NVIDIA 发布 Nemotron 3 Content Safety 4B,基于 Gemma-3 4B-IT 的多模态多语言内容安全模型:

  • 🧠 多模态支持: 同时处理文本和图像,理解图文组合的语义变化
  • 🌍 多语言能力: 支持 140+ 语言,针对 12 种语言深度优化(英语、阿拉伯语、德语、西班牙语、法语、印地语、日语、泰语、荷兰语、意大利语、韩语、中文)
  • 🔄 两种推理模式:
    • 默认模式: 快速安全/不安全分类
    • 分类模式: 输出详细违规类别(基于 Aegis AI Content Safety Dataset v2 分类法)
  • 📊 基准测试: 多模态有害内容测试平均准确率 84%,超越同类开源模型
  • 低延迟: 推理延迟约为大型多模态安全模型的一半,适合实时 Agent 循环
  • 🛡️ 文化敏感: 识别同一内容在不同文化语境下的安全状态差异
  • 🔧 部署方式: Hugging Face 开源,4 月将推出 NVIDIA NIM 生产就绪版本

⭐ Mellea 0.4.0 + Granite Libraries: IBM 结构化生成工作流框架 (2026-03-20)

IBM Research 发布 Mellea 0.4.0 和三款 Granite Libraries,构建结构化、可验证、安全感知的 AI 工作流:

  • 🧠 Mellea 0.4.0: 开源 Python 库,用结构化、可维护的工作流替代概率性 Prompt 行为
  • 📦 Granite Libraries: 专为 Granite-4.0-micro 设计的 LoRA 适配器库
    • granitelib-core-r1.0: 需求验证,支持 instruct-validate-repair 循环
    • granitelib-rag-r1.0: RAG 流水线任务,覆盖预检索、后检索、后生成
    • granitelib-guardian-r1.0: 安全性、事实性、策略合规检查
  • 🔄 约束解码: 通过结构化解码保证 Schema 正确性
  • 🛡️ Instruct-Validate-Repair: 拒绝采样策略实现自动修复
  • 📊 可观测性钩子: 事件驱动回调监控工作流

⭐ SPEED-Bench: 推测解码统一基准 (2026-03-19)

NVIDIA 发布 SPEED-Bench,首个统一的推测解码评估基准:

  • 🔬 双数据集设计: Qualitative Split (语义多样性) + Throughput Split (真实服务负载)
  • 📊 Qualitative Split: 880 个样本覆盖 11 个领域 (Coding, Math, STEM, RAG, Roleplay 等)
  • Throughput Split: 1k-32k ISL 桶,支持高达 512 并发批处理
  • 🏭 生产级引擎: 支持 TensorRT-LLM、vLLM、SGLang
  • 🧠 语义多样性: 通过嵌入向量最小化成对余弦相似度确保样本代表性
  • 📈 Pareto 曲线: 用户 TPS vs 吞吐量权衡分析
  • 🔍 避免随机 Token: 随机 Token 会扭曲接受行为和 MoE 路由

⭐ Nemotron 3 Nano 4B: NVIDIA 混合架构边缘模型 (2026-03-17)

NVIDIA 发布 Nemotron 3 Nano 4B,最新的混合 Mamba-Transformer 架构轻量级模型:

  • 🚀 混合架构: 结合 Mamba SSM 和 Transformer 注意力机制,效率与精度兼顾
  • 💾 极低显存: 4B 参数,在 RTX 4070 上最低显存占用同级领先
  • 边缘部署: 支持 Jetson Thor/Orin Nano、DGX Spark、RTX GPU
  • 🎯 指令遵循: IFBench/IFEval 同级最优
  • 🎮 游戏智能: Orak 基准同级最优(Super Mario、Darkest Dungeon、Stardew Valley)
  • 🔧 工具调用: 优秀的工具使用性能,低幻觉率
  • 🧠 Nemotron Elastic: 从 Nemotron Nano 9B v2 压缩,使用端到端训练的路由器进行神经架构搜索
  • 📦 量化版本: 提供 FP8 和 Q4_K_M GGUF 版本

⭐ Holotron-12B: 高吞吐量计算机使用 Agent (2026-03-17)

H Company 发布 Holotron-12B,基于 NVIDIA Nemotron 的高吞吐量计算机使用模型:

  • 🚀 混合 SSM 架构: 结合 State-Space Model 和注意力机制,避免全注意力的二次计算成本
  • 2x 吞吐量提升: 单张 H100 上达到 8.9k tokens/s (并发 100),相比 Holo2-8B 的 5.1k tokens/s
  • 🧠 14B tokens 训练: 从 Nemotron-Nano-12B-v2-VL 微调,专注屏幕理解和 UI 交互
  • 🏆 WebVoyager 80.5%: 从基础模型的 35.1% 大幅提升,超越 Holo2-8B
  • 📍 定位基准提升: OS-World-G、GroundUI、WebClick 等定位任务显著改进
  • 🔓 NVIDIA Open Model License: 模型和检查点已在 Hugging Face 开源
  • 🎯 适用场景: 数据生成、标注、在线强化学习等吞吐量敏感工作负载

⭐ NVIDIA NeMo Retriever Agent 检索 (2026-03-14)

NVIDIA NeMo Retriever 团队发布新型 Agent 检索流水线,在多个排行榜取得优异成绩:

  • 🏆 ViDoRe v3 第一名: NDCG@10 达 69.22,超越密集检索基线
  • 🥈 BRIGHT 第二名: 在推理密集型检索排行榜得分 50.90
  • 🧠 ReACT 架构: 迭代搜索、评估、优化策略
  • 🔧 工具集成: think、retrieve、final_results 工具协同
  • 通用性: 同一架构无需修改即可适配不同类型任务
  • 🔄 单例检索器: 替代 MCP 服务器,提升 GPU 利用率和实验吞吐量

⭐ NVIDIA DABStep #1: 可复用工具生成 (2026-03-13)

NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer 在 DABStep 基准测试中取得第一名:

  • 🏆 SOTA 性能: 在 Hard 任务上得分 89.95,超越 DataPilot (87.57) 和 DS-STAR (45.24)
  • 30x 加速: 每任务仅 20 秒,对比 Claude Code + Opus 4.5 的 10 分钟
  • 🧠 三阶段架构: Learning Loop → Fast Inference → Offline Reflection
  • 🔧 可复用工具: 通过学习阶段生成 helper.py 工具库,推理阶段直接调用
  • 📊 多步推理: 专为复杂表格数据分析设计,支持多工具调用和迭代分析
  • 🎯 VLM 集成: 视觉语言模型自动解读图表输出并生成改进建议

⭐ Code Concepts: Synthetic Dataset (2026-03-11)

Hugging Face 发布大规模合成编程概念数据集:

  • 📊 合成数据: 从编程概念种子生成的大规模数据集
  • 🔧 代码理解: 提升代码生成和理解能力
  • 🎯 概念驱动: 基于编程概念的结构化数据生成方法
  • 🚀 开源贡献: 支持代码大模型训练和研究

⭐ NVIDIA Open Data for AI (2026-03-10)

Hugging Face 与 NVIDIA 合作推出开放数据计划:

  • 📊 开放数据集: 高质量 AI 训练数据集
  • 🔧 数据处理工具: NVIDIA 优化的数据处理流水线
  • 🌐 社区驱动: 支持社区贡献和协作
  • 🚀 加速研究: 降低 AI 研究的数据门槛

⭐ Storage Buckets on Hugging Face Hub (2026-03-10)

Hugging Face 推出 Storage Buckets 功能:

  • 🪣 存储桶: 大文件存储和管理
  • 🔗 Hub 集成: 与模型、数据集无缝协作
  • 📦 版本控制: 支持文件版本管理
  • 🚀 高效访问: 优化的文件下载和上传体验

Google AI

日期标题链接
2026-03-29AlphaGo 10 周年 - 十年前的那场比赛开启了现代 AI 革命详情
2026-03-17Personal Intelligence 扩展 - 个性化智能搜索体验详情
2026-03-17开源安全投资 - Alpha-Omega 项目 1250 万美元承诺详情
2026-03-xxGemini API tooling 更新 - 上下文循环、工具组合、Maps Grounding详情
2026-03-xxGroundsource - AI 助力社区预测自然灾害详情
2026-03-12AI 助力澳大利亚农村心脏健康 - Population Health AI 应用详情
2026-03-10AI Impact Summit 2026 - 印度峰会,150亿美元投资、AI政府创新挑战详情
2026-03-10Gemini in Google Sheets 达到 SOTA 性能详情
2026-03-10AI 改善英国乳腺癌检测详情
2026-03-06SpeciesNet 开源 AI 模型助力野生动物保护详情
2026-03-05Ask a Techspert: AI 如何理解视觉搜索详情
2026-03-052026年2月 AI 动态汇总详情
2026-03-04AI Mode Canvas:搜索中写代码和创作详情
2026-03-03Project Genie 4 个创作技巧详情
2026-03-03Gemini Embedding 2 - 首个原生多模态嵌入模型详情
2026-02-xxFebruary Gemini Drop 更新详情
2026-02-xxLyria 3:创作"火马年"个性化音乐详情
2026-02-xxGemini Android 多步骤任务处理详情
2026-02-xxAgentic Vision in Gemini 3 Flash详情
2026-02-xxGoogle I/O 2026 定档 5月19-20日详情
2025Google Beam 2025 四大亮点详情
-查看 Google AI 最新动态Google AI Blog

⭐ Personal Intelligence 扩展到更多用户 (2026-03-17)

Google 将 Personal Intelligence 扩展到美国地区的 AI Mode in Search、Gemini app 和 Gemini in Chrome:

  • 🔗 应用连接: 安全连接 Gmail、Google Photos 等 Google 应用
  • 🎯 个性化响应: 基于用户历史提供定制化推荐和帮助
  • 🛒 购物推荐: 根据购买历史和偏好推荐商品
  • 🛠️ 技术支持: 根据设备型号提供定制化故障排除步骤
  • ✈️ 旅行规划: 根据用户兴趣和偏好创建个性化行程
  • 🔒 隐私控制: 用户可随时开启或关闭应用连接
  • 🆓 免费用户: 现已向免费用户开放

⭐ 开源安全投资:Alpha-Omega 项目 (2026-03-17)

Google 与行业伙伴共同承诺 1250 万美元投资开源安全:

  • 💰 $12.5M 承诺: 与 Amazon、Anthropic、Microsoft/GitHub、OpenAI 共同投资
  • 🏢 Alpha-Omega 项目: Linux Foundation 开源安全项目
  • 🔐 Big Sleep: Google DeepMind AI 工具,自主发现和修复深层漏洞
  • 🛡️ CodeMender: AI 代码安全代理,已成功保护 Chrome 等复杂系统
  • 🔬 Sec-Gemini: 安全研究计划扩展到开源项目
  • 🤖 AI 驱动威胁: 应对新一代 AI 驱动的安全威胁
  • 🌐 开源社区: 帮助维护者快速部署安全修复

⭐ AlphaGo 10 周年:现代 AI 革命的起点 (2026-03-29)

Google DeepMind 纪念 AlphaGo 击败李世石十周年:

  • 🎯 里程碑: 2016年3月,AlphaGo 4:1 击败围棋世界冠军李世石,标志着 AI 历史的转折点
  • 🧠 AGI 愿景: Demis Hassabis 分享从解决"根节点"问题(核聚变、材料科学)到世界模型和仿真的 AGI 路径
  • 🤖 机器人实验室: Hannah Fry 参观新机器人实验室,体验能"看、思考、规划、行动"的机器人
  • 🧬 AlphaFold: 五年前解决蛋白质结构预测问题,解锁生物研究新途径,从重大挑战到诺贝尔奖
  • 📺 AGI 讨论: Shane Legg 分享 AGI 框架,从最小 AGI 到完整 AGI 的各层级定义和时间线

⭐ Gemini 3.1 Flash-Lite 发布 (2026-03-03)

Google 发布 Gemini 3.1 Flash-Lite,专注于大规模智能部署:

  • 🚀 高效推理: 优化延迟和成本
  • 📱 边缘部署: 适合移动端和边缘设备
  • 💰 成本优化: 大规模部署的经济选择
  • 🔗 API 兼容: 与现有 Gemini API 无缝集成

⭐ AI 助力澳大利亚农村心脏健康 (2026-03-12)

Google 与澳大利亚顶级医疗机构合作,将 AI 带给偏远社区:

  • ❤️ 心脏健康风险识别: 帮助偏远地区居民及早发现心脏健康风险
  • 🤝 合作伙伴: Wesfarmers Health、SISU Health、Victor Chang Cardiac Research Institute、Latrobe Health Services
  • 💰 $100万澳元投资: 来自 Google Australia 的 Digital Future Initiative (DFI)
  • 🧠 Population Health AI (PHAI): 使用 Google Earth AI 的 Population Dynamics Foundation Models (PDFM)
  • 📊 多源数据: 临床记录、地理因素、空气质量、花粉等环境数据
  • 🔒 隐私保护: 使用去标识化和聚合数据集
  • 🏥 实际行动: SISU Health 计划在偏远地区进行 5 万次新的健康筛查

⭐ AI Impact Summit 2026 印度峰会 (2026-03-10)

Google 在印度 AI Impact Summit 宣布重大投资与合作:

  • 💰 $15 亿美元投资: 在印度建立 AI 基础设施
  • 🌐 America-India Connect: 新光纤连接项目,连接四大洲
  • 🏛️ $30M AI for Government Innovation Impact Challenge: 支持政府使用 AI 改善公共服务
  • 🔬 $30M AI for Science Impact Challenge: 支持全球 AI 驱动的科学突破
  • 🤝 Google DeepMind 印度合作: 与印度政府和机构合作,推动科学和教育发现
  • 🌍 Google Center for Climate Technology: 与印度首席科学顾问办公室合作,加速 AI 气候解决方案
  • 📚 AI Professional Certificate: 与政府、教育机构和雇主合作的 AI 技能认证项目
  • 🇮🇳 Karmayogi Bharat 合作: 支持 2000 万公务员的数字化培训平台
  • 🗣️ 实时语音翻译: 支持 70+ 种语言实时对话翻译,包括 10 种印度语言
  • 🛡️ SynthID 验证: 已使用超过 2000 万次,帮助识别 Google AI 生成的内容

Google I/O 2026 预告

  • 📅 日期: 2026年5月19-20日
  • 🎮 Save the Date: 已上线 AI 互动游戏
  • 🤖 Gemini 集成: I/O 页面集成 Gemini 体验

最新研究论文

arXiv CS.AI 精选 (2026-03-27)

日期标题链接
2026-03-27WriteBack-RAG - 证据蒸馏与回写增强的知识库训练arXiv:2603.25737
2026-03-27WildASR - 语音 Agent 时代的 ASR 鲁棒性诊断基准arXiv:2603.25727
2026-03-27LLM 数学评估 - 问题解决能力与评估性能关联研究arXiv:2603.25633

⭐ WriteBack-RAG: 知识库训练新范式 (2026-03-27)

arXiv 论文《Training the Knowledge Base through Evidence Distillation and Write-Back Enrichment》:

  • 📚 可训练知识库: RAG 系统的知识库通常只构建一次不再更新,论文提出将其作为可训练组件
  • 🔄 WriteBack-RAG: 使用标注示例识别检索成功、隔离相关文档、蒸馏为紧凑知识单元
  • 📦 离线预处理: 仅修改语料库,可应用于任何 RAG 流水线
  • 📊 跨方法验证: 4 种 RAG 方法、6 个基准、2 个 LLM 骨干,平均提升 +2.14%
  • 🔀 跨方法迁移: 蒸馏知识可迁移到其他 RAG 流水线,证明改进存在于语料库本身

⭐ WildASR: 语音 Agent ASR 鲁棒性基准 (2026-03-27)

arXiv 论文《Back to Basics: Revisiting ASR in the Age of Voice Agents》:

  • 🎤 WildASR 基准: 多语言(四语)诊断基准,完全来自真实人类语音
  • 📊 三轴分解: 环境退化、人口统计偏移、语言多样性三维度分解 ASR 鲁棒性
  • 🔍 幻觉风险: 模型在部分或退化输入下经常产生看似合理但未说出的内容,对下游 Agent 行为造成安全风险
  • 📉 性能退化: 七个主流 ASR 系统评估发现严重且不均匀的性能退化
  • ⚠️ 跨语言不迁移: 模型鲁棒性不跨语言或条件迁移
  • 🛠️ 分析工具: 提供三个分析工具指导部署决策

⭐ LLM 数学评估: 问题解决能力与评估关联 (2026-03-27)

arXiv 论文《Is Mathematical Problem-Solving Expertise in Large Language Models Associated with Assessment Performance?》:

  • 🔬 研究问题: 更强的数学问题解决能力是否与更强的步骤级评估性能相关?
  • 📊 PROCESSBENCH 基准: 使用 GSM8K 和 MATH 子集,人类标注最早错误步骤
  • 🤖 双任务设计: 同一数学问题上执行解题和评估两个独立任务
  • 📈 模式发现: 评估准确率在模型正确解决的题目上显著高于错误题目
  • ⚖️ 难度差异: 评估比直接解题更难,尤其是在存在错误的解法上
  • 💡 设计启示: 数学问题解决专业知识支持更强的评估性能,但可靠的步骤级诊断还需额外能力

arXiv CS.AI 精选 (2026-03-26)

日期标题链接
2026-03-26Stochastic Gap - Agent 部署前可靠性与监督成本审计马尔可夫框架arXiv:2603.24582
2026-03-26Multi-Agent Medical MCQA - 一致性验证改进医疗问答不确定性校准arXiv:2603.24481
2026-03-26Enhanced Mycelium of Thought (EMoT) - 生物启发式分层推理架构arXiv:2603.24065
2026-03-26MOS Benchmarks - 多目标搜索标准化基准arXiv:2603.24084
2026-03-26Incongruent Normal Form - 自指语义的形式化表示arXiv:2603.24527
2026-03-26Minimax Completeness - 无界最佳优先搜索算法完整性证明arXiv:2603.24572

⭐ Stochastic Gap: Agent 部署前可靠性审计框架 (2026-03-26)

arXiv 论文《A Markovian Framework for Pre-Deployment Reliability and Oversight-Cost Auditing in Agentic Artificial Intelligence》:

  • 🔒 可靠性审计: 为组织部署 AI Agent 建立部署前可靠性与监督成本的马尔可夫框架
  • 📊 盲点度量: 提出 state blind-spot mass Bn(τ) 和 state-action blind mass B^SAπ,n(τ) 度量
  • 🏢 业务流程验证: 在 BPIC 2019 采购到支付日志 (251,734 cases, 1,595,923 events) 上验证
  • ⚠️ 关键发现: 大型工作流可能在状态层面表现良好,但在下一步决策上保留大量盲点质量
  • 🎯 监督成本: 建立工作流访问度量上的期望监督成本恒等式

⭐ Multi-Agent Medical MCQA: 医疗问答不确定性校准 (2026-03-26)

arXiv 论文《Multi-Agent Reasoning with Consistency Verification Improves Uncertainty Calibration in Medical MCQA》:

  • 🏥 医疗 AI: 解决临床 AI 部署中置信度校准不准的问题
  • 🤖 多代理框架: 四个专科代理 (呼吸、心脏、神经、消化) 使用 Qwen2.5-7B-Instruct 独立诊断
  • 两阶段验证: 自验证过程测量内部一致性,产生专科置信度分数 (S-score)
  • 📊 校准改进: ECE 降低 49-74%,MedQA-250 达到 ECE = 0.091 (比基线降低 74.4%)
  • 🎯 消融分析: 两阶段验证是主要校准驱动因素,多代理推理是主要准确率驱动因素

⭐ Enhanced Mycelium of Thought (EMoT): 生物启发式推理架构 (2026-03-26)

arXiv 论文《Enhanced Mycelium of Thought (EMoT): A Bio-Inspired Hierarchical Reasoning Architecture with Strategic Dormancy and Mnemonic Encoding》:

  • 🧠 四级层次: Micro → Meso → Macro → Meta 认知处理层级
  • 💤 策略性休眠: 推理节点的休眠和重新激活机制
  • 🏛️ 记忆宫殿: 五种记忆编码风格集成
  • 🔄 跨域综合: 解决 CoT/ToT 缺乏持久记忆和跨域综合的问题
  • 📊 评估结果: LLM-as-Judge 评估中接近 CoT 水平 (4.20 vs 4.33/5.0),跨域综合优于 CoT (4.8 vs 4.4)
  • ⚠️ 消融发现: 策略性休眠是架构必需 (禁用后质量从 4.2 降至 1.0)

arXiv CS.AI 精选 (2026-03-25)

日期标题链接
2026-03-25Mecha-nudges for Machines - AI Agent 选择呈现优化arXiv:2603.23433
2026-03-25Bilevel Autoresearch - 元自优化研究循环 (5x 提升)arXiv:2603.23420
2026-03-25Agent Stances - Agent 在生成社会中的立场与边界形成arXiv:2603.23406
2026-03-25RelayS2S - 实时对话双路径推测生成架构arXiv:2603.23346
2026-03-25LLM Olympiad - 密封考试式模型评估方法arXiv:2603.23292
2026-03-25Online Library Learning - 人类视觉谜题求解的在线库学习arXiv:2603.23244

⭐ Mecha-nudges for Machines: AI Agent 选择呈现优化 (2026-03-25)

arXiv 论文《Mecha-nudges for Machines》:

  • 🤖 机器助推: 改变选择呈现方式以系统性地影响 AI Agent 决策
  • 🔍 V-usable 信息: 结合贝叶斯说服框架与观察者相对信息度量
  • 📊 实证研究: Etsy 产品列表分析显示 ChatGPT 发布后机器可用信息显著增加
  • 🌐 人机共存: 不降低人类决策环境的前提下优化 AI 选择呈现

⭐ Bilevel Autoresearch: 元自优化研究循环 (2026-03-25)

arXiv 论文《Bilevel Autoresearch: Meta-Autoresearching Itself》:

  • 🔄 双层架构: 外循环元优化内循环自研究过程
  • 📈 5x 性能提升: GPT 预训练基准上从 -0.009 提升到 -0.045 val_bpb
  • 🤖 自主发现: 自动发现组合优化、多臂老虎机、实验设计等机制
  • 💡 核心原理: 自研究可以元自研究任何有可测量目标的事物

⭐ Agent Stances: Agent 在生成社会中的立场与边界形成 (2026-03-25)

arXiv 论文《Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies》:

  • 🎭 内源立场: Agent 表现出超越预设身份的内源立场,存在先天进步偏见 (IVB > 0)
  • 📊 新度量: 提出内源价值偏见 (IVB)、说服敏感度、信任-行动解耦 (TAD) 三个指标
  • 🔄 信任悖论: 高级模型在冲突情感挑衅下 40% TAD 率,小模型 0% TAD 率
  • 🏗️ 边界重建: Agent 基于共享立场主动拆解权力层级,重建自组织社区边界

⭐ RelayS2S: 实时对话双路径推测生成架构 (2026-03-25)

arXiv 论文《A Dual-Path Speculative Generation for Real-Time Dialogue》:

  • 双路径架构: 快路径 S2S 模型立即响应 + 慢路径级联模型生成高质量续接
  • 🎯 无缝切换: 轻量验证器控制前缀提交,实现低延迟高质量对话
  • 📊 性能: P90 延迟与 S2S 相当,同时保持 99% 级联响应质量
  • 🔧 即插即用: 无需架构修改,可直接添加到现有级联流水线

⭐ LLM Olympiad: 密封考试式模型评估 (2026-03-25)

arXiv 论文《LLM Olympiad: Why Model Evaluation Needs a Sealed Exam》:

  • 🏆 奥林匹克式评估: 题目密封直到评测,提交提前冻结,统一评测框架
  • 🔒 防止作弊: 解决基准追逐、隐藏评测选择、测试内容意外暴露问题
  • 📖 透明发布: 评测后公开发布题目和代码,支持复现和审计
  • 🎯 可信评估: 让强性能更难"制造",更容易信任

arXiv CS.AI 精选 (2026-03-24)

日期标题链接
2026-03-24AgenticGEO - 生成引擎优化的自进化 Agent 系统arXiv:2603.20213
2026-03-24ProMAS - 多 Agent 系统主动错误预测 (马尔可夫转移动力学)arXiv:2603.20260
2026-03-24FactorSmith - Agent 驱动的仿真生成框架 (MDP 分解)arXiv:2603.20270
2026-03-24LLM 自省评估 - Me, Myself, and π: LLM 自省能力研究arXiv:2603.20276
2026-03-24AgentComm-Bench - 协作具身 AI 压力测试基准arXiv:2603.20285
2026-03-24DiffGraph - Agent 驱动的模型合并框架 (文本到图像生成)arXiv:2603.20470
2026-03-24Context Cartography - LLM 系统上下文空间治理arXiv:2603.20578
2026-03-24Reasoning Traces - 推理轨迹塑造输出但模型不自知arXiv:2603.20620
2026-03-24Seed1.8 Model Card - 通用现实世界 Agent 模型arXiv:2603.20633
2026-03-24MARCUS - 多模态心脏诊断 Agent 模型 (超越 GPT-5 Thinking)arXiv:2603.22179
2026-03-24DT-MDP-CE - 企业 AI Agent 上下文工程框架arXiv:2603.22083
2026-03-24GSEM - 临床推理图记忆框架arXiv:2603.22096
2026-03-24SpecTM - 可信基础模型光谱目标掩码arXiv:2603.22097
2026-03-24Oph-Guid-RAG - 眼科临床决策支持多模态 RAGarXiv:2603.21925
2026-03-24GenAI SECI - 生成式 AI 隐性知识管理模型arXiv:2603.21866
2026-03-24Braid Trajectory - 未来交互感知轨迹预测arXiv:2603.22035

⭐ AgenticGEO: 生成引擎优化的自进化 Agent 系统 (2026-03-24)

arXiv 论文《A Self-Evolving Agentic System for Generative Engine Optimization》:

  • 🔍 生成引擎优化 (GEO): 针对 AI 生成内容的搜索引擎优化新范式
  • 🤖 自进化架构: Agent 系统通过反馈循环持续优化内容策略
  • 📊 动态适应: 根据生成引擎的响应自动调整优化策略
  • 🚀 自动化 SEO: 从传统 SEO 向 AI 时代的内容可见性优化演进

⭐ ProMAS: 多 Agent 系统主动错误预测 (2026-03-24)

arXiv 论文《Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics》:

  • 🔮 主动错误预测: 基于马尔可夫转移动力学预测多 Agent 系统错误
  • 📊 状态转移建模: 将 Agent 交互建模为马尔可夫决策过程
  • ⚠️ 早期预警: 在错误发生前识别潜在故障模式
  • 🛡️ 系统可靠性: 提升多 Agent 系统的稳定性和可预测性

⭐ FactorSmith: Agent 驱动的仿真生成框架 (2026-03-24)

arXiv 论文《Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement》:

  • 🎮 仿真生成: 自动生成复杂仿真场景
  • 🔧 MDP 分解: 将复杂决策过程分解为可管理的子问题
  • 🤖 三角色架构: Planner (规划器) → Designer (设计器) → Critic (批评器) 迭代优化
  • 📊 质量保证: 通过批评反馈循环确保仿真质量

⭐ AgentComm-Bench: 协作具身 AI 压力测试基准 (2026-03-24)

arXiv 论文《Stress-Testing Cooperative Embodied AI Under Latency, Packet Loss, and Bandwidth Collapse》:

  • 🧪 压力测试基准: 评估协作具身 AI 在恶劣网络条件下的表现
  • 📡 网络故障模拟: 延迟、丢包、带宽崩溃场景
  • 🤝 多 Agent 协作: 测试 Agent 间通信的鲁棒性
  • 🛡️ 系统韧性: 识别和改进协作系统的脆弱点

⭐ Seed1.8 Model Card: 通用现实世界 Agent 模型 (2026-03-24)

arXiv 论文《Seed1.8 Model Card: Towards Generalized Real-World Agency》:

  • 🚀 Seed1.8 模型: 面向现实世界任务的通用 Agent 模型
  • 🌍 真实世界代理: 从实验室环境到真实场景的能力迁移
  • 📊 模型卡片: 详细的能力评估和安全考量
  • 🔧 Agent 能力: 工具使用、多步推理、环境交互

⭐ MARCUS: 多模态心脏诊断 Agent 模型 (2026-03-24)

arXiv 论文《An agentic, multimodal vision-language model for cardiac diagnosis and management》:

  • 🏥 多模态输入: 独立或联合处理 ECG、超声心动图、心脏 MRI
  • 🧠 分层 Agent 架构: 模态专用视觉语言专家模型 + 多模态协调器
  • 📊 训练规模: 1350 万图像 (25万 ECG, 130万超声, 1200万 MRI) + 160万问题
  • 🏆 性能: ECG 87-91%, 超声 67-86%, CMR 85-88% 准确率
  • 🚀 超越前沿: 比 GPT-5 Thinking 和 Gemini 2.5 Pro Deep Think 高 34-45%
  • 💡 意义: 心血管疾病是全球主要死因,AI 可显著提升诊断效率

⭐ DT-MDP-CE: 企业 AI Agent 上下文工程框架 (2026-03-24)

arXiv 论文《A Context Engineering Framework for Improving Enterprise AI Agents based on Digital-Twin MDP》:

  • 🎯 问题: 企业 AI Agent 受限于数据质量/数量、复杂推理、自博弈困难、反馈信号不可靠
  • 🔧 三大组件: 数字孪生 MDP、对比逆 RL、RL 引导上下文工程
  • 📐 DT-MDP: 将 Agent 推理行为抽象为有限 MDP
  • 🔄 对比逆 RL: 从混合质量离线轨迹估计奖励函数
  • 🚀 应用: IT 自动化任务案例研究
  • 📈 结果: 在广泛评估设置中持续显著改进

⭐ GSEM: 临床推理图记忆框架 (2026-03-24)

arXiv 论文《Graph-based Self-Evolving Memory for Experience Augmented Clinical Reasoning》:

  • 🧠 双层记忆图: 组织临床经验,捕获决策结构和关系依赖
  • 🔍 适用性感知检索: 支持在线反馈驱动的节点质量和边权重校准
  • 📊 性能: MedR-Bench 和 MedAgentsBench 上达到 70.90% 和 69.24% 准确率
  • 💡 意义: 许多记忆增强方法存储独立记录,缺乏显式关系结构
  • 🔗 开源: GitHub

arXiv CS.AI 精选 (2026-03-23)

日期标题链接
2026-03-23Dynamic Belief Graphs for ToM - LLM 心理理论动态信念图推理arXiv:2603.20170
2026-03-23Pitfalls in Interpretability Agents - 可解释性代理评估陷阱arXiv:2603.20101
2026-03-23HeRL - 后见经验引导的 LLM 强化学习探索框架arXiv:2603.20046
2026-03-23Plan Verification - Transformer 计划验证能力理论分析arXiv:2603.19954
2026-03-23DIAL KG - 无模式增量知识图谱构建框架arXiv:2603.20059
2026-03-21Agent Memory Graph - 多代理系统记忆图架构arXiv:2603.19191
2026-03-21Personalized Multi-Agent - 个性化多代理协作框架arXiv:2603.19195
2026-03-20OS-Themis - GUI Agent 可扩展多代理评价框架arXiv:2603.19191
2026-03-20Box Maze - 可靠 LLM 推理的过程控制架构arXiv:2603.19182
2026-03-20cuGenOpt - GPU 加速通用元启发式组合优化框架arXiv:2603.19163
2026-03-19AgentFactory - 可执行子代理累积与复用的自进化框架arXiv:2603.18000
2026-03-19Governed Memory - 多代理工作流的生产架构arXiv:2603.17787
2026-03-19Knowledge Objects - 事实作为一等对象:持久 LLM 记忆arXiv:2603.17781

⭐ Dynamic Belief Graphs for ToM: LLM 心理理论推理 (2026-03-23)

arXiv 论文《Learning Dynamic Belief Graphs for Theory-of-mind Reasoning》提出动态信念图模型:

  • 🧠 心理理论 (ToM): 推断人们隐含、演变的信念如何影响其行为
  • 📊 动态信念图: 将心理状态表示为动态信念图,联合推断潜在信念
  • 🔗 能量因子图: 表示信念相互依赖关系
  • 🎯 ELBO 目标: 捕获信念积累和延迟决策
  • 🏥 应用场景: 灾难响应、急诊医学、人机协同自主系统
  • 📈 性能提升: 在多个真实灾难撤离数据集上显著改善行动预测

⭐ Pitfalls in Interpretability Agents: 可解释性代理评估陷阱 (2026-03-23)

arXiv 论文《Pitfalls in Evaluating Interpretability Agents》揭示评估陷阱:

  • 🔬 研究背景: 自动化可解释性系统减少人工需求,但评估面临挑战
  • 🧪 代理系统: 研究代理迭代设计实验、精炼假设
  • ⚠️ 评估陷阱: 人类专家解释可能主观或不完整;基于结果的比较模糊研究过程
  • 🎯 记忆问题: LLM 系统可能通过记忆或知情猜测复现已发表结果
  • 💡 解决方案: 提出基于模型组件功能互换性的无监督内在评估
  • 📊 关键发现: 展示了评估复杂自动化可解释性系统的根本挑战

⭐ HeRL: 后见经验引导的 LLM 强化学习探索 (2026-03-23)

arXiv 论文《Experience is the Best Teacher: Motivating Effective Exploration in Reinforcement Learning for LLMs》提出 HeRL 框架:

  • 🎯 问题: 基于评分的 RL 仍受限于当前策略分布内的低效探索
  • 💡 核心思想: 将失败轨迹及其未满足评分作为后见经验,作为上下文引导策略探索
  • 🔧 框架: Hindsight experience guided Reinforcement Learning
  • 📈 奖励机制: 引入奖励激励具有更大改进潜力的响应
  • 🚀 优势: 从期望的高质量样本有效学习,无需重复试错
  • 📊 结果: 在多个基准测试上优于基线,支持测试时经验引导的自我改进

⭐ Plan Verification: Transformer 计划验证能力 (2026-03-23)

arXiv 论文《On the Ability of Transformers to Verify Plans》分析 Transformer 计划验证能力:

  • 🔬 研究问题: Transformer 在 AI 计划任务中的成功与失败边界
  • 📐 C*-RASP: 扩展 C-RASP,为序列长度和词汇表同时增长提供长度泛化保证
  • 结果: 识别出一大类经典计划领域,Transformer 可证明地学习验证长计划
  • 🧩 结构属性: 发现显著影响长度泛化解可学习性的结构属性
  • 📊 实证验证: 实验验证理论发现

arXiv CS.AI 精选 (2026-03-20)

日期标题链接
2026-03-20OS-Themis - GUI Agent 可扩展多代理评价框架arXiv:2603.19191
2026-03-20Box Maze - 可靠 LLM 推理的过程控制架构arXiv:2603.19182
2026-03-20cuGenOpt - GPU 加速通用元启发式组合优化框架 (含 LLM 建模助手)arXiv:2603.19163
2026-03-20D5P4 - 离散扩散解码的多样性控制arXiv:2603.19146
2026-03-20LLM 二进制分析隐式模式 - 首次大规模 Token 级推理模式研究arXiv:2603.19138
2026-03-20推理模型不确定性估计 - 采样扩展与混合估计器研究arXiv:2603.19118
2026-03-20LuMamba - 电极拓扑不变的高效 EEG 建模 (377x FLOPS 减少)arXiv:2603.19100
2026-03-20Serendipity by Design - 人类与 LLM 创造力的跨域映射对比研究arXiv:2603.19087

⭐ OS-Themis: GUI Agent 可扩展评价框架 (2026-03-20)

arXiv 论文《A Scalable Critic Framework for Generalist GUI Rewards》提出 GUI Agent 评价框架:

  • 🔬 多代理评价器: 将轨迹分解为可验证的里程碑,隔离关键证据进行决策
  • 🔍 证据链审计: 严格审计证据链后做出最终判断
  • 📊 OmniGUIRewardBench: 全平台 GUI 结果奖励基准
  • 🚀 RL 提升: AndroidWorld 上在线 RL 训练提升 10.3%
  • 🔄 自训练验证: 轨迹验证和过滤提升 6.9%
  • 🎯 Agent 演进: 驱动智能体进化的潜在方案

⭐ Box Maze: 可靠 LLM 推理的过程控制架构 (2026-03-20)

arXiv 论文《A Process-Control Architecture for Reliable LLM Reasoning》提出新型架构:

  • 🏗️ 三层架构: 记忆接地、结构化推理、边界执行
  • 🛡️ 边界失败率: 从约 40% (基线 RLHF) 降至 <1%
  • 🔒 认知控制层: 显式过程级控制机制
  • 🧪 对抗测试: n=50 对抗场景下验证架构约束效果
  • 📊 多模型验证: DeepSeek-V3、Doubao、Qwen 异构系统测试

⭐ cuGenOpt: GPU 加速组合优化框架 (2026-03-20)

arXiv 论文《A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization》:

  • 🚀 GPU 加速: "一个 CUDA 块进化一个解"架构,统一编码抽象
  • 🔧 两级自适应算子: 硬件感知资源管理
  • 🤖 LLM 建模助手: 自然语言问题描述转可执行求解器代码
  • 📊 性能表现: TSP-442 达 4.73% gap (30秒),12 类问题求最优解
  • 框架优化: pcb442 gap 从 36% 降至 4.73%,VRPTW 吞吐量提升 75-81%

⭐ LLM 二进制分析隐式模式研究 (2026-03-20)

arXiv 论文《Implicit Patterns in LLM-Based Binary Analysis》首次大规模研究 LLM 二进制分析:

  • 📊 大规模分析: 521 个二进制文件,99,563 个推理步骤
  • 🔍 四种主导模式: 早期剪枝、路径依赖锁定、目标回溯、知识引导优先级
  • 🧠 隐式抽象: Token 级隐式模式作为 LLM 推理抽象
  • 📈 稳定系统: 这些模式形成稳定、结构化的系统,具有独特时间角色
  • 🛡️ 漏洞分析: 为更可靠的分析系统奠定基础

⭐ 推理模型不确定性估计扩展研究 (2026-03-20)

arXiv 论文《How Uncertainty Estimation Scales with Sampling in Reasoning Models》:

  • 🔬 黑盒方法: 使用言语化置信度和自一致性研究并行采样
  • 📊 跨域验证: 3 个推理模型、17 个任务 (数学、STEM、人文学科)
  • 🎯 混合估计器: 仅 2 个样本即可提升 AUROC +12,优于大预算单独信号
  • 📈 领域依赖: 数学域 (RLVR 后训练原生域) 表现更强互补性和更快扩展
  • 🔧 实用指导: 为推理模型部署提供不确定性估计指导

arXiv CS.AI 精选 (2026-03-19)

日期标题链接
2026-03-19AgentFactory - 可执行子代理累积与复用的自进化框架arXiv:2603.18000
2026-03-19Governed Memory - 多代理工作流的生产架构arXiv:2603.17787
2026-03-19Knowledge Objects - 事实作为一等对象:持久 LLM 记忆arXiv:2603.17781
2026-03-19RPMS - 规则增强记忆协同提升具身规划arXiv:2603.17831
2026-03-19MALLES - 多代理 LLM 经济沙盒与消费者偏好对齐arXiv:2603.17694
2026-03-19Sensi - 基于课程的测试时学习 LLM 游戏代理arXiv:2603.17683
2026-03-19自动驾驶综述 - 从虚拟环境到真实世界试验arXiv:2603.17714

⭐ AgentFactory: 可执行子代理累积与复用 (2026-03-19)

arXiv 论文《A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse》提出新型自进化范式:

  • 🤖 可执行子代理: 将成功任务解决方案保存为可执行 Python 代码,而非文本经验
  • 🔄 持续优化: 基于执行反馈不断优化子代理,随任务增多变得更强大
  • 📦 跨平台移植: 纯 Python 代码 + 标准化文档,可在任何 Python 系统运行
  • 🧠 能力累积: 子代理库持续增长改进,逐步减少相似任务的工作量
  • 🔓 开源实现: GitHub 开源,含演示视频

⭐ Governed Memory: 多代理工作流生产架构 (2026-03-19)

arXiv 论文《A Production Architecture for Multi-Agent Workflows》解决企业 AI 记忆治理问题:

  • 🏢 企业级方案: 解决多代理工作流中的记忆孤岛和治理碎片化问题
  • 🔄 双重记忆模型: 开放集原子事实 + 模式强制类型属性
  • 📊 分层治理路由: 渐进式上下文交付,50% token 减少
  • 🔒 零跨实体泄露: 500 次对抗查询测试验证
  • 📈 LoCoMo 基准: 74.8% 准确率,证明治理不损失检索质量
  • 🏭 生产部署: 已在 Personize.ai 生产环境运行

⭐ Knowledge Objects: 持久 LLM 记忆 (2026-03-19)

arXiv 论文《Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory》提出新型记忆架构:

  • 🔑 知识对象: 离散哈希寻址元组,O(1) 检索
  • 📊 上下文窗口极限: Claude Sonnet 4.5 在 10-7000 事实达到 100% 准确率
  • ⚠️ 生产失败模式: 容量限制 (8000+ 事实溢出)、压缩损失 (60% 事实丢失)、目标漂移
  • 💰 成本优势: 知识对象以 252 倍低成本实现 100% 准确率
  • 🧠 多跳推理: 知识对象 78.9% vs 上下文记忆 31.6%
  • 🔬 跨模型验证: 四个前沿模型验证压缩损失是架构性问题

⭐ RPMS: 规则增强记忆协同提升具身规划 (2026-03-19)

arXiv 论文《Enhancing LLM-Based Embodied Planning through Rule-Augmented Memory Synergy》:

  • 🎯 冲突管理架构: 通过结构化规则检索强制执行动作可行性
  • 📊 ALFWorld 基准: Llama 3.1 8B 单次成功率 59.7% (+23.9 pp),Claude Sonnet 4.5 达 98.5%
  • 🧠 情景记忆条件性: 无接地时损害某些任务类型性能,但过滤后变为稳定正向收益
  • 🔄 ScienceWorld 迁移: GPT-4 平均得分 54.0 vs ReAct 基线 44.9

⭐ MALLES: 多代理 LLM 经济沙盒 (2026-03-19)

arXiv 论文《A Multi-agent LLMs-based Economic Sandbox with Consumer Preference Alignment》:

  • 🛒 经济模拟: 利用 LLM 泛化能力建立跨域跨品类统一模拟框架
  • 🧠 偏好学习: 通过后训练让 LLM 经济对齐异构交易记录
  • 📊 平均场机制: 稳定高维决策空间采样
  • 🤝 多代理讨论框架: 分散认知负荷,捕获关键决策因素

arXiv CS.AI 精选 (2026-03-18)

日期标题链接
2026-03-18Demystifying Video Reasoning - 视频生成模型推理机制揭秘arXiv:2603.16870
2026-03-18MessyKitchens - 接触丰富型物体级 3D 场景重建数据集arXiv:2603.16868
2026-03-18ManiTwin-100K - 10 万规模数据生成就绪数字对象数据集arXiv:2603.16866
2026-03-18SparkVSR - 稀疏关键帧传播交互式视频超分辨率arXiv:2603.16864
2026-03-18SocialOmni - 全模态模型音视频社交交互基准arXiv:2603.16859
2026-03-18SOMA - 统一参数化人体模型arXiv:2603.16858
2026-03-18Parallel Newton Methods - 打破序列瓶颈的并行化方法arXiv:2603.16850
2026-03-18LEAFE - 从反思经验中学习反馈代理能力arXiv:2603.16843
2026-03-18TraceR1 - 多模态 AI 代理预期规划 (CVPR 2026 Findings)arXiv:2603.16777
2026-03-18SlideRL - 代理式幻灯片生成的逆向规范奖励arXiv:2603.16839
2026-03-18Nonstandard Errors in AI Agents - AI 代理的非标准误差arXiv:2603.16744
2026-03-18TurnWise - 单轮与多轮语言模型能力差距研究arXiv:2603.16720
2026-03-18SpecMoE - 跨物种 EEG 解码频谱混合专家基础模型arXiv:2603.16719
2026-03-18InCoder-32B - 工业场景代码基础模型arXiv:2603.16702
2026-03-18DexGrasp-Zero - 零样本跨具身灵巧抓取策略arXiv:2603.16710
2026-03-18CABTO - 上下文感知行为树接地机器人操作arXiv:2603.16712
2026-03-18SurgΣ - 手术智能大规模多模态数据与基础模型arXiv:2603.16727
2026-03-18IOSVLM - 统一牙科诊断 3D 视觉语言模型arXiv:2603.16702
2026-03-17Mixture-of-Depths Attention - 动态深度注意力机制arXiv:2603.15619
2026-03-17Moral Indifference in LLMs - 道德冷漠的机制起源arXiv:2603.15615
2026-03-17RL for Robotic Manipulation - 强化学习过程推理arXiv:2603.15600
2026-03-17OpenSeeker - 首个完全开源的前沿搜索 AgentarXiv:2603.15594
2026-03-17Counterfactual Metrics vs User PerceptionarXiv:2603.15607
2026-03-17Computational Concept of the PsychearXiv:2603.15586
2026-03-20OS-Themis - 可扩展 GUI Agent Critic 框架arXiv:2603.19191
2026-03-20Box Maze - LLM 推理过程控制架构arXiv:2603.19182

⭐ OS-Themis: 可扩展 GUI Agent Critic 框架 (2026-03-20)

arXiv 论文《A Scalable Critic Framework for Generalist GUI Rewards》提出 GUI Agent 奖励框架:

  • 🎯 多 Agent Critic: 将轨迹分解为可验证的里程碑,隔离关键证据
  • 🔍 审查机制: 严格审计证据链后再做出最终判断
  • 📊 OGRBench: 全面的跨平台 GUI 结果奖励基准
  • RL 训练提升: AndroidWorld 上 RL 训练效果提升 10.3%
  • 🔄 自训练增益: 轨迹验证和过滤在自训练循环中提升 6.9%

⭐ Box Maze: LLM 推理过程控制架构 (2026-03-20)

arXiv 论文《A Process-Control Architecture for Reliable LLM Reasoning》提出 LLM 推理架构:

  • 🧠 三层架构: 记忆基础层、结构化推理层、边界执行层
  • 🛡️ 边界维护: 将边界失效率从约 40% 降至 1% 以下
  • 🔒 抗对抗: 在对抗性提示场景下保持推理完整性
  • 📊 多模型验证: 在 DeepSeek-V3、Doubao、Qwen 上进行验证

⭐ Demystifying Video Reasoning: 视频生成模型推理机制 (2026-03-18)

arXiv 论文《Demystifying Video Reasoning》揭示视频生成模型的推理机制:

  • 🔬 Chain-of-Steps (CoS): 推理主要在扩散去噪步骤中涌现,而非跨帧顺序展开
  • 🧠 工作记忆: 早期步骤探索多个候选解,逐步收敛到最终答案
  • 🔄 自我修正: 支持从错误中间解恢复并增强
  • 📊 感知先于行动: 早期步骤建立语义基础,后期执行结构化操作
  • 🏗️ 功能特化: DiT 早期层编码感知结构,中间层执行推理,后期层整合表示
  • 训练无关策略: 通过集成不同随机种子的潜轨迹提升推理能力

⭐ ManiTwin-100K: 机器人操作数据生成 (2026-03-18)

ManiTwin 发布 10 万规模数据生成就绪数字对象数据集:

  • 🤖 自动化流水线: 单张图像转换为仿真就绪的语义标注 3D 资产
  • 📊 100K 资产: 每个资产配备物理属性、语言描述、功能标注和验证的操作提案
  • 🔧 多用途: 操作数据生成、随机场景合成、VQA 数据生成
  • 🚀 规模化基础: 为可扩展仿真数据合成和策略学习奠定基础

⭐ InCoder-32B: 工业场景代码基础模型 (2026-03-18)

首个统一芯片设计、GPU 内核优化、嵌入式系统、编译器优化的 32B 代码模型:

  • 🏭 工业覆盖: 芯片设计、GPU 内核优化、嵌入式系统、编译器优化、3D 建模
  • 📈 竞争性能: 在通用代码任务上达到高度竞争性能
  • 🔧 工业基准: 建立工业领域的开源基线
  • 📊 评估全面: 14 个主流通用代码基准 + 9 个工业基准

arXiv 论文《Mixture-of-Depths Attention》提出新型动态计算分配机制:

  • 🔄 动态深度: 不同 token 可在不同层参与注意力计算,打破固定深度限制
  • 计算效率: 自动学习哪些 token 需要更多计算,哪些可以跳过
  • 🧠 层级路由: 每层动态决定哪些位置参与注意力
  • 📊 性能提升: 在相同计算预算下优于固定深度模型

⭐ Moral Indifference in LLMs: 道德冷漠机制起源 (2026-03-17)

arXiv 论文《Mechanistic Origin of Moral Indifference in Language Models》研究 LLM 道德判断:

  • 🔬 机制可解释: 通过机械可解释性方法定位道德冷漠的神经元
  • 📊 因果干预: 证明特定激活模式导致道德冷漠行为
  • 🎯 安全意义: 为 AI 对齐研究提供新的干预视角

⭐ RL for Robotic Manipulation: 过程推理 (2026-03-17)

arXiv 论文《From Passive Observer to Active Critic》研究机器人操作:

  • 🤖 主动批评者: 强化学习激发过程推理能力
  • 🔧 机器人操作: 在复杂操作任务中学习分解步骤
  • 🧠 过程推理: 从被动观察者转变为主动推理者

⭐ OpenSeeker: 开源前沿搜索 Agent (2026-03-17)

首个完全开源的前沿级搜索 Agent,模型和数据全部公开:

  • 🏆 SOTA 性能: 仅用 11.7k 合成样本训练,在 BrowseComp、BrowseComp-ZH、xbench-DeepSearch 等基准达到最优
  • 📊 超越 DeepDive: BrowseComp 上 29.5% vs 15.3%
  • 🚀 超越工业竞品: BrowseComp-ZH 上 48.4% vs 通义深研 46.7%
  • 🔓 完全开源: 训练数据、模型权重全部公开
  • 🧠 两大创新:
    • Fact-grounded scalable controllable QA synthesis - 通过拓扑扩展和实体混淆生成复杂多跳推理任务
    • Denoised trajectory synthesis - 回溯总结机制去噪轨迹,促进高质量动作生成
  • 🌐 民主化搜索 Agent 研究: 降低前沿搜索 Agent 的研究门槛

⭐ XAI 2026: 反事实解释评估指标研究 (2026-03-17)

arXiv 论文《Do Metrics for Counterfactual Explanations Align with User Perception?》被 XAI 2026 接收:

  • 📊 研究问题: 常用反事实解释评估指标是否反映用户感知?
  • 🧪 实证研究: 三数据集上直接比较算法指标与人类判断
  • 📉 主要发现: 算法指标与人类评分相关性普遍较弱,且高度依赖数据集
  • ⚠️ 结构性局限: 增加指标数量不能可靠提升预测能力
  • 🎯 结论: 现有指标未能捕捉用户关心的解释质量关键方面,需要更以人为中心的评估方法

GitHub 资源更新

GitHub 资源更新

⭐ Microsoft APM - Agent Package Manager (2026-03-28)

Microsoft 发布开源 AI Agent 依赖管理器,类似 npm/pip 但专为 AI Agent 配置设计:

  • 统一 manifest: apm.yml 声明项目 Agent 依赖
  • 多 Agent 支持: GitHub Copilot、Claude Code、Cursor、OpenCode
  • 传递依赖解析: 依赖树自动解析
  • 内容安全扫描: apm audit 检测隐藏 Unicode 和恶意内容
  • 插件开发与分发: 构建、打包、分发 Agent 插件
  • CI/CD 集成: GitHub Action 自动化工作流
yaml
# apm.yml 示例
name: your-project
version: 1.0.0
dependencies:
  apm:
    - anthropics/skills/skills/frontend-design
    - github/awesome-copilot/plugins/context-engineering
    - microsoft/apm-sample-package#v1.0.0

GitHub: https://github.com/microsoft/apm · 文档: https://microsoft.github.io/apm/


Claude Agent SDK (2026-03-19 更新)

Anthropic 发布 Claude Agent SDK 官方示例集,包含:

示例描述难度
00_The_one_liner_research_agent一行代码研究代理入门
01_The_chief_of_staff_agent办公厅主任代理中级
02_The_observability_agent可观测性代理中级
03_The_site_reliability_agentSRE 站点可靠性代理高级
04_migrating_from_openai_agents_sdkOpenAI Agents SDK 迁移指南迁移

OpenAI Agents SDK 迁移要点

  • 工具映射:@tool 装饰器 → @claude_tool
  • 护栏映射:GuardrailInputGuard / OutputGuard
  • 会话映射:SessionClaudeSession
  • 交接映射:Handoffhandoff()

SRE Agent 亮点

  • 自动故障检测与响应
  • Kubernetes 集群监控
  • 日志分析与异常检测
  • 自动修复建议生成

Claude Cookbooks 最新更新

  • 2026-03-19: 添加 OpenAI Agents SDK 迁移指南 + SRE Agent README 更新 (#449)
  • 2026-03-12: PR #439 - 更新 Markdown 描述从 3.7 到 4.6 (Open)
  • 2026-03-11: PR #438 - Pinecone RAG cookbook 更新至 Messages API 和 tool use (Open)
  • 2026-03-10: 移除 404 失效链接 (#434)
  • 2026-03-05: 修复 contextual-embeddings 上下文拼接逻辑 (#416)
  • 2026-03-03: Agent SDK cookbooks 作者更新 (#398)
  • 2026-02-25: platform.claude.com 路径修复 (#395)
  • 2026-02-24: 添加 Site Reliability Agent cookbook (#391)
  • 2026-02-20: Prompt caching cookbook 更新 - 自动缓存功能 (#387)
  • 2026-02-17: 更新所有模型引用从 Claude 4.5 到 Claude 4.6 (#375)
  • 2026-02-05: 添加 Opus 4.6 服务端压缩指导 (#369)
  • 2026-01-30: 添加 Context Compaction cookbook (#343)

Claude Cookbooks 核心内容

分类示例项目
Capabilities分类、RAG、摘要
Tool Use客服代理、计算器集成、SQL 查询
Third-PartyPinecone RAG、Wikipedia 搜索、Voyage AI 嵌入、Web 页面读取
Multimodal图像入门、视觉最佳实践、图表解读、表单提取
AdvancedSub-agents、PDF 上传、自动评测、JSON 模式、内容审核、Prompt 缓存
NewSite Reliability Agent、Context Compaction

OpenAI Cookbook 最新更新

  • 2026-03-15: PR #2525 - 多 Agent 工作流运行时隔离 cookbook (Open)
  • 2026-03-14: PR #2524 - Chat fine-tuning 数据准备中处理加权消息 (Open)
  • 2026-03-13: Sora Prompting Guide 更新 - 新增示例 GIF 和视觉素材 (#2517)
  • 2026-03-13: Sora Cookbook 更新 - 角色引用、1080p、20秒视频、视频扩展 (#2516)
  • 2026-03-07: 5.4 Vision Cookbook 作者更新 (#2497)
  • 2026-03-07: 添加 5.4 Vision Cookbook (#2496)
  • 2026-03-05: Codex prompting guide 更新 (gpt-5.3-codex status) (#2486)
  • 2026-03-04: Long Horizon Cookbook 迁移至开发者博客 (#2479)
  • 2026-03-03: Realtime Evals/Types 工具增强 (#2485, #2478)
  • 2026-03-03: Fix Prompt Caching 201 copy edits (#2454)
  • 2026-02-25: Codex prompting guide 更新至 gpt-5.3-codex (#2466)
  • 2026-02-24: Add GPT-5.3 Codex feature guidance (#2462)
  • 2026-02-23: Add tool output formatting section to Realtime prompting guide (#2460)
  • 2026-02-21: Agentic governance cookbook (#2450)
  • 2026-02-18: Codex/prompt caching 201 (#2448)
  • 2026-02-13: Add Realtime Eval Harness Code section (#2427)
  • 2026-02-10: Skills in API notebook (#2429)
  • 2026-02-03: Image Evals Cookbook (#2408)

📖 OpenAI Cookbook 现已迁移至 cookbook.openai.com

Awesome Cursor Rules

持续更新的 .cursorrules 模板集合,包含:

  • 前端框架:Next.js, React, Vue, Angular, Svelte, Solid.js
  • 后端框架:Django, Flask, Laravel, Rails, Go Fiber
  • 数据库:MongoDB, PostgreSQL, Supabase
  • 其他:Tailwind CSS, HTMX, 测试等

Awesome ChatGPT

ChatGPT 资源汇总,包含:

  • 桌面应用:macOS, Windows, Linux
  • Web 应用:自托管和托管方案
  • 浏览器扩展
  • CLI 工具
  • 机器人集成

最近更新

  • 2026-02-15: 添加 OpenClaw - 开源 AI 助手框架
  • 2026-02-13: 添加 Taskade - AI 任务管理工具
  • 2026-01-04: 添加 Price Per Token - LLM 定价比较工具

Awesome AI Agents (kyrolabs)

AI Agent 框架和工具合集,持续更新中。

最近更新

日期项目描述
2026-03-29everything-claude-codeClaude Code 完整指南与资源合集,114K+ stars,最全面的 Claude Code 文档
2026-03-29awesome-claude-skillsClaude Skills 精选合集,48K+ stars,生产级技能模板
2026-03-29learn-claude-codeClaude Code 学习教程与最佳实践,41K+ stars
2026-03-29claude-memClaude Code 插件,自动捕获 Claude 执行的所有操作,41K+ stars 热门项目
2026-03-29mcp-use全栈 MCP 框架,开发 ChatGPT/Claude 的 MCP 应用和服务器,9.5K+ stars
2026-03-29VoltAgentAI Agent 工程平台,开源 TypeScript AI Agent 框架,7K+ stars
2026-03-29buildwithclaudeClaude Skills、Agents、Commands、Hooks、Plugins 和 Markets 单一中心,2.6K+ stars
2026-03-28Claude Code v2.1.86新增 X-Claude-Code-Session-Id 请求头、VCS 目录排除、内存文件名点击跳转,多项修复和性能优化
2026-03-28APMMicrosoft 开源 AI Agent 依赖管理器,类似 npm/pip 专为 AI Agent 配置设计,支持 Copilot/Claude Code/Cursor 等
2026-03-28OpenAI Cookbook KalibrBuilding resilient agents with Kalibr — 执行路径路由用于生产环境
2026-03-27Claude Code v2.1.85Hooks 条件过滤、MCP OAuth RFC 9728、终端兼容性修复
2026-03-27Knowledge Graph ConstructionClaude Cookbooks 新增知识图谱构建指南,NER + 关系提取、实体消解、NetworkX 图组装
2026-03-28AIR Blackbox开源 EU AI Act 合规扫描器和 Python AI Agent 运行时信任层,HMAC-SHA256 审计链、PII 检测、Prompt 注入拦截、风险分类
2026-03-26AVP: Agent Vector ProtocolAgent 通过 KV-cache 和隐藏状态通信,2x 更快,56% 更少 token,支持 HuggingFace/vLLM/llama.cpp/Ollama
2026-03-26ai-evaluation开源 Python/TypeScript SDK,50+ 本地评估指标,LLM-as-Judge 增强,guardrail 扫描器
2026-03-26traceAI开源 OpenTelemetry 原生追踪框架,自动注入 20+ AI 框架和 LLM 提供商
2026-03-25AIDEAI-Driven Exploration — ML 工程代理,使用树搜索自动设计实验、生成代码和评估
2026-03-22ClaudeClaw持久化 Agent 编排器,Claude Code 插件,OS 级沙箱隔离,可组合扩展,多通道路由
2026-03-21ConnectOnion简洁 Python 框架,2 行代码创建生产级 Agent,函数即工具,12 个生命周期钩子,插件系统,多 Agent 信任网络
2026-03-20UntetherTelegram 桥接工具,支持 6 种 AI 编码代理 (Claude Code, Codex, OpenCode, Pi, Gemini CLI, Amp)
2026-03-18AG2AutoGen 创作者新框架,开源 AI Agent 编程框架,支持多 Agent 协作
2026-03-17LoongFlow百度发布的企业级 AI 工作流编排平台,从原子组件到核心场景 Agent 的演进开发框架
2026-03-17OpenSeeker首个完全开源的前沿搜索 Agent,SOTA 性能
2026-03-17Holotron-12BH Company 高吞吐量计算机使用 Agent 模型,混合 SSM 架构,WebVoyager 80.5%
2026-03-14GreywallCLI agent sandbox,通过 greyproxy 实现动态配置和可视化监控
2026-03-13Hive目标驱动的 AI agent 框架,提供蜂线控制 (Beeline control)
2026-03-12SAGEAI agent 共识验证内存系统 — 每个记忆通过 BFT 共识验证,4 个应用验证器,13 个 MCP 工具,本地运行
2026-03-12VibeGridAI 编码 agent 终端管理器,多 agent 网格、任务队列、工作流自动化、无头执行、内联 diff 审查、Claude Code hooks
2026-03-11Steel Browser开源浏览器自动化平台,专为 AI agent 设计,支持无头浏览、智能等待、反检测
2026-03-11nanobotHKUDS 开源超轻量级个人 AI 助手框架 (~4K 行 Python),支持 MCP、9+ 聊天通道、可扩展技能系统
2026-03-11Pipecat开源语音和多模态对话 AI 框架,支持实时语音、视频和多模态交互
2026-03-10FIM AgentAI Connector Hub — Python async 框架,动态 DAG 规划、ReAct agent、MCP 客户端、RAG
2026-03-09Dorothy开源桌面应用,同时编排多个 AI CLI agents (Claude Code, Codex, Gemini),支持自动化和 Kanban 管理
2026-03-09Awesome OpenClaw AgentsOpenClaw 的 100+ 生产级 SOUL.md agent 模板集合,覆盖生产力、开发、营销和业务自动化
2026-03-07OpenClaw开源 AI agent 框架,多渠道消息 (Signal, Telegram, Discord, WhatsApp)、cron 调度、内存系统、MCP 集成
2026-02-26NeuroLinkTypeScript agent 框架,多步 agentic loops、持久化内存、HITL 工作流、MCP 客户端集成、支持 13 个 LLM 提供商

核心分类

  • Frameworks: OpenClaw, nanobot, NeuroLink, AutoGPT, CrewAI, LangGraph, Pipecat, VoltAgent
  • Development: Claude Code, Cursor, Aider, Cline, OpenCode
  • Testing & Evaluation: Voice Lab, Open-RAG-Eval, EvoAgentX, Arize-Phoenix
  • Research: GPT Researcher, BlockAGI, DeepAnalyze
  • Voice & Multimodal: Pipecat, Voice Lab, voicetest
  • Memory: claude-mem, preserve-session

MCP 服务器生态

项目Stars描述
ChromeDevTools/chrome-devtools-mcp32KChrome DevTools MCP Server,浏览器自动化调试
microsoft/playwright-mcp29.8KPlaywright MCP server
github/github-mcp-server28.3KGitHub's official MCP Server
PrefectHQ/fastmcp24.1K🚀 The fast, Pythonic way to build MCP servers and clients
oraios/serena22.2KCoding agent toolkit, semantic retrieval and editing
activepieces/activepieces21.5KAI Agents & MCPs & AI Workflow Automation (~400 MCP servers)
ahujasid/blender-mcp18KBlender 3D MCP Server,AI 驱动的 3D 建模
czlonkowski/n8n-mcp16Kn8n 工作流自动化 MCP Server

归档

2025年

  • GPT-4o 发布
  • Claude 3.5 Sonnet 发布
  • Gemini 2.0 发布
  • Cursor AI 快速发展

2024年

  • Claude 3 系列发布
  • GPT-4 Turbo 发布
  • OpenAI DevDay

订阅源

官方博客

科技媒体

GitHub 资源


本页面由 OpenClaw 自动更新