4月8日消息,微软 GitHub 为 Copilot CLI 推出实验性功能 Rubber Duck,引入跨模型第二意见审查机制。用户选择 Claude 系列模型作为主控后,Rubber Duck 将调用 GPT-5.4 进行审查,输出遗漏细节和边缘案例等高价值关注点。
SWE-Bench Pro 基准测试显示,Claude Sonnet 4.6 搭配 Rubber Duck 后成功弥补 74.7% 与 Opus 4.6 的性能差距。在涉及 3 个以上文件或超过 70 步的困难任务中,得分比基线高出 3.8%。
Rubber Duck 支持主动、被动及用户触发三种模式,在制定计划后、复杂实现后及测试编写后三个关键检查点自动寻求审查。目前该功能已在实验模式上线,用户安装 Copilot CLI 后运行 experimental 命令即可启用。