Bub：社会化评估与 Agent 协作

比起 agent 能否完成一个演示任务，我更关心的是：一个真实团队能否在压力下信任它。大多数系统的失败点不在能力，而在协作。

Bub 并非设计为仅面向个人的助手。它为共享环境而生——在这个环境中，人类和 agent 被视为对等的操作者。当前的部署可能只使用一个主要 agent，但协作模型本身是对称的：相同的边界、证据模型和交接语义同时适用于人类与 agent。

实际目标很简单：当工作变得混乱时，Bub 仍然应该像一个可靠的队友。它应该让执行可见，让交接安全，让延续可预测。

从工具执行到人类协作

很多 agent 系统关注的是模型能否执行命令。对于真实团队来说，这远远不够。真正重要的是：在较长的时间跨度内，结果是否可理解、可审查、可改进。

Bub 将此作为一等设计目标：

在 Bub 中，评估不仅以模型为中心，它在设计上就是社会化的：

如果答案是否定的，那么这个系统还不够可靠，无法用于生产环境的协作。 “社会化评估”一词沿用了即时通讯与社会化评估中的框架。

单用户流程可以隐藏很多结构性问题。多操作者环境会迅速暴露它们：状态冲突、职责不清和脆弱的上下文边界。

Bub 从第一天起就在这些约束下构建：

这就是 Bub 如何从”助手行为”迈向”协作基础设施”的。

Bub 使用 Republic 作为其上下文运行时。 Republic 的核心价值不是”一个更好的记忆技巧”。它重新定义了问题：将交互历史保存为可验证的事实，然后为每个任务组装最小充分的上下文。 Bub 在此模型之上构建，以支持人类和 agent 作为对等操作者参与的实际协作工作流。

我们的方向很简单：

构建在真实社会系统中有用的 agent，而不仅仅是在孤立演示中令人印象深刻的 agent。