Strategy keynote · Decksmith experiment

Reliability, before autonomy.

先让本地 agent 系统少失真,再让它跑得更远。

Priority
P0

Evidence first.
Automation second.

Decision

Do less.
Verify more.

P0

Evidence trace

复杂研究和机制修改,必须留下证据链。

P1

Sub-agent receipts

子 agent 交付来源、置信度和下一步核验。

Later

Memory governance

等规模真正上来,再做系统化治理。

Problem

The agent doesn’t fail loudly.

它更常见的失败方式,是把低可信判断包装成顺滑结论。

01

来源缺失

最后只剩摘要,无法回到原始证据。

02

推断混入事实

看起来合理,但来源和模型判断没有分开。

03

低可信扩散

进入 memory 或 skill 后,错误会被复用。

P0

Make conclusions traceable.

只在高风险任务启用:深度研究、sub-agent 综合、agent / skill / memory 机制变更。

A

Sources checked

链接、文件、命令输出,留到结论旁边。

B

Confirmed vs inferred

事实和判断分层,不混写。

C

Unverified claims

不确定项显式留下,不进长期系统。

P1

Sub-agents need receipts.

Input

Task boundary

明确要查什么,不让子 agent 泛泛总结。

Output

Evidence + confidence

每条发现带来源和置信度。

Main thread

Verify before use

主线程核验后,才进入结论。

Later

Don’t govern memory too early.

现在继续用 Cloudflare AI Search + 人工判断。等召回质量变乱,或规模接近阈值,再加治理层。

Trigger
1000+

memories before systematic governance

Already fixed

Signal routing is now personal.

Public

What happened today?

全网热点,保留公共视野。

Personal

What should we use?

按 X 书签画像,优先 agent / memory / skill / workflow。

Operating principle

Build the guardrails that make future speed safe.

先治理失真,再扩展能力。

Evidence trace
Receipt handoff
Governance later