Workspace

个人技术笔记本。读后感、踩坑记录、思考碎片。中文为主，偶尔英文。

Recent posts

post · 2026-06-09

Prompt Learning 的两个反馈圈

最近半年，业界几乎所有团队都在抱怨 agent 不可靠。模型选了最贵的，工具调用接全了，上下文也尽量塞满，可输出依然时好时坏。换一个模型也救不回来。问题出在哪里？ Arize 的 SallyAnn DeLucia 和 Fuad Ali 在 AI Engineer 大会上做了一个 52 分钟的工作坊，给出的诊断是：绝大多数情况下，模型并不弱，弱的是它身处的环境与被喂的指令。他们把这套方法叫 prompt learning，一个针对 system prompt 的持续学习闭环。

post · 2026-06-08

让 AI 代码审查工具不能再瞎引证

最近读了一个叫 Clawpatch 的开源项目源码，写一点感想。本来没打算细看。它是个自动审代码的命令行工具——扫一遍仓库、找 bug、跑测试、顺手给个修复方案。这类工具 GitHub 上一搜几十个，听起来没什么特别。

post · 2026-06-07

NVIDIA 给 3 万人 RAG 助手装了一个数据飞轮

10 月底，NVIDIA 一个 12 人小组在 arxiv 挂了一篇论文（编号 2510.27051），题目叫《Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent Improvement》。听上去像范式论文，实际上是一份工业实践报告——他们写了内部 RAG 助手 NVInfo AI（服务 3 万员工的混合专家知识助手）上线之后，怎么让它"自己持续变好"。我读完最深的感受是：行业现在普遍卡在"RAG …

post · 2026-06-06

Cowork 五条规则背后的同一件事

最近这半年，Anthropic 在做一件不太显眼但方向很清楚的事：把原本只有开发者会写的 CLAUDE.md、MEMORY.md、skills 这一整套工程化写法，整体搬到 Web 端给非开发者用。这个新产品叫 Claude Cowork，4 月 GA，目标用户是没碰过命令行的知识工作者。 Jeff Su 在他最新一期视频 Top 5 Claude Cowork Tips I Wish I Knew from Day One 里给了 5 条上手规则，他在 Cowork 里跑了…

post · 2026-06-05

大模型周刊第 33 期：开源开始正面交锋，Anthropic 把招股书递了

这一周的关键词是"上场"。MiniMax 在 6 月 1 日把 M3 拍在桌上，1M 上下文、原生多模态、开源权重，SWE-Bench Pro 59.0，三天后英伟达把 Nemotron 3 Ultra 也开源出来，550B MoE，目标是把"长跑型 Agent"的推理成本压下来。同一天，Anthropic 正式把 S-1 递给了 SEC，紧跟在 OpenAI 后面冲二级市场；Microsoft 在 Build 2026 上掏出自研的 MAI-Code-1-Flash 和 M…

post · 2026-05-30

榨干每块显存：LLM 底层显存优化

作者：toy ---

post · 2026-05-30

让 Agent 会思考：规划与推理范式

作者：toy 大多数人第一次看到 ChatGPT 流式输出时，误以为模型在"思考"。实际上它在做一件更机械的事：每次预测下一个 token 的概率分布，然后采样。这个过程里没有回溯，没有规划，没有对全局的感知。一个字一个字往前走，无法停下来说"等等，我刚才的假设可能是错的"。

post · 2026-05-30

让 Agent 跑得快：LLM 推理服务

一个 Agent 工作流，最终的性能瓶颈往往不在路由逻辑、工具调用，而在 LLM 推理本身。同样的模型，同样的硬件，不同的推理框架可以带来 10 倍以上的吞吐差距。这篇文章讨论推理服务的底层机制，以及三个主流框架：vLLM、SGLang、TensorRT-LLM，各自从哪个维度突破瓶颈。 ---

post · 2026-05-30

把模型练成你的 Agent：微调方案

作者：toy ---

post · 2026-05-30

搭 Agent 的脚手架：主流开发框架

作者：toy ---

About

这里发的东西大多围绕 AI agents、prompt engineering、分布式系统的"工程化落地"——少谈范式、多记踩坑。不接广告、不收订阅。

Setup

这台机器是 hkg 的小型 VPS，跑 nginx + 静态文件，证书 Let's Encrypt 自动续期。bootstrap 时按这个清单做了硬化：

# minimal hardening checklist
- ssh: pubkey only, custom port, no password
- firewall: default-deny inbound, only 80 / 443 / ssh
- web: nginx + tls (Let's Encrypt, auto-renew)
- no rpc / mail / cluster services exposed

build · v0.3 · region · hkg · updated · 2026-06-10

Workspace

Recent posts

Prompt Learning 的两个反馈圈

让 AI 代码审查工具不能再瞎引证

NVIDIA 给 3 万人 RAG 助手装了一个数据飞轮

Cowork 五条规则背后的同一件事

大模型周刊 第 33 期：开源开始正面交锋，Anthropic 把招股书递了

榨干每块显存：LLM 底层显存优化

让 Agent 会思考：规划与推理范式

让 Agent 跑得快：LLM 推理服务

把模型练成你的 Agent：微调方案

搭 Agent 的脚手架：主流开发框架

About

Setup

大模型周刊第 33 期：开源开始正面交锋，Anthropic 把招股书递了