Workspace
个人技术笔记本。读后感、踩坑记录、思考碎片。中文为主,偶尔英文。
Recent posts
Prompt Learning 的两个反馈圈
最近半年,业界几乎所有团队都在抱怨 agent 不可靠。模型选了最贵的,工具调用接全了,上下文也尽量塞满,可输出依然时好时坏。换一个模型也救不回来。问题出在哪里? Arize 的 SallyAnn DeLucia 和 Fuad Ali 在 AI Engineer 大会上做了一个 52 分钟的工作坊,给出的诊断是:绝大多数情况下,模型并不弱,弱的是它身处的环境与被喂的指令。他们把这套方法叫 prompt learning,一个针对 system prompt 的持续学习闭环。
Read more →让 AI 代码审查工具不能再瞎引证
最近读了一个叫 Clawpatch 的开源项目源码,写一点感想。 本来没打算细看。它是个自动审代码的命令行工具——扫一遍仓库、找 bug、跑测试、顺手给个修复方案。这类工具 GitHub 上一搜几十个,听起来没什么特别。
Read more →NVIDIA 给 3 万人 RAG 助手装了一个数据飞轮
10 月底,NVIDIA 一个 12 人小组在 arxiv 挂了一篇论文(编号 2510.27051),题目叫《Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent Improvement》。听上去像范式论文,实际上是一份工业实践报告——他们写了内部 RAG 助手 NVInfo AI(服务 3 万员工的混合专家知识助手)上线之后,怎么让它"自己持续变好"。 我读完最深的感受是:行业现在普遍卡在"RAG …
Read more →Cowork 五条规则背后的同一件事
最近这半年,Anthropic 在做一件不太显眼但方向很清楚的事:把原本只有开发者会写的 CLAUDE.md、MEMORY.md、skills 这一整套工程化写法,整体搬到 Web 端给非开发者用。这个新产品叫 Claude Cowork,4 月 GA,目标用户是没碰过命令行的知识工作者。 Jeff Su 在他最新一期视频 Top 5 Claude Cowork Tips I Wish I Knew from Day One 里给了 5 条上手规则,他在 Cowork 里跑了…
Read more →大模型周刊 第 33 期:开源开始正面交锋,Anthropic 把招股书递了
这一周的关键词是"上场"。MiniMax 在 6 月 1 日把 M3 拍在桌上,1M 上下文、原生多模态、开源权重,SWE-Bench Pro 59.0,三天后英伟达把 Nemotron 3 Ultra 也开源出来,550B MoE,目标是把"长跑型 Agent"的推理成本压下来。同一天,Anthropic 正式把 S-1 递给了 SEC,紧跟在 OpenAI 后面冲二级市场;Microsoft 在 Build 2026 上掏出自研的 MAI-Code-1-Flash 和 M…
Read more →榨干每块显存:LLM 底层显存优化
作者:toy ---
Read more →让 Agent 会思考:规划与推理范式
作者:toy 大多数人第一次看到 ChatGPT 流式输出时,误以为模型在"思考"。实际上它在做一件更机械的事:每次预测下一个 token 的概率分布,然后采样。这个过程里没有回溯,没有规划,没有对全局的感知。一个字一个字往前走,无法停下来说"等等,我刚才的假设可能是错的"。
Read more →让 Agent 跑得快:LLM 推理服务
一个 Agent 工作流,最终的性能瓶颈往往不在路由逻辑、工具调用,而在 LLM 推理本身。同样的模型,同样的硬件,不同的推理框架可以带来 10 倍以上的吞吐差距。这篇文章讨论推理服务的底层机制,以及三个主流框架:vLLM、SGLang、TensorRT-LLM,各自从哪个维度突破瓶颈。 ---
Read more →把模型练成你的 Agent:微调方案
作者:toy ---
Read more →搭 Agent 的脚手架:主流开发框架
作者:toy ---
Read more →About
这里发的东西大多围绕 AI agents、prompt engineering、分布式系统的"工程化落地"——少谈范式、多记踩坑。不接广告、不收订阅。
Setup
这台机器是 hkg 的小型 VPS,跑 nginx + 静态文件,证书 Let's Encrypt 自动续期。bootstrap 时按这个清单做了硬化:
# minimal hardening checklist
- ssh: pubkey only, custom port, no password
- firewall: default-deny inbound, only 80 / 443 / ssh
- web: nginx + tls (Let's Encrypt, auto-renew)
- no rpc / mail / cluster services exposed