博客

技术思考与工程实践

我让 AI 当裁判，结果它比人工专家更接近标尺

一次 ToB AI 搜索评测系统复盘：如何从 LLM as Judge 走到文档即 Agent，并用考试机制证明评测 Agent 的可靠性。

大家都在说 Agent Harness，但它到底由哪些部分组成？这篇综述给出了 H=(E,T,C,S,L,V) 的六组件框架，也给了我们优化 Agent 的工程地图。

一次 AI Native 写作工作流复盘：让 AI 像自己，不是模仿语气，而是复刻自己的写作判断。

Agent 系统可靠性的上限，很多时候不是模型决定的，而是运行底盘 Harness 决定的。

一次把高铁、酒店、吃吃喝喝、赶海和高德导航都整理进网页里的小实验。

这是我的第一篇博客文章。关于为什么我决定搭建这个个人网站。