博客

技术思考与工程实践

技术

我让 AI 当裁判,结果它比人工专家更接近标尺

一次 ToB AI 搜索评测系统复盘:如何从 LLM as Judge 走到文档即 Agent,并用考试机制证明评测 Agent 的可靠性。

Read

Agent Harness,这篇104页的综述终于把它定义清楚了

大家都在说 Agent Harness,但它到底由哪些部分组成?这篇综述给出了 H=(E,T,C,S,L,V) 的六组件框架,也给了我们优化 Agent 的工程地图。

日常

我写了一个让 AI 更像我自己的 skill

一次 AI Native 写作工作流复盘:让 AI 像自己,不是模仿语气,而是复刻自己的写作判断。

技术

Agent 不是缺大脑,是缺一个能跑稳的底盘

Agent 系统可靠性的上限,很多时候不是模型决定的,而是运行底盘 Harness 决定的。

日常

我用 AI 自动规划了五一北海行程

一次把高铁、酒店、吃吃喝喝、赶海和高德导航都整理进网页里的小实验。

日常

你好,世界

这是我的第一篇博客文章。关于为什么我决定搭建这个个人网站。