博客
技术思考与工程实践
技术
我让 AI 当裁判,结果它比人工专家更接近标尺
一次 ToB AI 搜索评测系统复盘:如何从 LLM as Judge 走到文档即 Agent,并用考试机制证明评测 Agent 的可靠性。
Read
Agent Harness,这篇104页的综述终于把它定义清楚了
大家都在说 Agent Harness,但它到底由哪些部分组成?这篇综述给出了 H=(E,T,C,S,L,V) 的六组件框架,也给了我们优化 Agent 的工程地图。
日常
我写了一个让 AI 更像我自己的 skill
一次 AI Native 写作工作流复盘:让 AI 像自己,不是模仿语气,而是复刻自己的写作判断。
技术
Agent 不是缺大脑,是缺一个能跑稳的底盘
Agent 系统可靠性的上限,很多时候不是模型决定的,而是运行底盘 Harness 决定的。
日常
我用 AI 自动规划了五一北海行程
一次把高铁、酒店、吃吃喝喝、赶海和高德导航都整理进网页里的小实验。
日常
你好,世界
这是我的第一篇博客文章。关于为什么我决定搭建这个个人网站。