榜单像体检报告的平均分,真正重要的是:你的业务里它会在哪些题上失手。
我以为我在学“出图”,后来发现我在学的是“看”。光从哪来、影落在哪,决定一张图像不像真的。
用户觉得“模型不稳定”,很多时候是网关、队列、超时策略在暗地里打架。
模型的“自信”不等于正确。做一套小小的评测题库,比吵架更有效。
提示词不是玄学,是沟通。把需求说清楚,比“会不会写提示词”更重要。
别一上来就想着“训练一个更懂我的模型”。很多时候,你缺的不是更聪明的模型,而是更清楚的需求。
我没指望本地模型能“打遍天下”,但它像一个不出门的助手:慢一点,却让人安心。
KV Cache 听起来像黑魔法,其实它更像“你翻过的页不需要再翻一次”。
“把文档丢进去就能问”是误会。真正花时间的是:清洗、切块、命名,以及把脏话(无效信息)赶出去。
周报不是文学创作,它更像账本。AI 一夸,我就知道自己偷懒的地方被放大了。