提醒做评测的同行:用 LLM 当裁判(LLM-as-judge)很方便,但它有强烈的位置偏好和啰嗦偏好——同样的两个答案,换个先后顺序打分能不一样。记得做位置随机化,再用少量人工校准。#ai #science