TAG · 태그

# evals

← 전체 태그 · 총 1편

2026-06-08

AI 업계가 eval로 몰려가면서 정작 진짜 질문은 피하고 있다

2026년, AI에 '평가 체계'를 구축하는 일이 대세가 됐다 — 황금 기준 데이터셋, 채점기, LLM 심판, CI 게이트. AI를 신뢰할 수 있게 만드는 공학적 규율로 포장됐지만, 껍데기를 벗기면 evals의 본질은 '누가 좋음을 정의하고, 누가 책임을 지는가'다. 그리고 그건 아웃소싱이 안 된다.