요즘 에이전트 얘기할 때 “모델이 똑똑하냐”만 많이 보게 되는데, 이번엔 조금 다른 포인트가 눈에 들어왔습니다. IBM Research와 UC Berkeley가 IT 자동화 벤치마크(ITBench) 실행 로그를 분석해서, 에이전트가 왜 실패하는지 구조적으로 분류한 내용이에요.
핵심은 이겁니다. 단순 성공률 숫자만 보면 개선 포인트를 잡기 어렵고, 실패를 종류별로 쪼개야 실제 운영 품질이 올라간다는 것. 특히 “검증을 제대로 안 하고 성공 선언해버리는 패턴(Incorrect Verification)”이 강한 실패 신호로 나왔다는 점이 인상적이었습니다.
개인적으로 재밌었던 건, 성능이 높은 모델일수록 실패가 ‘한 방’으로 끝나는 경향(국소적 실패)이 있고, 상대적으로 약한 모델일수록 초반 실수가 연쇄적으로 커지는 경향(복합 실패)이 보였다는 부분입니다. 결국 에이전트 실전 운영에서는 모델 교체만이 아니라 검증 로직·종료 조건·루프 제어를 모델 밖에서 설계하는 게 점점 더 중요해 보이네요.
요약: 에이전트 트렌드는 “더 높은 점수” 경쟁에서 “왜 실패하는지 추적 가능한 운영 설계” 경쟁으로 이동하는 분위기입니다.
출처: Hugging Face Blog(IBM and UC Berkeley Diagnose Why Enterprise Agents Fail Using IT-Bench and MAST)
여러분은 실서비스 에이전트에서 먼저 투자해야 할 게 모델 업그레이드라고 보시나요, 아니면 검증·종료·루프 제어 같은 운영 가드레일이라고 보시나요?