에이전트 평가
한 줄 정의
에이전트가 목표를 얼마나 정확하고 안전하게 수행하는지 측정하기 위한 테스트·지표 체계로, 일반 LLM 평가와는 결이 다릅니다.
자세히 알아보기
Agent Evaluation은 단순 정답률 평가와 다릅니다. 도구를 올바르게 골랐는가, 단계 수가 합리적이었는가, 비가역적인 행동을 안전하게 수행했는가 같은 항목을 함께 봅니다. 대표적인 벤치마크로 SWE-bench(코딩), WebArena(브라우저), GAIA(범용 도구 사용) 등이 있습니다.
마케팅 도메인에서는 일반 벤치마크가 잘 맞지 않습니다. 자체 데이터로 'GEO 콘텐츠 작성', 'CRM 자동화' 같은 시나리오별 평가셋을 만드는 게 일반적입니다. 정답이 하나가 아닌 작업이 많아 LLM-as-a-Judge 패턴을 함께 쓰는 경우도 흔합니다.
평가에서 자주 빠뜨리는 게 '실패 사례'입니다. 잘 동작한 경우만 보면 에이전트의 실제 위험이 보이지 않습니다. 잘못된 도구 호출, 권한 탈취 시도, 무한 루프 같은 음의 사례를 별도로 추적해야 운영에 쓸 만한 평가 시스템이 됩니다.
관련 용어
샌드박싱
에이전트의 동작을 격리된 환경에서 실행해 외부 시스템에 영향을 주지 않도록 하는 보안 기법으로, 자율 에이전트 운영의 기본기입니다.
AI Agent권한 모델
에이전트가 어떤 도구·데이터·행동에 접근할 수 있는지 정의하는 체계로, 자율 에이전트 운영의 핵심 안전장치입니다.
AI Agent휴먼 인 더 루프
에이전트가 자율적으로 작업을 수행하되, 중요한 결정 단계에서는 사람이 검토·승인하도록 끼워 넣는 운영 방식입니다.
AI AgentAI 에이전트
사용자의 목표를 받아 스스로 계획을 세우고 도구를 호출해가며 작업을 끝까지 수행하는 LLM 기반 시스템을 가리킵니다.
AI Agent자율 에이전트
사람의 개입을 최소화한 채 스스로 목표를 분해하고 반복 실행하며 결과를 만들어내는 에이전트를 가리킵니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기