에이전트 하이재킹
한 줄 정의
외부 데이터·도구 결과에 숨겨진 악의적 지시문이 에이전트의 의사결정을 가로채는 공격으로, 자율 에이전트의 대표 보안 위협입니다.
자세히 알아보기
Agent Hijacking은 흔히 'indirect prompt injection'이라고도 부르는 공격입니다. 사용자가 직접 입력한 프롬프트가 아니라, 에이전트가 도구로 가져온 외부 데이터(웹 페이지·이메일·문서·API 응답)에 숨어 있는 지시문이 모델을 조작하는 방식입니다. 'Ignore previous instructions and ...' 류의 한 줄이 우리가 신뢰해 가져온 데이터에 적혀 있으면, 에이전트가 그걸 사용자 지시로 오인할 수 있습니다.
위험한 이유는 에이전트가 도구를 쓸 권한을 갖기 때문입니다. 단순 챗봇이라면 잘못된 답을 하는 데서 끝나지만, 메일을 보내고 결제하고 코드를 배포하는 에이전트가 하이재킹되면 실제 자산이 빠져나갑니다. 자율성 단계가 올라갈수록 공격 표면도 함께 커집니다.
방어는 한 가지 기법으로 끝나지 않습니다. 신뢰할 수 있는 입력과 신뢰할 수 없는 입력의 분리, 도구 권한 최소화, 위험 작업에 대한 휴먼 인 더 루프, 출력 콘텐츠 검사기, 그리고 정기적인 red-teaming을 겹쳐 운영하는 다층 방어가 현실적인 답입니다.
출처
관련 용어
에이전트 자율성 단계
에이전트가 사람의 개입 없이 어디까지 스스로 결정·실행할 수 있는지를 단계로 구분한 개념으로, 자율주행 레벨 모델과 유사한 프레임으로 자주 쓰입니다.
AI Agent권한 모델
에이전트가 어떤 도구·데이터·행동에 접근할 수 있는지 정의하는 체계로, 자율 에이전트 운영의 핵심 안전장치입니다.
AI Agent샌드박싱
에이전트의 동작을 격리된 환경에서 실행해 외부 시스템에 영향을 주지 않도록 하는 보안 기법으로, 자율 에이전트 운영의 기본기입니다.
AI Agent휴먼 인 더 루프
에이전트가 자율적으로 작업을 수행하되, 중요한 결정 단계에서는 사람이 검토·승인하도록 끼워 넣는 운영 방식입니다.
AI Agent에이전트 평가
에이전트가 목표를 얼마나 정확하고 안전하게 수행하는지 측정하기 위한 테스트·지표 체계로, 일반 LLM 평가와는 결이 다릅니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기