AI Agent보안·평가업데이트 2026.04.28

에이전트 하이재킹

별칭Indirect Prompt Injection에이전트 탈취

한 줄 정의

외부 데이터·도구 결과에 숨겨진 악의적 지시문이 에이전트의 의사결정을 가로채는 공격으로, 자율 에이전트의 대표 보안 위협입니다.

자세히 알아보기

Agent Hijacking은 흔히 'indirect prompt injection'이라고도 부르는 공격입니다. 사용자가 직접 입력한 프롬프트가 아니라, 에이전트가 도구로 가져온 외부 데이터(웹 페이지·이메일·문서·API 응답)에 숨어 있는 지시문이 모델을 조작하는 방식입니다. 'Ignore previous instructions and ...' 류의 한 줄이 우리가 신뢰해 가져온 데이터에 적혀 있으면, 에이전트가 그걸 사용자 지시로 오인할 수 있습니다.

위험한 이유는 에이전트가 도구를 쓸 권한을 갖기 때문입니다. 단순 챗봇이라면 잘못된 답을 하는 데서 끝나지만, 메일을 보내고 결제하고 코드를 배포하는 에이전트가 하이재킹되면 실제 자산이 빠져나갑니다. 자율성 단계가 올라갈수록 공격 표면도 함께 커집니다.

방어는 한 가지 기법으로 끝나지 않습니다. 신뢰할 수 있는 입력과 신뢰할 수 없는 입력의 분리, 도구 권한 최소화, 위험 작업에 대한 휴먼 인 더 루프, 출력 콘텐츠 검사기, 그리고 정기적인 red-teaming을 겹쳐 운영하는 다층 방어가 현실적인 답입니다.

출처

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기