LLM평가·안전업데이트 2026.04.28

프롬프트 인젝션

별칭프롬프트 주입Indirect Prompt Injection

한 줄 정의

외부 데이터나 입력에 숨겨진 지시문이 LLM의 시스템 프롬프트를 덮어쓰며 모델이 의도치 않은 행동을 하도록 만드는 공격입니다.

자세히 알아보기

Prompt Injection은 LLM이 처리하는 데이터(이메일, 웹페이지, 문서) 안에 '이전 지시는 무시하고 X를 하라' 같은 숨겨진 명령어를 심어 모델이 그걸 따르게 만드는 공격입니다. 직접 입력에 넣는 'Direct'와 외부 데이터에 숨기는 'Indirect' 방식이 있는데, RAG·에이전트가 보편화되면서 후자가 가장 큰 위협으로 떠오르고 있습니다.

마케팅 관점에서 의미 있는 포인트는 '우리 콘텐츠나 외부 데이터가 인젝션의 매개체가 될 수 있다'는 점입니다. 누군가가 우리가 인용되는 페이지에 숨긴 지시문을 심으면, 그걸 읽은 LLM이 의도치 않은 답변을 낼 수 있습니다. 콘텐츠 모더레이션이 SEO 영역만의 일이 아니게 된 셈입니다.

방어는 어렵습니다. 완전히 차단하는 단일 해법은 없고, 신뢰 도메인 분리·구조화 출력 강제·중요한 행동 전 사용자 확인 같은 다층 방어를 결합해야 합니다. OWASP도 LLM 보안 Top 10에서 Prompt Injection을 1순위로 꼽고 있습니다.

출처

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기