프롬프트 인젝션
한 줄 정의
외부 데이터나 입력에 숨겨진 지시문이 LLM의 시스템 프롬프트를 덮어쓰며 모델이 의도치 않은 행동을 하도록 만드는 공격입니다.
자세히 알아보기
Prompt Injection은 LLM이 처리하는 데이터(이메일, 웹페이지, 문서) 안에 '이전 지시는 무시하고 X를 하라' 같은 숨겨진 명령어를 심어 모델이 그걸 따르게 만드는 공격입니다. 직접 입력에 넣는 'Direct'와 외부 데이터에 숨기는 'Indirect' 방식이 있는데, RAG·에이전트가 보편화되면서 후자가 가장 큰 위협으로 떠오르고 있습니다.
마케팅 관점에서 의미 있는 포인트는 '우리 콘텐츠나 외부 데이터가 인젝션의 매개체가 될 수 있다'는 점입니다. 누군가가 우리가 인용되는 페이지에 숨긴 지시문을 심으면, 그걸 읽은 LLM이 의도치 않은 답변을 낼 수 있습니다. 콘텐츠 모더레이션이 SEO 영역만의 일이 아니게 된 셈입니다.
방어는 어렵습니다. 완전히 차단하는 단일 해법은 없고, 신뢰 도메인 분리·구조화 출력 강제·중요한 행동 전 사용자 확인 같은 다층 방어를 결합해야 합니다. OWASP도 LLM 보안 Top 10에서 Prompt Injection을 1순위로 꼽고 있습니다.
출처
관련 용어
탈옥
안전 정책으로 막혀 있는 LLM의 응답 제한을 프롬프트 트릭으로 우회해 금지된 내용을 끌어내는 시도를 의미합니다.
LLM가드레일
LLM 입출력에 추가로 붙여 부적절한 응답·정책 위반·민감 정보 유출을 막는 안전 장치들의 총칭입니다.
LLM시스템 프롬프트
사용자 메시지보다 먼저 LLM에 전달돼 모델의 역할·말투·행동 규칙을 설정하는 지시문으로, AI 제품의 '캐릭터'를 정의합니다.
LLMAI 정렬
AI가 사람의 의도·가치·안전 기준에 맞게 행동하도록 만드는 작업과 연구 분야 전체를 가리킵니다.
LLMRAG
LLM이 답하기 전에 외부 문서나 검색 결과를 가져와 근거로 활용하는 구조로, ChatGPT Search·Perplexity 같은 AI 검색 답변의 핵심 기법입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기