탈옥
한 줄 정의
안전 정책으로 막혀 있는 LLM의 응답 제한을 프롬프트 트릭으로 우회해 금지된 내용을 끌어내는 시도를 의미합니다.
자세히 알아보기
Jailbreak은 모델의 안전 가드(예: '폭력·해킹·민감 정보' 같은 영역의 거절)를 우회하기 위해 프롬프트를 정교하게 조작하는 시도를 가리킵니다. 'DAN(Do Anything Now)', 가상 인격 부여, 다단계 우회 시나리오 등이 잘 알려진 패턴입니다.
마케팅 관점에서 직접 다룰 일은 적지만, 우리 회사가 만든 AI 제품도 같은 위험에 노출됩니다. 시스템 프롬프트에 적힌 정책을 누군가가 우회해서 부적절한 답변을 끌어낸다면, 그건 곧 브랜드 리스크가 됩니다. 즉, 'AI 안전'은 더 이상 모델 회사만의 문제가 아닙니다.
방어책으로는 다층 가드레일(필터·정책 검증 모델·로깅), 정기적인 레드팀 테스트, 고위험 작업의 경우 사람 검토 단계 삽입 같은 접근이 일반적입니다. 단일 시스템 프롬프트에만 의존하면 우회되기 쉽습니다.
관련 용어
AI 정렬
AI가 사람의 의도·가치·안전 기준에 맞게 행동하도록 만드는 작업과 연구 분야 전체를 가리킵니다.
LLM프롬프트 인젝션
외부 데이터나 입력에 숨겨진 지시문이 LLM의 시스템 프롬프트를 덮어쓰며 모델이 의도치 않은 행동을 하도록 만드는 공격입니다.
LLM가드레일
LLM 입출력에 추가로 붙여 부적절한 응답·정책 위반·민감 정보 유출을 막는 안전 장치들의 총칭입니다.
LLM시스템 프롬프트
사용자 메시지보다 먼저 LLM에 전달돼 모델의 역할·말투·행동 규칙을 설정하는 지시문으로, AI 제품의 '캐릭터'를 정의합니다.
LLMRLHF
사람이 응답을 평가·비교한 데이터를 보상 신호로 삼아 LLM을 더 유용하고 안전하게 다듬는 학습 방식으로, ChatGPT 품질의 핵심 비결입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기