AI Agent보안·평가업데이트 2026.04.28

헌법 기반 AI

Constitutional AI (CAI)

별칭CAI헌법 기반 AI

한 줄 정의

Anthropic이 제안한 정렬 기법으로, 사람이 일일이 점수를 매기는 대신 '헌법(원칙)' 문서를 기준으로 모델이 자신의 답변을 스스로 평가하고 고치도록 학습시킵니다.

자세히 알아보기

Constitutional AI는 RLHF(인간 피드백 기반 강화학습)의 보완·대안으로 Anthropic이 2022년에 제안한 방법입니다. 사람이 모든 응답에 점수를 매기는 대신, '해를 끼치지 않는다', '도움이 된다', '정직하다' 같은 원칙들을 글로 명시하고, 모델이 그 원칙을 기준으로 자기 답변을 비판·수정하도록 학습시킵니다.

마케터에게 직접 보이는 영향은 'Claude의 답변 스타일'입니다. Claude가 종종 ChatGPT나 Gemini보다 더 신중하고, 위험한 요청에 부드럽게 거절하는 톤을 보이는 이유 중 큰 부분이 Constitutional AI에 있습니다. 같은 질문이라도 모델별로 답변 결이 다른 까닭이 여기서 옵니다.

Constitutional AI가 만능은 아닙니다. 헌법 자체가 잘못 쓰여 있으면 모델 행동도 같이 어긋나고, 다국어·문화권에 따라 같은 원칙이 다르게 해석되는 문제도 남아 있습니다. 그래서 실무에서는 RLHF·평가 시스템·HITL과 함께 다층 방어로 쓰이는 경우가 많습니다.

출처

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기