AI Agent보안·평가업데이트 2026.04.28

헌법 기반 AI

Constitutional AI (CAI)

별칭CAI헌법 기반 AI

한 줄 정의

Anthropic이 제안한 정렬 기법으로, 사람이 일일이 점수를 매기는 대신 '헌법(원칙)' 문서를 기준으로 모델이 자신의 답변을 스스로 평가하고 고치도록 학습시킵니다.

자세히 알아보기

Constitutional AI는 RLHF(인간 피드백 기반 강화학습)의 보완·대안으로 Anthropic이 2022년에 제안한 방법입니다. 사람이 모든 응답에 점수를 매기는 대신, '해를 끼치지 않는다', '도움이 된다', '정직하다' 같은 원칙들을 글로 명시하고, 모델이 그 원칙을 기준으로 자기 답변을 비판·수정하도록 학습시킵니다.

마케터에게 직접 보이는 영향은 'Claude의 답변 스타일'입니다. Claude가 종종 ChatGPT나 Gemini보다 더 신중하고, 위험한 요청에 부드럽게 거절하는 톤을 보이는 이유 중 큰 부분이 Constitutional AI에 있습니다. 같은 질문이라도 모델별로 답변 결이 다른 까닭이 여기서 옵니다.

Constitutional AI가 만능은 아닙니다. 헌법 자체가 잘못 쓰여 있으면 모델 행동도 같이 어긋나고, 다국어·문화권에 따라 같은 원칙이 다르게 해석되는 문제도 남아 있습니다. 그래서 실무에서는 RLHF·평가 시스템·HITL과 함께 다층 방어로 쓰이는 경우가 많습니다.

출처

Constitutional AI: Harmlessness from AI Feedback (arXiv:2212.08073)

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

내 브랜드 진단

헌법 기반 AI

자세히 알아보기

출처

관련 용어

Claude

권한 모델

에이전트 평가

휴먼 인 더 루프

LLM

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?