CCBot
Common Crawl Bot
한 줄 정의
비영리 Common Crawl이 운영하는 공개 웹 크롤러로, 다수 LLM의 학습 데이터셋이 여기서 출발합니다.
자세히 알아보기
CCBot은 Common Crawl이라는 비영리 단체가 운영하는 공개 크롤러입니다. 이 크롤러가 모은 데이터셋은 누구나 다운받아 쓸 수 있어서, GPT 계열 초기 모델을 비롯해 수많은 LLM의 학습 데이터에 광범위하게 포함돼 왔습니다.
마케터 관점에서 CCBot이 흥미로운 이유는 '한 번 차단해 두면 LLM 학습 풀에서 우리 도메인 비중이 떨어진다'는 간접 효과 때문입니다. 반대로 허용해 두면 우리 콘텐츠가 다양한 모델의 사전학습에 자연스럽게 흘러 들어가게 됩니다.
다만 CCBot 차단이 모든 LLM 학습 차단을 의미하진 않습니다. 모델별 자체 크롤러(GPTBot, ClaudeBot 등)도 따로 운영되기 때문에, 학습 데이터 정책을 진지하게 다루려면 CCBot까지 포함해 봇 단위로 세팅을 일관되게 가져가야 합니다.
출처
관련 용어
GPTBot
OpenAI가 ChatGPT 학습·검색용으로 운영하는 웹 크롤러로, robots.txt를 통해 접근을 허용하거나 차단할 수 있습니다.
GEO·AEOClaudeBot
Anthropic이 Claude 학습·답변 생성을 위해 운영하는 웹 크롤러로, robots.txt를 통해 제어할 수 있습니다.
GEO·AEOGoogle-Extended
구글이 Gemini·Vertex AI 학습용으로 별도 분리해 둔 크롤러 식별자로, 일반 검색용 Googlebot과 따로 통제할 수 있습니다.
GEO·AEOApplebot-Extended
애플이 AI 학습용 데이터 사용을 분리 통제하기 위해 도입한 식별자로, Siri·Spotlight 색인용 Applebot과 별개로 제어할 수 있습니다.
GEO·AEOllms.txt
사이트 루트에 두는 텍스트 파일로, LLM에게 '이 사이트의 핵심 콘텐츠가 어디에 있는지'를 안내하기 위해 제안된 비공식 규약입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기