GEO·AEO크롤러·봇 정책업데이트 2026.04.28

CCBot

Common Crawl Bot

별칭Common CrawlCC-Bot

한 줄 정의

비영리 Common Crawl이 운영하는 공개 웹 크롤러로, 다수 LLM의 학습 데이터셋이 여기서 출발합니다.

자세히 알아보기

CCBot은 Common Crawl이라는 비영리 단체가 운영하는 공개 크롤러입니다. 이 크롤러가 모은 데이터셋은 누구나 다운받아 쓸 수 있어서, GPT 계열 초기 모델을 비롯해 수많은 LLM의 학습 데이터에 광범위하게 포함돼 왔습니다.

마케터 관점에서 CCBot이 흥미로운 이유는 '한 번 차단해 두면 LLM 학습 풀에서 우리 도메인 비중이 떨어진다'는 간접 효과 때문입니다. 반대로 허용해 두면 우리 콘텐츠가 다양한 모델의 사전학습에 자연스럽게 흘러 들어가게 됩니다.

다만 CCBot 차단이 모든 LLM 학습 차단을 의미하진 않습니다. 모델별 자체 크롤러(GPTBot, ClaudeBot 등)도 따로 운영되기 때문에, 학습 데이터 정책을 진지하게 다루려면 CCBot까지 포함해 봇 단위로 세팅을 일관되게 가져가야 합니다.

출처

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기