SEO테크니컬업데이트 2026.04.28

robots.txt

별칭로봇 텍스트robots 파일

한 줄 정의

사이트 루트에 두는 텍스트 파일로, 검색 엔진과 AI 크롤러에게 어떤 경로를 크롤링해도 되는지 알려주는 표준 규약입니다.

자세히 알아보기

robots.txt는 1994년 처음 제안되어 2022년 IETF가 RFC 9309로 표준화한 단순하지만 강력한 규약입니다. 사이트 루트(`https://example.com/robots.txt`)에 평문 파일로 두고, `User-agent`로 봇을 지정한 뒤 `Allow` / `Disallow`로 경로 단위 접근을 제어합니다. 주요 검색 엔진(Googlebot·Bingbot 등)은 물론 GPTBot·ClaudeBot·PerplexityBot·Google-Extended 같은 AI 크롤러도 이 파일을 가장 먼저 확인합니다. 즉 robots.txt는 우리 사이트가 AI에 노출될지 말지를 결정하는 첫 번째 게이트입니다.

기본 문법은 다음과 같습니다. ```User-agent: *\nDisallow: /admin/\nAllow: /\nSitemap: https://example.com/sitemap.xml```. 별표(`*`)는 모든 봇을 의미하고, 봇별로 따로 규칙을 줄 수도 있습니다(예: `User-agent: GPTBot` → `Disallow: /`). `Sitemap` 라인은 필수는 아니지만 사이트맵 위치를 함께 알려주는 게 권장 패턴입니다.

가장 자주 발생하는 오해는 'robots.txt가 색인을 차단한다'는 생각입니다. 정확히는 **크롤링 차단이지 색인 차단이 아닙니다**. Disallow된 URL이라도 외부 링크가 많이 걸려 있으면 구글이 본문을 못 읽은 채로 URL만 색인에 남기는 경우가 흔합니다. 이때 SERP에는 '이 페이지의 정보가 없습니다' 같은 비어 있는 결과가 떠 오히려 더 안 좋습니다. 색인을 정말 막아야 한다면 페이지에 `<meta name="robots" content="noindex">`를 같이 넣어야 합니다. 단, noindex가 작동하려면 봇이 페이지를 크롤링할 수 있어야 하므로, robots.txt에서 동시에 막아두면 모순이 생깁니다.

현장에서 가장 큰 사고는 두 가지입니다. **첫째, 스테이징·개발 서버의 `Disallow: /`가 운영으로 그대로 배포되는 경우**. 사이트 전체가 검색에서 사라집니다. 리뉴얼 직후 트래픽이 0으로 빠지는 사고의 절반 이상이 이 한 줄이 원인입니다. **둘째, AI 크롤러 차단 정책을 검토 없이 디폴트로 켜두는 경우**. 일부 CDN(특히 Cloudflare)이 'AI 봇 차단' 옵션을 기본 활성화로 두면서 GPTBot·ClaudeBot이 통째로 막히고, 결과적으로 ChatGPT·Claude 답변에서 우리 도메인이 사실상 사라집니다. AI 검색을 의식적으로 차단할 정책적 이유가 없다면 디폴트 차단을 풀어두는 게 합리적입니다.

GEO·AEO 관점에서 robots.txt는 '인용 가능성의 게이트' 그 자체입니다. 점검 시 다음 봇 이름은 반드시 명시적으로 확인합니다: GPTBot(OpenAI), ChatGPT-User(브라우징), Google-Extended(Gemini·SGE), ClaudeBot·anthropic-ai(Anthropic), PerplexityBot, Applebot-Extended, CCBot(Common Crawl). 특히 Common Crawl(CCBot)은 거의 모든 LLM의 학습 데이터셋 기반이라 차단 시 장기적으로 인용 데이터에서 누락됩니다. Search Console의 'robots.txt 테스터'와 `https://example.com/robots.txt` 직접 확인을 정기 점검 루틴에 넣어두면 사고를 예방하기 쉽습니다.

출처

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기