발행 2026-06-19

AI 크롤러, 차단이 아니라 '선택'이다 — GPTBot·ClaudeBot 설정 확인과 판단 기준

GPTBot을 막아야 하나? 질문이 조금 틀렸습니다. AI 크롤러는 무조건 막을 대상이 아니라, 비즈니스 모델에 따라 의식적으로 고르는 대상입니다. 먼저 내 현재 설정을 확인하고, 무엇을 얻고 잃는지 안 뒤, 봇별로 정합니다. 공포 마케팅이 아니라 판단 기준 이야기입니다.

'무조건 차단'이 답이 아닌 이유.

robots.txt는 자발적 준수를 요청하는 표준이지 기술적 강제가 아닙니다. 표준 문서(RFC 9309)는 "크롤러에게 규칙 준수를 요청"할 뿐이며 "이 규칙은 접근 인가의 형태가 아니다"라고 적습니다IETF RFC 9309, 2022. 구글 문서도 robots.txt 지시가 크롤러 동작을 강제할 수는 없다고 말합니다Google Search Central, 2026. 점잖은 크롤러는 따르고, 비순응 봇은 무시할 수 있습니다.

게다가 봇마다 목적이 다릅니다. 학습용, 검색 노출용, 사용자가 질문할 때 실시간으로 페이지를 가져오는 용도가 따로 있습니다. 이걸 한 덩어리로 막으면 AI 답변에 인용될 경로까지 같이 닫힙니다. 차단해도 색인이 완전히 사라지지도 않습니다 — Perplexity는 robots.txt로 막아도 "도메인·헤드라인·간단한 사실 요약은 여전히 색인할 수 있다"고 밝힙니다Perplexity, 2026.

내 사이트는 지금 AI 봇을 막고 있나?

가장 빠른 확인은 주소창에 내도메인/robots.txt를 직접 치는 것입니다. User-agent: GPTBot 같은 줄과 그 아래 Disallow를 읽으면 현재 상태가 보입니다. AI 봇 토큰을 가리키는 줄이 아예 없다면, 막지 않은 상태입니다.

읽는 법은 간단합니다. User-agent:는 어떤 봇에게 하는 말인지, Disallow:는 못 들어오게 할 경로, Allow:는 허용할 경로입니다. Disallow: /는 전체, Disallow: /admin/은 그 경로만입니다. 구조·기술 신호까지 한 번에 보려면 zupzup으로 4축(SEO·GEO·AEO·접근성)을 점검합니다.

막을까 열까 — 비즈니스 모델로 정한다.

정답은 없습니다. 허용은 AI 답변 인용이라는 노출 경로를 얻고, 차단은 콘텐츠 보호와 서버 부하 절감을 얻습니다. 무엇이 내 자산인지로 정합니다.

선택	얻는 것	내주는 것	대체로 맞는 곳
전체 허용	AI 답변 인용·발견성	콘텐츠가 학습에 쓰일 수 있음	커머스·로컬·SaaS
학습만 차단(검색 허용)	학습 옵트아웃하며 인용 경로 유지	봇별 설정이 복잡	미디어·퍼블리셔
전체 차단	콘텐츠 보호·부하 절감	발견성 손해(완전 차단은 아님)	민감·내부 자료

미디어·퍼블리셔는 콘텐츠 자체가 자산이라 학습 옵트아웃을 고려하되 검색계 봇은 열어 인용 유입을 남길 수 있습니다. 커머스·로컬은 AI 답변 인용이 노출 경로라 허용 쪽에 무게가 실립니다. SaaS·B2B는 문서·블로그가 리드 경로라 대체로 허용하고 민감 경로만 부분 차단합니다. 개인·포트폴리오는 취향 문제입니다. 처방이 아니라 판단 축입니다.

봇별 robots.txt 설정 예시.

핵심은 봇이 독립적이라는 것입니다. 학습봇과 검색봇은 별개 토큰이라, 하나를 막아도 다른 건 안 막힙니다. 따로 정해야 합니다. OpenAI는 "각 설정은 서로 독립적 — 검색에 나오도록 OAI-SearchBot은 허용하면서 학습용 GPTBot은 disallow할 수 있다"고 안내합니다OpenAI, 2026.

회사	토큰	용도	robots.txt
OpenAI	GPTBot / OAI-SearchBot / ChatGPT-User	학습 / 검색 / 사용자 fetch	각각 독립 제어
Anthropic	ClaudeBot / Claude-User / Claude-SearchBot	학습 / 사용자 / 검색	각각 별도 차단
Perplexity	PerplexityBot / Perplexity-User	검색 색인 / 사용자 fetch	앞은 준수, 뒤는 일반적으로 무시
Google	Google-Extended	Gemini·Vertex 학습 옵트아웃	검색·순위엔 영향 없음(Googlebot과 별개)

봇 정의와 차단법은 각 사 공식 문서 기준입니다 — Anthropic의 ClaudeBot·Claude-User·Claude-SearchBotAnthropic, 2026, Perplexity의 PerplexityBot·Perplexity-UserPerplexity, 2026, 구글의 Google-ExtendedGoogle Search Central, 2026. 학습용 봇만 막고 검색 노출은 남기려면:

``` User-agent: GPTBot Disallow: /

User-agent: ClaudeBot Disallow: /

User-agent: Google-Extended Disallow: / ```

전체를 막으려면 검색계 토큰(OAI-SearchBot·PerplexityBot 등)까지 각각 Disallow: /를 더합니다. Anthropic은 비표준 Crawl-delay 확장도 지원해, 차단 대신 속도만 늦출 수도 있습니다(User-agent: ClaudeBot / Crawl-delay: 1). OpenAI는 GPTBot을 disallow하면 "콘텐츠를 학습에 쓰지 않아야 함을 나타낸다(indicates)"고 표현합니다 — 막는다기보다 의사를 신호하는 쪽입니다.

설정한 뒤, 제대로 됐는지 본다.

robots.txt를 다시 열어 의도한 봇별로 줄이 맞는지 확인합니다. 단 robots.txt는 요청이라, 순응 봇에는 적용되고 비순응 봇은 무시할 수 있습니다. 그래서 "설정했다"와 "막혔다"는 같은 말이 아닙니다.

검증 루틴은 셋입니다. 재확인 → 봇별 의도 대조 → zupzup 4축 점검. Perplexity-User처럼 사용자 요청 기반이라 robots.txt를 일반적으로 무시하는 토큰은 robots만으로는 못 막는다는 점도 기억합니다. 내 사이트가 AI 답변에 실제로 잡히는지 보고 싶다면 자매편 내 사이트, AI 검색에 나오고 있을까 — 5분 확인 루틴을 함께 보세요.

차단도 허용도, 알고 하는 '선택'.

순서는 넷입니다. 확인 → 판단 → 설정 → 검증. robots.txt는 통제의 시작이지 끝이 아닙니다(강제력엔 한계가 있습니다). "무조건 막으세요"라는 공포 대신, 내 비즈니스 모델에 맞게 고르면 됩니다. 막는 것도 여는 것도, 알고 하는 선택이면 됩니다.