robots.txt란? 네이버 구글 검색 노출 만드는 필수 작업

robots.txt를 잘못 설정하면 사이트 전체가 검색에서 사라질 수 있다는 사실, 알고 계신가요? 한 글자 차이로 수개월간 쌓은 SEO 노력이 무너질 수 있습니다. 기본 구조부터 AI 크롤러 차단까지 초보자도 따라 할 수 있는 설정 방법을 제시합니다. 실무 예시를 통해 크롤링 효율 최적화를 시작해 보세요.
Phoebe's avatar
Jan 11, 2026
robots.txt란? 네이버 구글 검색 노출 만드는 필수 작업

업무 미팅을 위해 한 회사를 방문했습니다. 건물 1층 로비에 있는 직원이 어느 팀의 누구를 만나러 왔는지 확인합니다. 방문 목적을 확인받은 후에야 해당 층으로 올라갈 수 있으며, 임원실이나 회의실처럼 제한된 공간은 허가 없이 들어갈 수 없습니다.

웹사이트도 마찬가지입니다. robots.txt는 검색엔진 크롤러에게 웹사이트의 출입 규칙을 안내하는 파일입니다.

robots.txt란?

robots.txt는 검색엔진 크롤러에게 웹사이트 방문 규칙을 알려주는 텍스트 파일입니다. 구글봇, 네이버봇 같은 주요 검색엔진 크롤러는 웹사이트에 접속할 때 가장 먼저 robots.txt를 확인합니다.

이 파일에 적힌 규칙에 따라 어떤 페이지는 수집 대상이 되고, 어떤 페이지는 검색엔진이 접근하지 않도록 제한됩니다. 즉 robots.txt는 웹사이트 운영자가 검색엔진에 “어디까지 들어와도 되는지”를 안내하는 공식적인 출입 규칙이라고 볼 수 있습니다.

그렇다면 이 규칙 파일은 어디에 있고, 어떻게 확인할 수 있을까요?

robots.txt 파일은 도메인 바로 뒤에 위치합니다. 여러분의 웹사이트가 www.example.com이라면 www.example.com/robots.txt로 접속하면 확인할 수 있습니다.

네이버, 쿠팡 같은 대형 사이트 역시 모두 이 위치에 robots.txt를 두고 검색엔진 접근 범위를 관리하고 있습니다.

💡다만 한 가지 주의할 점이 있습니다.

robots.txt는 검색엔진 크롤러를 위한 ‘약속’에 가깝습니다. 구글봇, 네이버봇처럼 정상적인 검색엔진 크롤러는 이 규칙을 따르지만, 모든 봇이 이를 강제로 지켜야 하는 것은 아닙니다.

즉 robots.txt는 보안 장치가 아니라, 검색엔진 크롤링을 제어하기 위한 안내문이자 가이드 역할을 합니다.

Google Search Central 공식 문서 속 Robots.txt 소개 및 가이드

robots.txt가 하는 3가지 일

크롤러 접근 범위 설정

검색엔진 크롤러는 웹사이트의 페이지를 최대한 많이 수집하려고 합니다. 하지만 관리자 페이지, 테스트 페이지, 회원 전용 페이지처럼 검색 결과에 나올 필요가 없는 영역도 있습니다. robots.txt는 이런 페이지를 크롤러가 건너뛰도록 안내합니다.

예를 들어 온라인 쇼핑몰이라면 '/admin' 폴더(관리자 페이지)나 '/cart' 폴더(장바구니 페이지)는 검색 결과에 노출될 필요가 없겠죠. 이런 영역을 robots.txt로 차단할 수 있습니다.

서버 부담 절감

크롤러는 웹사이트를 방문할 때마다 서버에 요청을 보냅니다. 페이지가 10개뿐인 소규모 사이트라면 문제없지만, 수천 개 이상의 페이지가 있는 대형 사이트에서는 크롤러의 반복적인 방문이 서버에 부담을 줍니다.

이미지 폴더('/images'), CSS 파일, 자바스크립트 파일처럼 검색 노출이 필요 없는 리소스를 차단하면 크롤러가 중요한 콘텐츠 페이지를 먼저 수집할 수 있습니다. 서버 자원도 절약되고, 크롤링 효율도 높아집니다.

사이트맵 위치 표시

사이트맵(sitemap.xml)은 웹사이트의 모든 페이지 목록을 담은 파일입니다. robots.txt에 사이트맵 위치를 적어두면 크롤러가 놓치는 페이지 없이 효율적으로 수집합니다.

특히 신규 페이지나 업데이트된 페이지를 빠르게 검색 결과에 반영하고 싶다면 robots.txt에 사이트맵 위치를 명시해 두는 것이 좋습니다.

SEO에서 robots.txt의 역할

robots.txt는 직접적인 검색 순위 요소는 아닙니다. 하지만 크롤링 효율을 높여 간접적으로 SEO에 영향을 줍니다.

크롤 버짓 최적화로 검색 노출 속도 개선

검색엔진은 하루에 한 웹사이트를 무한정 크롤링하지 않습니다. 사이트 규모와 상태에 따라 크롤링 횟수를 정해 효율적으로 크롤링합니다. 이를 크롤 버짓(Crawl Budget)이라고 합니다.

불필요한 페이지를 robots.txt로 차단하면 크롤러가 중요한 페이지에 더 많은 크롤 버짓을 사용합니다. 특히 수만 개 이상의 페이지를 가진 대형 사이트에서는 이 차이가 검색 노출 속도에 영향을 줍니다.

정렬·필터로 생기는 URL 중복 방지

쇼핑몰이나 게시판 사이트를 보면, 같은 내용이지만 정렬 방식이나 필터 조건에 따라 URL만 다른 페이지들이 여러 개 생깁니다. 예를 들어 /products?sort=price/products?sort=name은 보여주는 상품 목록은 같고 정렬 기준만 다른 경우가 많습니다.

검색엔진 입장에서는 이 페이지들이 전부 다른 페이지처럼 보입니다. 어떤 페이지를 대표로 수집해야 할지 헷갈리고 크롤링 자원도 불필요하게 낭비하게 됩니다.

이런 정렬·필터용 URL들을 robots.txt로 차단하면, 검색엔진은 핵심 페이지 하나에만 집중하게 되고, 크롤링 효율도 훨씬 좋아집니다.

robots.txt의 기본 구조
robots.txt의 기본 구조

robots.txt 기본 구조

robots.txt는 크롤러가 읽을 수 있도록 정해진 형식으로 작성합니다. 세 가지 핵심 요소를 이해하면 됩니다.

User-agent: 크롤러의 이름

User-agent는 크롤러의 이름입니다. 구글, 네이버, 빙 같은 검색엔진은 각자 이름을 가진 크롤러를 보냅니다.

주요 크롤러 이름

  • 구글: Googlebot

  • 네이버: Yeti

  • 빙: Bingbot

  • 모든 크롤러: * (별표)

예를 들어

User-agent: Googlebot

이 코드는 구글 크롤러에게만 적용되는 규칙이라는 뜻입니다.

User-agent: *

별표(*)는 모든 크롤러를 의미합니다. 구글, 네이버, 빙 등 모든 검색엔진에 같은 규칙을 적용하고 싶을 때 사용합니다.

모든 크롤러를 의미하는 user-agent: * 예시
모든 크롤러를 의미하는 user-agent: * 예시

Disallow/Allow: 어디를 막고 어디를 허용할지

Disallow는 크롤링을 차단할 위치를, Allow는 허용할 위치를 지정합니다. 여기서 위치는 도메인 뒤의 경로를 의미합니다.

예를 들어 www.example.com/admin/settings.html 이라는 주소가 있다면, /admin/settings.html 부분이 경로입니다. 경로는 항상 슬래시(/)로 시작합니다.

기본 예시

User-agent: *
Disallow: /admin/

이 코드는 모든 크롤러에게 /admin/ 폴더(그리고 그 안의 모든 파일)를 수집하지 말라는 의미입니다.

빈 Disallow의 의미

User-agent: *
Disallow:

Disallow 뒤에 아무것도 쓰지 않으면 차단할 페이지가 없다는 뜻입니다. 모든 페이지를 자유롭게 크롤링해도 된다는 의미죠.

Sitemap: 사이트맵 위치

사이트맵 파일이 어디 있는지 전체 주소로 알려줍니다. 사이트맵에는 사이트 전체 구조가 정리되어 있어서 검색엔진이 페이지를 일일이 탐색하지 않아도 됩니다. 그래서 사이트 규모가 클수록 Sitemap을 적어두는 것이 도움이 됩니다.

예시

Sitemap: <https://www.example.com/sitemap.xml>

robots.txt 실무에서 자주 쓰는 설정 3가지

1. 모든 크롤러 허용하기

가장 기본적인 설정입니다. 모든 검색엔진이 모든 페이지를 자유롭게 크롤링할 수 있습니다.

User-agent: *
Disallow:
Sitemap: <https://www.example.com/sitemap.xml>

User-agent: * → 모든 크롤러

Disallow: → 차단할 페이지 없음

Sitemap → 사이트맵 위치 알림

2. 특정 폴더만 차단하기

관리자 페이지처럼 검색 결과에 나오면 안 되는 영역을 차단합니다.

슬래시(/)가 없으면 크롤러가 제대로 인식하지 못합니다.

❌ 잘못된 사례

`User-agent: *
Disallow: admin

✅ 올바른 사례

`User-agent: *
Disallow: /admin/
Disallow: /private/

경로는 반드시 /로 시작합니다. 폴더 전체를 차단하려면 /admin/처럼 끝에도 /를 붙여 주세요.

3. 특정 크롤러만 차단하기 (AI 크롤러 포함)

최근 ChatGPT, Claude 같은 AI 서비스들도 웹페이지를 수집하기 위해 AI 크롤러를 운영하고 있습니다. 이 크롤러들은 검색엔진이 아니라 학습 데이터나 서비스 품질 개선을 목적으로 페이지를 수집하는 경우가 많습니다. 검색엔진 크롤러는 허용하되, 특정 AI 크롤러만 선택적으로 차단하고 싶은 경우가 생길 수 있습니다.

대표적인 AI 크롤러 예시

  • OpenAI (ChatGPT): GPTBot

  • Anthropic (Claude): ClaudeBot

  • Common Crawl: CCBot

  • Google AI: Google-Extended

robots.txt에서는 크롤러 이름(User-agent)을 지정해서 이런 식으로 특정 봇만 골라서 차단할 수 있습니다.

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: *
Allow: 

위와 같이 설정하면 GPTBot과 CCBot은 사이트 전체에 접근하지 못하고, 나머지 일반 검색엔진 크롤러들은 정상적으로 사이트를 크롤링할 수 있습니다.

💡다만 AI 크롤러의 이름은 계속 추가되거나 변경될 수 있기 때문에, 실제 운영 중인 사이트라면 서버 로그를 함께 확인하면서 필요한 봇을 추가로 관리하는 것이 좋습니다.

robots.txt 작성 체크리스트

✅ robots.txt 파일이 도메인 바로 뒤에 있는가?

User-agent가 올바르게 지정되었는가? (* 또는 Googlebot 등)

✅ Disallow 경로가 /로 시작하는가?

✅ 전체 사이트 차단(Disallow: /)이 아닌지 확인했는가?

✅ Sitemap 위치가 전체 URL(https://부터)로 적혀있는가?

✅ 브라우저에서 실제 파일을 열어 확인했는가?

✅ AI 크롤러 차단이 필요한지 검토했는가?

검색 최적화 혼자 하기 어렵다면?

robots.txt는 웹사이트 크롤링 관리의 첫 단계입니다.

리드젠랩은 사이트맵 설정, 크롤 버짓 최적화, GEO/AEO 대응까지 포괄적인 테크니컬 SEO 컨설팅을 제공합니다. 검색 최적화가 어려우시다면 전문가에게 상담을 받아보세요.

👉 검색최적화 전문가에게 전략 문의하러 가기


robots.txt 관련 자주 묻는 질문 (FAQ)

robots.txt란 무엇인가요?

robots.txt는 검색엔진 크롤러에게 웹사이트 방문 규칙을 알려주는 텍스트 파일입니다. 어떤 페이지를 수집할 수 있고 어떤 페이지는 피해야 하는지 안내합니다.

robots.txt 파일은 어디에 위치해야 하나요?

robots.txt는 도메인 바로 뒤에 위치해야 합니다. 예를 들어 www.example.com/robots.txt 형식입니다. 하위 폴더에 넣으면 크롤러가 찾을 수 없습니다.

User-agent란 무엇인가요?

User-agent는 크롤러의 이름입니다. Googlebot은 구글, Yeti는 네이버, 별표(*)는 모든 크롤러를 의미합니다.

AI 크롤러를 차단하려면 어떻게 해야 하나요?

GPTBot(ChatGPT), ClaudeBot(Claude), CCBot(Common Crawl) 같은 AI 크롤러 이름을 User-agent에 지정하고 Disallow: /로 설정하면 됩니다.

참고자료

Share article

리드젠랩