기타

[robots.txt] 기본설정값 snippet

QUERY 2021. 7. 26. 19:16

robots.txt


1. Robots.txt란 무엇인가?

robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다.

robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 하며 로봇 배제 표준을 따르는 일반 텍스트 파일로 작성해야 합니다.

 

1-1. Robots.txt 위치

▶ robots.txt 파일은 반드시 사이트의 루트 디렉토리에 위치해야 하며 텍스트 파일 (text/plain) 로 접근이 가능해야 합니다.

예를 들어) https://www.example.com/robots.txt 

 


2. 사용 예시들

User-agent: *
Allow: /

▶ 모든 로봇에게 모든 문서에 대한 접근을 허락합니다.

 

User-agent: *
Disallow: /

▶ 모든 로봇에게 모든 문서에 대한 접근을 차단합니다.

 

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Disallow: /admin/

▶ 모든 로봇에게 특정 디렉토리에 대한 접근을 차단합니다.

위 예시의 경우) cgi-bin, tmp, junk, admin 디렉토리에 대한 접근을 차단합니다.

 

User-agent: *
Disallow: /
Allow: /$

▶ 모든 로봇에게 사이트의 루트 페이지만 수집을 허용합니다.

 

User-agent: *
Disallow: /admin/admin_file.html

▶ 모든 로봇에게 특정 파일에 대한 접근을 차단합니다.

위 예시의 경우) admin 디렉토리 안에 있는 admin_file.html 에 대한 접근을 차단합니다.

 


3. 회사별 로봇들

기업명 User-Agent
Google Googlebot
Google Image Googlebot-image
MSN MSNBot
NAVER Yeti
Daum Daumoa

 


4. 커스터마이징

User-Agent: *
Disallow: /

User-Agent: Googlebot
User-Agent: Yeti
User-Agent: Daumoa
Allow: /
Disallow: /admin/

▶ 구글 (Googlebot), 네이버 (Yeti), 다음 (Daumoa)를 제외한 모든 로봇의 접근을 차단합니다.

▶ 구글, 네이버, 다음도 관리자 admin 폴더에는 접근하지 못하도록 차단합니다.

 


5. 기타 : sitemap.xml 지정

User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml

내 사이트에 있는 페이지들의 목록이 담겨있는 sitemap.xml의 위치를 robots.txt에 기록해서 검색 로봇이 내 사이트의 콘텐츠를 더 잘 수집할 수 있도록 도울 수 있습니다.