1. Robots.txt란 무엇인가?
▶ robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다.
▶ robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 하며 로봇 배제 표준을 따르는 일반 텍스트 파일로 작성해야 합니다.
1-1. Robots.txt 위치
▶ robots.txt 파일은 반드시 사이트의 루트 디렉토리에 위치해야 하며 텍스트 파일 (text/plain) 로 접근이 가능해야 합니다.
예를 들어) https://www.example.com/robots.txt
2. 사용 예시들
User-agent: *
Allow: /
▶ 모든 로봇에게 모든 문서에 대한 접근을 허락합니다.
User-agent: *
Disallow: /
▶ 모든 로봇에게 모든 문서에 대한 접근을 차단합니다.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Disallow: /admin/
▶ 모든 로봇에게 특정 디렉토리에 대한 접근을 차단합니다.
위 예시의 경우) cgi-bin, tmp, junk, admin 디렉토리에 대한 접근을 차단합니다.
User-agent: *
Disallow: /
Allow: /$
▶ 모든 로봇에게 사이트의 루트 페이지만 수집을 허용합니다.
User-agent: *
Disallow: /admin/admin_file.html
▶ 모든 로봇에게 특정 파일에 대한 접근을 차단합니다.
위 예시의 경우) admin 디렉토리 안에 있는 admin_file.html 에 대한 접근을 차단합니다.
3. 회사별 로봇들
기업명 | User-Agent |
Googlebot | |
Google Image | Googlebot-image |
MSN | MSNBot |
NAVER | Yeti |
Daum | Daumoa |
4. 커스터마이징
User-Agent: *
Disallow: /
User-Agent: Googlebot
User-Agent: Yeti
User-Agent: Daumoa
Allow: /
Disallow: /admin/
▶ 구글 (Googlebot), 네이버 (Yeti), 다음 (Daumoa)를 제외한 모든 로봇의 접근을 차단합니다.
▶ 구글, 네이버, 다음도 관리자 admin 폴더에는 접근하지 못하도록 차단합니다.
5. 기타 : sitemap.xml 지정
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
▶ 내 사이트에 있는 페이지들의 목록이 담겨있는 sitemap.xml의 위치를 robots.txt에 기록해서 검색 로봇이 내 사이트의 콘텐츠를 더 잘 수집할 수 있도록 도울 수 있습니다.
'기타' 카테고리의 다른 글
[HTTP] HTTP 응답 상태 코드 모음 (0) | 2021.09.15 |
---|---|
[Unix] 리눅스 쉘 명령어 정리 (0) | 2021.08.18 |
[robots.txt] 간편제작 : 네이버 서치어드바이저 사용방법 (0) | 2021.07.26 |