티스토리 뷰

IT/코딩

robot.txt 확인 및 작성하는 방법, 업로드 위치와 주의사항

노마드 세온 2024. 2. 27. 22:03

robots.txt 파일은 웹사이트의 루트 디렉토리에 위치해야 하며,

검색 엔진 크롤러가 사이트를 크롤링할 때

어떤 부분을 크롤링해야 하고 어떤 부분을 피해야 하는지 지시하는 역할을 합니다.

사이트 관리자는 이 파일을 통해 특정 URL을 검색 엔진에서 차단하거나 크롤링 속도를 조절하는 등의 지시를 할 수 있고,

크롤링을 원하는 사람들은 원하는 페이지의 크롤링 허용여부를 확인할 수 있습니다.

모든 크롤러 차단

User-agent: *
Disallow: /

특정 크롤러 차단

User-agent: Googlebot
Disallow: /

특정 섹션(디렉터리) 차단

User-agent: *
Disallow: /private/
Disallow: /tmp/

특정 파일 차단

User-agent: *
Disallow: /ccc/aaa.html
Disallow: /ddd/bbb.pdf

크롤링 허용

User-agent: *
Disallow:

예를 들어 보겠습니다.

'aaa', 'bbb', 'ccc', 'ddd'라는 하위 디렉토리가 있고

이 중 'ccc'랑 'ddd'는 신규 개발중이라 서치콘솔 등에 노출을 피할 필요가 있습니다.

이때는 아래와 같이 작업하면 됩니다.

User-agent: *
Disallow: /ccc/
Disallow: /ddd/

모든 크롤러에 대해 해당 2폴더에 대해서는 접근을 차단합니다.
aaa, bbb에 대해서는 별도의 Disallow를 설정하지 않았기 때문에 이 폴더의 파일들은 크롤링이 허용됩니다. 'robot.txt'파일에서 명시적으로 차단하지 않은 모든 리소스는 크롤링을 허용하는 것으로 간주됩니다.

robots.txt 파일은 웹사이트의 루트 디렉토리에 업로드해야 합니다. 예를 들어, 당신의 웹사이트가 https://example.com인 경우, robots.txt 파일은 "https://example.com/robots.txt"주소에서 접근 가능해야 합니다.

robots.txt 파일은 대소문자를 구분하므로 파일명이 정확히 robots.txt인지 확인해야 합니다.
파일 내에서 지시하는 경로도 대소문자를 구분합니다.
Disallow 지시자 뒤에 슬래시(/)를 포함하는 것과 포함하지 않는 것은 다른 의미를 가질 수 있으므로 주의가 필요합니다. 예를 들어, Disallow: /dir는 /dir로 시작하는 모든 URL을 차단하지만, Disallow: /dir/는 /dir/ 디렉토리 및 그 하위의 모든 파일과 디렉토리에 대한 접근을 차단합니다.
robots.txt는 보안 메커니즘으로 사용되어서는 안 됩니다. robots.txt 파일은 크롤러가 해당 리소스를 크롤링하거나 인덱싱하지 못하도록 요청하는 것일 뿐, 완벽한 접근 제어 수단은 아니라는 점을 기억해야 합니다. 민감한 정보를 다루는 파일이나 폴더의 경우, 서버 설정을 통한 접근 제어나 인증 메커니즘을 추가로 적용하는 것이 좋습니다.