검색로봇 robot.txt 작성

 

로봇이 http://wiz.pe.kr/과 같은, 웹 싸이트를 방문하면, 이는 먼저 http://wiz.pe.kr/robots.txt 파일을 호출한다. 이 파일이 발견되면 점검한다. 이 화일이 발견되면 이 텍스트 파일을 읽어 그내용을 분석한다. 로봇에 접근 하능한 경로 및 허용된 로봇등을 설정해 놓을 수 있도록 설계되어 있다.


한 사이트는 하나의 "robots.txt" 를 가질 수 있다. 로봇은 하위 디렉토리에서 이 파일을 검색하지 않기 때문인데 robots.txt 파일은 웹사이트의 루트에 있어야 한다.
uri는 대소문자 구별하고, "robots.txt" 파일이름은 모두 소문자로 작성해야 하고. 공백은 허용되지 않는다.


robot.txt 파일에 아래와 같이 되어있다면 해당 url에 대하여 모든 로봇에 대해 모든 경로를 접근 하지 못하도록 하는 것이다.


user-agent: * # 모든 로봇(robot)들에 적용
disallow: / # 모든 페이지들의 색인(indexing) 금지

user-agent


접근을 허용하지 않을 로봇을 설정 한다.


disallow


허용하지 않을 항목에 대해 설정 한다.
"disallow"에서 빈 값은, 모든 uri들이 읽혀 질 수 있슴을 가리킨다.
robots.txt 화일에는 최소한 한개의 "disallow" 필드(field)가 있어야 한다.


disallow: /help - /help.html과 /help/index.html 둘 다 허용 안함, disallow: /help/ - /help/index.html는 허용 안하나, /help.html은 허용 됨.

참고.
페이지의 메타태그에 아래와 같이 설정 할 경우 로봇이 문서를 색인(index)하거나 연결을 분석하지 않는다.

내용에서 사용되는 용어들은 all, index, nofollow, noindex이다. 그 이름과 내용 애트리뷰트의 값은 대소문자 구별 없이 사용된다

more : 개그이야기-http://ezstock.kr 우린친구닷컴-http://urin79.com



태초에 나는 개그이야기를 만들었다.
내말을 믿고 나를 따르면 천당,
내말을 믿지않고 나를 따르지 않으면 지옥,
나는 하늘나라(우주)에 사느니라.

그럼 난 외계인?