¿Qué es Robots.txt y para qué sirve? Parte I
Robots.txt es un archivo de texto (no HTML) que se coloca en un sitio o página, para indicar a los robots de búsqueda qué páginas desea que no visiten. El archivo Robots.txt no es obligatorio para los motores de búsqueda, pero generalmente los motores de búsqueda obedecen lo que se les pide que no hagan y, a veces, este fichero, puede resultar muy útil.
Como veremos más adelante hay buscadores que indexan contenidos por mucho que la web no quiera y esté el archivo “robots.txt”.Por ejemplo en la dirección de http://www.google.com/robots.txt encontramos un archivo en texto plano , si nos fijamos en la parte principal hay el esto
Disallow: /search
Disallow: /sdch
Después tenemos Disallow: /search el disallow evita la indexación de una carpeta o archivo, en este caso no indexara los contenidos del directorio search ni sdch.
Este es el típico archivo “robots.txt” con el que nos encontraremos la mayoría de veces.
Como vemos el archivo “robots.txt” también es una fuente de información ya que si lo bloquean sera por que hay algo interesante ¿no?.
Evitar que ciertos bots que analizan los sitios web con el protocolo de robots.txt
El hecho de que coloque un archivo robots.txt es algo así como poner una nota "Por favor, no entrar" en una puerta desbloqueada, por ejemplo, no se puede evitar que los ladrones entren a tu casa, pero una persona sensata no lo haría.
Es genial cuando los motores de búsqueda visitan con frecuencia su sitio e indexan su contenido, pero a menudo hay casos en que la indexación de partes de su contenido puede penalizarle.
Por ejemplo:
- Si tiene dos versiones de una página (una para ver en el navegador y otra para imprimir), preferiría que se excluyera la versión de impresión del rastreo para evitar la detección de contenido duplicado.
- Si tiene datos sensibles que no desea que el mundo vea, también es preferible que los motores de búsqueda no indexen estas páginas.
Buena pregunta. Puede haber partes de la web que por ser privadas, por contener contenido que, por la razón que sea, no quieres que estén indexadas. Pues para eso usarás el archivo Robots.txt.
Es importante aclarar que Robots.txt no es una forma de impedir que los motores de búsqueda rastreen su sitio (es decir, no es un cortafuegos o un tipo de protección con contraseña).
Hay muchos tipos de robots y cada uno tiene una misión.
- Googlebot: El robot de Google.
- Googlebot-Image: El indexador de imágenes de Google.
- Bingbot: El robot de Bing.
- YandexBot: De Yandex, el buscador ruso.
- Roger: De Moz
- BaiduSpider: El del buscador chino Baidu.
- ia_archiver: El de Alexa, que también utiliza Wayback Machine (una web que presenta webs antiguas. En este enlace puedes ver cómo era la web que tenía en 1998)
- Partes de tu web que no quieres que sean accesibles
- Partes de tu web que sí quieres que sean accesibles
- Impedir que el buscador valore diferentes entradas a un mismo contenido como contenido duplicado
- Decirle que no acceda a partes de la web con código u otros elementos
- Decirle al robot donde está el xml
Comentarios
Publicar un comentario
Únete a la conversación y comparte tú Opinión