Selecciona tu idioma

㊜Suscribete!!! Participa en el sitio

¿Qué es Robots.txt y para qué sirve? Parte I

Muchas webs tienen un archivo llamado “robots.txt” este archivo ayuda a las webs a evitar que los buscadores indexen directorios o otro contenido que no tendríamos que ver.
Robots.txt es un archivo de texto (no HTML) que se coloca en un sitio o página, para indicar a los robots de búsqueda qué páginas desea que no visiten. El archivo Robots.txt no es obligatorio para los motores de búsqueda, pero generalmente los motores de búsqueda obedecen lo que se les pide que no hagan y, a veces, este fichero, puede resultar muy útil.

Como veremos más adelante hay buscadores que indexan contenidos por mucho que la web no quiera y esté el archivo “robots.txt”.Por ejemplo en la dirección de http://www.google.com/robots.txt encontramos un archivo en texto plano , si nos fijamos en la parte principal hay el esto
User-agent: *
Disallow: /search
Disallow: /sdch
el User-agent: * indica que este archivo sea reconocido para todos los buscadores.
Después tenemos Disallow: /search el disallow evita la indexación de una carpeta o archivo, en este caso no indexara los contenidos del directorio search ni sdch.
Este es el típico archivo “robots.txt” con el que nos encontraremos la mayoría de veces.
Como vemos el archivo “robots.txt” también es una fuente de información ya que si lo bloquean sera por que hay algo interesante ¿no?.
Evitar que ciertos bots que analizan los sitios web con el protocolo de robots.txt
╔═══════ ≪ °❈° ≫ ═══════╗
╚═══════ ≪ °❈° ≫ ═══════╝
El hecho de que coloque un archivo robots.txt es algo así como poner una nota "Por favor, no entrar" en una puerta desbloqueada, por ejemplo, no se puede evitar que los ladrones entren a tu casa, pero una persona sensata no lo haría.
☆・。。・゜゜・。。・゜★
¿Qué es robots.txt?
robots.txt es un archivo público, que debe estar en la raíz de tu web, donde se hacen una serie de recomendaciones a los robots qué deben y qué no deben indexar en los buscadores.
Es genial cuando los motores de búsqueda visitan con frecuencia su sitio e indexan su contenido, pero a menudo hay casos en que la indexación de partes de su contenido puede penalizarle.
Por ejemplo:

  • Si tiene dos versiones de una página (una para ver en el navegador y otra para imprimir), preferiría que se excluyera la versión de impresión del rastreo para evitar la detección de contenido duplicado. 
  • Si tiene datos sensibles que no desea que el mundo vea, también es preferible que los motores de búsqueda no indexen estas páginas.
Claro, y tú me preguntarás ¿Qué hago si no quiero que me indexen una parte de la web?
Buena pregunta. Puede haber partes de la web que por ser privadas, por contener contenido que, por la razón que sea, no quieres que estén indexadas. Pues para eso usarás el archivo Robots.txt.
Es importante aclarar que Robots.txt no es una forma de impedir que los motores de búsqueda rastreen su sitio (es decir, no es un cortafuegos o un tipo de protección con contraseña).

Hay muchos tipos de robots y cada uno tiene una misión.
  • Googlebot: El robot de Google.
  • Googlebot-Image: El indexador de imágenes de Google.
  • Bingbot: El robot de Bing.
  • YandexBot: De Yandex, el buscador ruso.
  • Roger: De Moz
  • BaiduSpider: El del buscador chino Baidu.
  • ia_archiver: El de Alexa, que también utiliza Wayback Machine (una web que presenta webs antiguas. En este enlace puedes ver cómo era la web que tenía en 1998)
Así que con Robots.txt le podemos decir a un crawler (no me flipado, es su nombre en inglés) cosas como estas:
  • Partes de tu web que no quieres que sean accesibles
  • Partes de tu web que sí quieres que sean accesibles
  • Impedir que el buscador valore diferentes entradas a un mismo contenido como contenido duplicado
  • Decirle que no acceda a partes de la web con código u otros elementos
  • Decirle al robot donde está el xml
╔═══════ ≪ °❈° ≫ ═══════╗

╚═══════ ≪ °❈° ≫ ═══════╝
Estarás de acuerdo conmigo que este archivo es un inventazo en el proximo blog veremos como crear estos archivos + como podemos ver que son vulnerables trataremos de hackear o tener accesos a las web creando nuestra herramientas para indexar.
Si quieres saber más sobre los tipos de robots (también se les llaman “Bots”), en estos enlaces encontrarás listas completas:

⇜✫⇝✫⇜✫⇝✫⇜✫⇝✫⇜✫⇝✫

█▌│▌║▌ │█│║││█│
Siguenos en YouTube
Siguenos en YouTube

ADVERTENCIA: NO INTENTE HACER UN ATAQUE SIN EL PERMISO DE PROPIETARIO DEL SITIO WEB. ES UN PROPÓSITO EDUCATIVO SOLAMENTE. NO ES RESPONSABLE DE NINGUN TIPO DE PROBLEMA ILEGAL.
PERMANECE LEGAL. GRACIAS!
Si tienes algún problema, deja un comentario.








Comentarios


㊜Luishiño

★ ★ ★ ★ ★

>_

Hola soy ぎLuishiño y este es mi Blog personal..... 

Me considero un joven emprendedor ,curioso ,creativo ,alegre y confiable, siempre buscando la manera de mejorar como amigo y persona .
Estudio la carrera de ing. sistemas, aquí es donde me gusta escribir sobre temas que en su momento me interesan. A veces sobre mi vida personal y principalmente cosas de programación, desarrollo web, Aplicaciones, Software, programas que yo mismo las desarrollo y cosas básicas de informática.

⚠ Nadie es como tú y ese es tú súper poder
୧⍢⃝୨ Sigue mi blog :3

The Seven Codes

↪Mis redes sociales↩

Si tienes dudas, deja un comentario
¿Ha quedado contestada su pregunta? Comparte tu opinión :)


¡Bienvenido!

a la web de seguridad de la información The Seven Codes.
Estimado Visitante, Te doy la más cordial bienvenida Atte:ぎLuishiño. Espero que encuentres la información que tú busca y que como resultado, me vea favorecido con su elección y preferencia.
En este blog podrás encontrar muchas cosas de su utilidad, desde herramientas, manuales ,comandos, artículos, tutoriales todo el contenido es totalmente gratuito hazta consejos los cuales ayudaran a seguir ampliando su conocimiento & siga aumentando tú pasión por la informática. ❯❯Más información

¯\(°_o)/¯ Sígueme en mi blog

Entradas populares de este blog

Sockberus Autentificación de proxys

USB File Resc eliminar virus de accesos directos, recycler y otros malware de tus unidades usb

Hackear contraseñas WiFi con Python fácilmente con este sencillo script

Vulnerabilidad en facebook hackear con xploitz parte II

Descargar aplicación Betflix gratis

WhatScriptApp Spam masivo

Droid Jack control sobre los dispositivos Android

Doxing Espionaje y Recopilación de Información

Instalar DoxWeb con Termux

Comandos de Termux

Vimeo

Estreno


Mira este video y sorprendete

Tu y Las Redes Sociales

Tu y Las Redes Sociales

Publicada por Servicio Técnico "The Seven Codes " en Martes, 5 de diciembre de 2019

"Es tiempo que te preguntes, si eres libre y si te gusta como ellos te obligan a vivir."


Entradas populares de este blog

Hackear contraseñas WiFi con Python fácilmente con este sencillo script

Comandos de Termux

💎Hack de Diamantes infinitos para Free Fire Sin Baneos

¿Por qué usar correo temporales? 📭 📧

WhatScriptApp Spam masivo

Termux Instalar Ngrok

Hackear gmail con Mailgrabber node.js

Instalar DoxWeb con Termux

Doxing Espionaje y Recopilación de Información

Método de extrapolación Sofia para tarjetas de crédito

Entradas populares de este blog

USB File Resc eliminar virus de accesos directos, recycler y otros malware de tus unidades usb

Vulnerabilidad en facebook hackear con xploitz parte II

Sockberus Autentificación de proxys

¿Qué es un xploitz? Vulnerabilidad en facebook hackear parte I

Programa Revealer Keylogger Pro

By Blog

By Luishiño

Security

Compartir el Link

Copiar

Ofertas y Descuentos

Libros

by @Luishiño! Publicado en enero 14, 2020

Curso Javascript Hacking | Phishing

Javascript es un lenguaje que se puede utilizar para hacer ataques xss , robo de cookies , keylogger web y muchas otras cosas mas , pero también se puede con este mismo lenguaje evadir esas vulnerabilidades .

$1

Libros

by @Luishiño! Publicado en enero 25, 2020

Hacking Course Social Networks

Los “Xploits” consisten en que la víctima recibe una postal falsa en su correo electrónico que contiene el link de una web falsa que le pide digitar los datos de su E-mail y su contraseña .

$5

redes


Únete al chat