¿Cómo crear un Crawler o Spider para la automatización para archivos robot? Parte III
Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots.
- Política de selección que establece las páginas de descarga,
- Política de re-visita que establece cuándo debe buscar cambios en las páginas,
- Política de cortesía que indica cómo evitar la sobrecarga de los sitios Web , y
- Política de paralelización que indica la forma de coordinar los rastreadores web distribuidos
Información de las crawlear:
✔vínculos de salida, grado de salida
✔texto
✔url
✔fecha de la última visita
- Planificador : El planificador recibe las solicitudes enviadas por el motor y las pone en cola.
- Descargador : El objetivo del descargador es buscar todas las páginas web y enviarlas al motor, el motor luego envía las páginas web a las arañas.
- Arañas : Las arañas es el código que escribes para analizar sitios web y extraer datos.
- Tubería de elementos:procesa los elementos lado a lado después de que las arañas los extraen.
DNS son las iniciales de Domain Name System (sistema de nombres de dominio) y es una tecnología basada en una base de datos que sirve para resolver nombres en las redes, es decir, para conocer la dirección IP de la máquina donde está alojado el dominio al que queremos acceder.
ROBOTS
Los motores de búsqueda visitan cada cierto tiempo los sitios web y rastrean el contenido de éstos a través de robots, también conocidos como arañas
NSLOOKUP
La herramienta NsLookup le permite proporcionar un nombre de host y solicitar uno o más tipos de registros DNS (por ejemplo, registros A, NS, CNAME).
PING
Para determinar si un servidor responde a las solicitudes. Usted proporciona una dirección IP o un nombre de dominio, y puede ver si el host responde o no.
WHOIS
Si tiene curiosidad sobre quién es la parte responsable (o las partes) detrás de un nombre de dominio, la consulta de WHOIS le permitirá consultar las bases de datos de múltiples registradores de dominio. Si el propietario ha optado por ocultar su información, puede devolver la información de reenvío.
::Requisito tener instalado wget en windows
::http://gnuwin32.sourceforge.net/
@echo off
echo.[+] Ingresa la url
set /p URL=:
echo. %URL%
wget %URL%/robots.txt>NUL
type robots.txt
pause
#Requisito tener instalado wget en linux
#sudo apt-get install wget
echo [+] Ingresa la url:
read URL
echo $URL
echo $(date) 'Running wget...'
wget "${URL}/robots.txt"
CAT robots.txt
read -rsp $'Presione una tecla para continuar .\n'
Podemos observar que hay paginas webs de WordPress que tienen el archivos robots,txt por defecto y otros archivos mas .
Con Feedfetcher, Google obtiene los feeds RSS o Atom de Google Play Kiosco y PubSubHubbub. Feedfetcher recopila y actualiza periódicamente estos feeds iniciados por los usuarios, pero no los indexa en la Búsqueda de blogs ni en los otros servicios de búsqueda de Google (los feeds solo se muestran en nuestros resultados de búsqueda si han sido rastreados por el robot de Google)
[✔]Feedfetcher solo recupera los feeds cuando el usuario ha iniciado explícitamente un servicio o una aplicación que solicita datos de dichos feeds. Feedfetcher se comporta como un agente directo del usuario y no como un robot, por lo que ignora las entradas del archivo robots.txt.
Si quieres impedir que Feedfetcher rastree tu sitio web, configura tu servidor para que muestre mensajes de estado de error 404 o 410 o de cualquier otro tipo al user-agent Feedfetcher-Google.
⇜✫⇝✫⇜✫⇝✫⇜✫⇝✫⇜✫⇝✫
- https://es.wikipedia.org/wiki/Ara%C3%B1a_web
- https://github.com/msnoigrs/python-robotstxt
- https://www.robotstxt.org/db.html
- https://support.google.com/webmasters/answer/182072
- https://support.google.com/webmasters/answer/178852
- https://support.google.com/webmasters/answer/80553
- https://support.google.com/webmasters/answer/1061943
- https://support.google.com/websearch/answer/9109
- https://support.google.com/webmasters/answer/48620?hl=es&ref_topic=9427949
- https://support.google.com/webmasters/answer/35308?hl=es&ref_topic=4598466
- http://api.hackertarget.com/subnetcalc/
Comentarios
Publicar un comentario
Únete a la conversación y comparte tú Opinión