Definición de Spidering y Web Crawlers

Arañas y rastreadores web: lo que necesita saber para proteger los datos del sitio web

Las arañas son programas (o scripts automatizados) que se "rastrean" a través de la Web en busca de datos. Las arañas viajan a través de URL de sitios web y pueden extraer datos de páginas web como direcciones de correo electrónico. Las arañas también se utilizan para alimentar la información que se encuentra en los sitios web de los motores de búsqueda.

Las arañas, que también se conocen como "rastreadores web", buscan en la Web y no todas son amigables en su intento.

Spammers Spider Websites para recopilar información

Google, Yahoo!

y otros motores de búsqueda no son los únicos interesados ​​en rastrear sitios web, también lo son los estafadores y los spammers.

Los spammers utilizan arañas y otras herramientas automáticas para encontrar direcciones de correo electrónico (en Internet, esta práctica a menudo se denomina "recolección") en sitios web y luego las usan para crear listas de spam.

Las arañas son también una herramienta utilizada por los motores de búsqueda para obtener más información sobre su sitio web pero sin marcar, un sitio web sin instrucciones (o 'permisos') sobre cómo rastrear su sitio puede presentar riesgos importantes para la seguridad de la información. Las arañas viajan siguiendo los enlaces, y son muy hábiles para encontrar enlaces a bases de datos, archivos de programas y otra información a la que no desearía que tuvieran acceso.

Los webmasters pueden ver los registros para ver qué arañas y otros robots han visitado sus sitios. Esta información ayuda a los webmasters a saber quién indexa su sitio y con qué frecuencia.

Esta información es útil porque permite a los webmasters ajustar su SEO y actualizar los archivos robot.txt para prohibir que ciertos robots rastreen su sitio en el futuro.

Consejos para proteger su sitio web de rastreadores de robots no deseados

Hay una manera bastante simple de mantener rastreadores no deseados fuera de su sitio web. Incluso si no le preocupan las arañas maliciosas que rastrean su sitio (la confusión de la dirección de correo electrónico no lo protegerá de la mayoría de los rastreadores), aún debe proporcionar a los motores de búsqueda instrucciones importantes.

Todos los sitios web deben tener un archivo ubicado en el directorio raíz llamado archivo robots.txt. Este archivo le permite indicar a los rastreadores web donde desea que busquen las páginas de índice (a menos que se indique lo contrario en los metadatos de una página específica para que no se indexen) si son un motor de búsqueda.

Del mismo modo que puede decirles a los rastreadores que quiere que naveguen, también puede decirles dónde no pueden ir e incluso bloquear rastreadores específicos de todo su sitio web.

Es importante tener en cuenta que un archivo robots.txt bien integrado tendrá un enorme valor para los motores de búsqueda e incluso podría ser un elemento clave para mejorar el rendimiento de su sitio web, pero algunos rastreadores de robots seguirán ignorando sus instrucciones. Por esta razón, es importante mantener todo su software, complementos y aplicaciones actualizados en todo momento.

Artículos relacionados e información

Debido a la prevalencia de la recolección de información utilizada con fines nefastos (spam), en 2003 se aprobó una legislación para ilegalizar ciertas prácticas. Estas leyes de protección del consumidor se rigen por la Ley CAN-SPAM de 2003.

Es importante que se tome el tiempo para leer sobre la Ley CAN-SPAM si su empresa se dedica a cualquier correo masivo o recolección de información.

Puede encontrar más información sobre las leyes antispam y sobre cómo tratar con los remitentes de correo no deseado, y lo que usted, como propietario de un negocio, no puede hacer, leyendo los siguientes artículos: