La tendencia a día de hoy es automatizar cosas, trabajos sistemáticos con el objetivo de ahorrarnos tiempo en la realización de tareas. Esto no es algo nuevo pues ya vimos algo similar en el pasado con la revolución industrial, aunque a día de hoy tratamos de hacer todas estas automatizaciones con bots.

Existen varios tipos de bots, para chats, mailings, análisis de información entre otros, pero uno de los más conocidos son los denominados WebCrawlers o arañas web. Nos ayudan a nosotros los SEOs y a los buscadores, pero se utilizan con varios fines y propósitos.

En este artículo analizaremos en profundidad qué es un web crawler y cómo afecta al posicionamiento de nuestra web en los motores de búsqueda.

¿Qué es un Crawler, WebCrawler o araña web?

Son diferentes nombres, pero significan los mismo, o normalmente los SEOs lo definimos como lo mismo. Los Crawlers son bots que rastrean las páginas de internet a través de enlaces.

Principalmente, se pueden agrupar o segmentar en 2 tipos según los objetivos:

  • Indexar: Google y otros buscadores los utilizan para indexar contenidos y mostrarlos en los resultados de búsqueda que realizan los usuarios con el objetivo de ofrecer la mejor información posible a este.
  • Scraping: algunas empresas lo usan con el objetivo de recopilar datos de otras webs y realizar uso de ellos. Puede ser para planificar estrategias, realizar comparaciones,  buscar formas de contacto masivas, etc. También puede utilizarse para optimizar la web a nivel SEO on page. Ya lo vimos en el post dedicado a las herramientas SEO.

Objetivos de las arañas web

¿Cómo funciona un Crawler?

Una araña web generalmente sigue ciertos pasos para recopilar la información. Generalmente, cuando llega a un sitio web, normalmente lo primero que hace es una petición al fichero robots.txt

Una vez realizada esta petición sabe por qué urls debe y no debe pasar. También existen atributos en los enlaces y directrices que se pueden aplicar a las cabeceras de una página para dar directrices a estos robots como el seguimiento de enlaces o la indexación de ciertas páginas.

No siempre sucede esto pues algunos crawlers pueden saltarse estas directrices y no obedecerlas. Incluso el propio Google, si su bot determina que por alguna razón no debe seguir estas directrices no las seguirá.

Para estos casos donde los bots son menos obedientes, siempre puedes tirar de la configuración del fichero .htaccess, para no permitir accesos o directamente limitarlos. La configuración de este fichero es la que mejor funciona si tenéis muchos problemas.

¿Cómo funciona una araña web? Clic para tuitear

Cómo afecta el rastreo de una página al posicionamiento SEO

Siempre hay una cierta relación entre el rastreo de páginas y el posicionamiento web. Personalmente, he asistido a conferencias donde se exponía con ejemplos que no afectaba al posicionamiento, pero nada más lejos de la realidad, que un experimento no funcione, no significa que sea definitivo.

Existen más factores y esta es una forma de hacer una mejora rápida en el SEO.

¿Por qué a Google le interesa que las páginas sean más rápidas?

Google, al igual que otros buscadores, vive de los resultados ofrecidos a otros usuarios. Una web rápida garantiza una mayor satisfacción de cara al usuario. Si los top 10 resultados fueran páginas que tardan 20 segundos de media en cargar, tardaríamos casi 4 minutos en poder cargar todas las páginas.

Como os podéis hacer una idea no es bueno ofrecer resultados así a los usuarios.

Por otra parte, si una web es muy lenta también requiere de más recursos que se consumen a nivel de ordenadores, lo que significa que por esta parte pierden mucho dinero, además de tener un impacto bastante fuerte en la contaminación del planeta, al tener tantas máquinas para que vayan crawleando webs y procesando toda la información que obtienen.

Una web rápida garantiza una mayor satisfacción de cara al usuario.

➡️ Mejorando la velocidad y el enlazado interno

Una vez conocidos los motivos podemos entender por qué influyen en el SEO el rastreo de un crawler por una página.

Además de todo esto, el robot de Google define un tiempo limitado para el rastreo de cada web, esto se conoce como el Crawl Budget. El Crawl Budget pueden variar en base a varias optimizaciones de SEO en la web tanto on page como off page.

Tener una web rápida asegurará que se rastreen más página de nuestra web con el Crawl Budget asignado, y no solo eso, también hará que el robot pase más veces por determinadas páginas al detectar el enlazado interno de la web.

Al seguir este enlazado interno y pasar más veces por estas páginas, las considerará más relevantes y tendrán más facilidades a la hora de posicionarse.

Desde la antigua versión de Search Console, podemos ver las páginas rastreadas por día y el tiempo medio que tarda en rastrear nuestra web la araña de Google.

webcrawler de google search console

¿Cómo afecta el rastreo de una página al posicionamiento SEO? Clic para tuitear

➡️ Paginas con errores y redirecciones

Otros de los motivos que hacen que se pierda fuerza a través del enlazado interno y que se consuma tiempo del WebCrawler son los enlaces que apuntan a redirecciones y a páginas 404.

Un enlace a una redirección hace que tenga que pasar por una o varias páginas intermedias antes de llegar a la página final. Puede que el tiempo sea corto, pero hay que tratar de optimizar lo máximo posible.

En el caso de los errores 404 es algo peor ya que estamos haciendo que se cargue una página que no queremos indexar y ya no solo es que el usuario se lleve una mala experiencia, es que el tiempo que tarda en descargar este tipo de páginas, por lo general, es más alto que seguir una simple redirección.

Por esto, hay que tratar de evitar tener enlaces apuntando a páginas con errores 4XX o redirecciones.

➡️ Enlazado externo

Tener más enlaces externos hace que el robot encuentre más fácil nuestra web y acceda muchas más veces a rastrearla, por lo que podrá indexar más páginas si nuestra web es muy grande.

Al rastrearla más veces hace que se considere de más relevancia que respecto al resto de páginas. Si a todo esto le sumamos que los enlaces son de páginas temáticas y tienen cierta relevancia en el sector en el que nos encontramos, también nos ayudará.

En esto te podemos ayudar en Publisuites 👇

Contrata post patrocinados en medios de calidad

Algunos consejos para mejorar el rastreo

Existen varias opciones a tener en cuenta a la hora de mejorar la velocidad de rastreo. Puede resultar algo difícil si no tenemos muchos conocimientos técnicos, por lo que es imprescindible contar con la ayuda de alguien con conocimiento de desarrollo y servidores.

Herramientas

Podemos ayudarnos de Search Console para analizar el número de páginas rastreadas de media por día y la velocidad de rastreo. También podemos apoyarnos del análisis de logs para tratar de ver las urls a las que accede el robot de Google y tratar de limitarle ciertos accesos.

De todas formas, si lo que quieres es optimizar la velocidad, puedes usar:

  • GTMetrix: una herramienta gratuita que te detecta errores de velocidad en urls enviadas. Es bastante interesante y si te registras, puedes cambiar la ubicación del rastreo. Ofrece consejos sobre errores y cosas a mejorar a nivel de WPO.
  • Page Speed Insights: la herramienta oficial de Google para decirnos elementos que podemos mejorar de nuestra web a nivel de WPO. Es interesante porque son datos del propio Google, por lo que seguramente se tengan más en cuenta para el SEO.

Si cuentas con algún CMS tipo WordPress o Prestashop, existen plugins gratuitos, aunque los de pago suelen funcionar bastante mejor para optimizar la velocidad de página.

Hostings

A día de hoy existen varios hostings que se pueden usar. La gente cuando empieza por primera vez suele tirar a lo barato, y estos, suelen ser muy lentos, es por eso que recomiendo tratar de buscar proveedores de hostings de más calidad.

Además, también debes tener en cuenta la ubicación donde se alojan los servidores, ya que, no es lo mismo lanzar una petición a Holanda que a España si te encuentras en España, es por ello que tener servidores geolocalizados también te ayudará.

Por último, siempre es recomendable complementar el hosting con algún servicio de CDN. Los CDN cachean la web y la redistribuyen en una red de servidores, por lo que, según donde te encuentres la petición siempre se realizará al servidor más cercano y se acelerará siempre la carga.

👉 En este artículo te damos algunas claves que debes tener en cuenta para contratar un servidor y que sea bueno para tu posicionamiento.

Conclusiones

Los crawlers pueden usarse para diferentes fines pero las arañas de Google tienen un objetivo claro: rastrear cientos de webs al día para más tarde procesar toda esta información y posicionar, o no, cada una de estas páginas.

Para resumir todo lo anterior, es importante que tengas en cuenta 3 factores para ayudar a los crawlers en su tarea de rastreo:

  • Velocidad de carga de las páginas
  • Páginas más enlazadas (internamente o externamente) y/o por donde pasa el robot más veces
  • Las directrices aplicadas a los robots y la configuración del fichero .htaccess

Hay que tener en cuenta que esto no es una panacea pero sin duda te ayudará a mejorar en las SERPs y a ganar tráfico de una forma práctica y bastante rápida.

Actualmente no hay comentarios.

*