Google Search Central ha lanzado una nueva serie llamada “Rastreo de diciembre” para brindar información sobre cómo el robotic de Google rastrea e indexa páginas net.
Google publicará un nuevo artículo cada semana de este mes explorando varios aspectos del proceso de rastreo que no se analizan con frecuencia pero que pueden afectar significativamente el rastreo de sitios net.
La primera correo La serie cubre los conceptos básicos del rastreo y arroja luz sobre detalles esenciales aunque menos conocidos sobre cómo el robotic de Google maneja los recursos de la página y administra los presupuestos de rastreo.
Conceptos básicos de rastreo
Los sitios net actuales son complejos debido a JavaScript y CSS avanzados, lo que los hace más difíciles de rastrear que las páginas antiguas solo HTML. El robotic de Google funciona como un navegador net pero con un horario diferente.
Cuando Googlebot visita una página net, primero descarga el HTML de la URL principal, que puede vincular a JavaScript, CSS, imágenes y vídeos. Luego, el servicio de renderizado net (WRS) de Google utiliza el robotic de Google para descargar estos recursos y crear la vista de página remaining.
Estos son los pasos en orden:
- Descarga HTML inicial
- Procesamiento por parte del servicio de renderizado net
- Obtención de recursos
- Construcción de la página remaining
Gestión del presupuesto de rastreo
Rastrear recursos adicionales puede reducir el presupuesto de rastreo del sitio net principal. Para ayudar con esto, Google cube que “WRS intenta almacenar en caché todos los recursos (JavaScript y CSS) utilizados en las páginas que representa”.
Es importante tener en cuenta que el caché WRS dura hasta 30 días y no está influenciado por las reglas de almacenamiento en caché HTTP establecidas por los desarrolladores.
Esta estrategia de almacenamiento en caché ayuda a ahorrar el presupuesto de rastreo de un sitio.
Recomendaciones
Esta publicación ofrece a los propietarios de sitios consejos sobre cómo optimizar su presupuesto de rastreo:
- Reducir el uso de recursos: Utilice menos recursos para crear una buena experiencia de usuario. Esto ayuda a ahorrar presupuesto de rastreo al representar una página.
- Alojar recursos por separado: coloque recursos en un nombre de host diferente, como una CDN o un subdominio. Esto puede ayudar a alejar la carga del presupuesto de rastreo de su sitio principal.
- Utilice sabiamente los parámetros de eliminación de caché: Tenga cuidado con los parámetros de eliminación de caché. Cambiar las URL de los recursos puede hacer que Google vuelva a verificarlas, incluso si el contenido es el mismo. Esto puede desperdiciar su presupuesto de rastreo.
Además, Google advierte que bloquear el rastreo de recursos con robots.txt puede resultar arriesgado.
Si Google no puede acceder a un recurso necesario para renderizar, es posible que tenga problemas para obtener el contenido de la página y clasificarlo correctamente.
Relacionado: 9 consejos para optimizar el presupuesto de rastreo para search engine marketing
Herramientas de monitoreo
El equipo de Search Central cube que la mejor manera de ver qué recursos está rastreando el robotic de Google es verificando los registros de acceso sin procesar de un sitio.
Puedes identificar Googlebot por su dirección IP utilizando los rangos publicados en el desarrollador de Google. documentación.
Por qué esto importa
Esta publicación aclara tres puntos clave que afectan la forma en que Google encuentra y procesa el contenido de su sitio:
- La administración de recursos afecta directamente su presupuesto de rastreo, por lo que alojar scripts y estilos en CDN puede ayudar a preservarlo.
- Google almacena en caché los recursos durante 30 días, independientemente de la configuración de la caché HTTP, lo que ayuda a conservar su presupuesto de rastreo.
- Bloquear recursos críticos en robots.txt puede resultar contraproducente al impedir que Google muestre correctamente sus páginas.
Comprender estos mecanismos ayuda a los search engine marketing y a los desarrolladores a tomar mejores decisiones sobre el alojamiento y la accesibilidad de los recursos, opciones que afectan directamente la capacidad de Google para rastrear e indexar sus sitios.
Relacionado: Google advierte: los parámetros de URL crean problemas de rastreo
Imagen de portada: ArtemisDiana/Shutterstock