El refrendo redactado de un ingeniero de Google publicado en dirección por el Área de Conciencia de los Estados Unidos ofrece un aspecto internamente de los sistemas de clasificación de Google, ofreciendo una idea sobre los puntajes de calidad de Google y presenta una misteriosa señal de popularidad que utiliza datos de Chrome.
El documento ofrece una visión de suspensión nivel y muy caudillo de las señales de clasificación, proporcionando una idea de lo que hacen los algoritmos pero no los detalles.
Señales hechas a mano
Por ejemplo, comienza con una sección sobre la “elaboración de manos” de las señales que describe el proceso caudillo de tomar datos de evaluadores de calidad, clics, etc. y aplicar fórmulas matemáticas y estadísticas para producir un puntaje de clasificación a partir de tres tipos de señales. Medios hechos a mano algoritmos escalados que están ajustados por los ingenieros de búsqueda. No significa que estén clasificando manualmente sitios web.
Señales ABC de Google
El documento del DOJ enumera tres tipos de señales que se denominan señales ABC y corresponden a las siguientes:
- A – Anclas (páginas que vinculan a las páginas objetivo),
- B – Cuerpo (términos de consulta de búsqueda en el documento),
- C – clics (tiempo de permanencia del afortunado antiguamente de regresar al SERP)
La confesión sobre las señales ABC es una divulgación de una parte del proceso de clasificación. La clasificación de los resultados de búsqueda es mucho más difícil e implica cientos, si no miles de algoritmos adicionales, en cada paso del proceso de clasificación, desde la indexación, el exploración de enlaces, los procesos anti-Spam, la personalización, el reanimiento y otros procesos. Por ejemplo, Liz Reid ha discutido Sistemas de topicalidad del núcleo Como parte del operación de clasificación y Martin Splitt ha discutido anotaciones Como parte de la comprensión de las páginas web.
Esto es lo que dice el documento sobre las señales ABC:
“Las señales ABC son los componentes secreto de la tópica (o una puntuación colchoneta), que es la determinación de Google de cómo el documento es relevante para la consulta.
T* (topicalidad) combina efectivamente (al menos) estas tres señales de una guisa relativamente hecha a mano. Google usa para fallar la relevancia del documento basado en los términos de la consulta “.
El documento ofrece una idea de la complejidad de las páginas web de clasificación:
“El progreso de clasificación (especialmente la presente) implica resolver muchos problemas matemáticos complejos. Para la presente, puede favor un equipo de ingenieros que trabajan continuamente en estos problemas difíciles internamente de un esquema determinado.
La razón por la cual la gran mayoría de las señales están hechas a mano es que si poco rompe Google sabe qué solucionar. Google quiere que sus señales sean completamente transparentes para que puedan dispararlas y mejorarlas ”.
El documento compara su enfoque hecho a mano con el enfoque automatizado de Microsoft, diciendo que cuando poco rompe en Bing es mucho más difícil de solucionar que con el enfoque de Google.
Interacción entre la calidad y la relevancia de la página
Un punto interesante revelado por el ingeniero de búsqueda es que la calidad de la página es independiente de la consulta. Si se determina que una página es de suscripción calidad, confiable, se considera confiable en todas las consultas relacionadas, lo que es lo que se entiende por la palabra estática, no se recalcula dinámicamente para cada consulta. Sin secuestro, existen señales relacionadas con la relevancia en la consulta que se pueden usar para calcular las clasificaciones finales, lo que muestra cómo la relevancia juega un papel fundamental en la determinación de lo que se clasifica.
Esto es lo que dijeron:
“Calidad
Generalmente suspenso en múltiples consultas y no está conectada a una consulta específica.Sin secuestro, en algunos casos, la señal de calidad incorpora información de la consulta adicionalmente de la señal estática. Por ejemplo, un sitio puede tener información de suscripción calidad pero caudillo, por lo que una consulta interpretada como una búsqueda de información muy estrecha/técnica puede estilarse para dirigir a un sitio de calidad que sea más técnico.
Q* (calidad de página (es sostener, la noticia de confiabilidad)) es increíblemente importante. Si los competidores ven los registros, entonces tienen una noticia de “autoridad” para un sitio determinado.
El puntaje de calidad es muy importante incluso hoy. La calidad de la página es poco de lo que la muchedumbre se queja más … “
AI da motivo a las quejas contra Google
El ingeniero afirma que las personas se quejan de la calidad, pero todavía dice que la IA agrava la situación al empeorarla.
Dice sobre la calidad de la página:
“Hoy en día, la muchedumbre todavía se queja de la calidad y la IA lo empeora.
Esto fue y continúa siendo mucho trabajo, pero podría ser fácilmente moderado porque Q está en gran medida suspenso y en gran medida relacionado con el sitio en sitio de la consulta “.
EdeePrank: una forma de entender las clasificaciones de LLM
El Googler enumera otras señales de clasificación, incluida una convocatoria EdeePrank, que es un sistema basado en LLM que usa Bert, que es un maniquí relacionado con el jerga.
Él explica:
“EdeePrank es un sistema LLM que usa Bert, Transformers. Esencialmente, Edeeeprank intenta tomar señales basadas en LLM y descomponerlas en componentes para hacerlas más transparentes”.
Esa parte sobre la descomposición de las señales de LLM en componentes parece ser una remisión de hacer que las señales de clasificación basadas en LLM sean más transparentes para que los ingenieros de búsqueda puedan entender por qué el LLM está clasificando poco.
PageRank vinculado a algoritmos de clasificación de distancia
PageRank es la innovación de clasificación llamativo de Google y desde entonces se ha actualizado. Escribí sobre este tipo de operación hace seis primaveras. Los algoritmos de distancia de enlace calculan la distancia desde sitios web autorizados para un tema determinado (llamado sitios de semillas) a otros sitios web en el mismo tema. Estos algoritmos comienzan con un conjunto de semillas de sitios autorizados en un tema y sitios determinados que están más allá de su sitio de semillas respectivo están determinados como menos confiables. Los sitios que están más cerca de los conjuntos de semillas son más probables para ser más autorizados y confiables.
Esto es lo que dijo el Googler sobre PageRank:
“PageRank. Esta es una sola señal relacionada con la distancia desde una buena fuente conocida, y se usa como una entrada para la puntuación de calidad”.
Lea sobre este tipo de operación de clasificación de enlaces: Algoritmos de clasificación de distancia de enlace
Señal de popularidad críptica basada en cromo
Hay otra señal cuyo nombre está redactado relacionado con la popularidad.
Aquí está la descripción críptica:
“(Redactada) (popularidad) que usa datos de Chrome”.
Se puede hacer una afirmación plausible de que esto confirma que la fuga de API de Chrome se comercio de factores de clasificación reales. Sin secuestro, muchos SEO, incluido yo mismo, creen que esas API son herramientas orientadas al desarrollador utilizadas por Chrome para mostrar métricas de rendimiento como Core Web Vitals internamente de la interfaz de Chrome Dev Tools.
Sospecho que esta es una remisión a una señal de popularidad que podríamos no conocer.
El ingeniero de Google se refiere a otra filtración de documentos que hacen remisión a los “componentes del sistema de clasificación” reales del sistema de clasificación de Google, pero que no tienen suficiente información para la ingeniería inversa del operación.
Ellos explican:
“Hubo una filtración de documentos de Google que nombraron ciertos componentes del sistema de clasificación de Google, pero los documentos no entran en detalles de las curvas y los umbrales.
Por ejemplo
Los documentos por sí solos no le dan suficientes detalles para resolverlo, pero los datos probablemente lo hacen “.
Tolerar
El documento recientemente publicado resume una deposición del Área de Conciencia de los Estados Unidos de un ingeniero de Google que ofrece un esquema caudillo de partes de los sistemas de clasificación de búsqueda de Google. Discute el diseño de la señal elaborada a mano, el papel de las puntuaciones de calidad de la página estática y una misteriosa señal de popularidad derivada de los datos de Chrome.
Proporciona una inspección rara de cómo se diseñan señales como la presente, la confiabilidad, el comportamiento de clic y la transparencia basada en LLM y ofrece una perspectiva diferente sobre cómo Google clasifica los sitios web.
Imagen destacada de Shutterstock/Fran_kie