Google anunció un nuevo cálculo de recuperación de vectores múltiples llamado MUVERA que acelera la recuperación y el ranking, y prosperidad la precisión. El cálculo se puede usar para sistemas de búsqueda, recomendación (como YouTube) y para el procesamiento del lengua natural (PNL).
Aunque el anuncio no dijo explícitamente que se está utilizando en la búsqueda, el documento de investigación deja en claro que Muvera permite una recuperación de vectores multivediario eficaz a escalera web, particularmente al hacer que sea compatible con la infraestructura existente (a través de MIP) y dominar la latencia y la huella de la memoria.
Incrustación de vectores en la búsqueda
La incrustación vectorial es una representación multidimensional de las relaciones entre palabras, temas y frases. Permite a las máquinas comprender la similitud a través de patrones como palabras que aparecen internamente del mismo contexto o frases que significan las mismas cosas. Palabras y frases relacionadas con espacios de ocupación que están más cerca entre sí.
- Las palabras “King Lear” estarán cerca de la frase “Tragedia de Shakespeare”.
- Las palabras “A Midsummer Night’s Dream” ocuparán un espacio cerca de “Shakespeare Comedy”.
- Tanto “King Lear” como “A Midsummer Night’s Dream” estarán ubicados en un espacio cercano a Shakespeare.
Las distancias entre palabras, frases y conceptos (técnicamente una medida de similitud matemática) definen cuán estrechamente relacionado está cada uno con el otro. Estos patrones permiten que una máquina infiera similitudes entre ellos.
Muvera resuelve un problema inherente de integridades de vectores múltiples
El documento de investigación de Múvera establece que las integridades neuronales han sido una característica de la recuperación de información durante diez abriles y cita el documento de investigación maniquí de Vector de Colbert de 2020 como un avance, pero eso dice que sufre de un cuello de botella que lo hace menos que ideal.
“Recientemente, comenzando con el histórico papel Colbert, los modelos múltiples de vectores, que producen un conjunto de incrustaciones por punto de datos, han rematado un rendimiento notablemente superior para las tareas IR. Desafortunadamente, el uso de estos modelos para IR es computacionalmente costoso conveniente a la maduro complejidad de la recuperación y la puntuación de múltiples vectores”.
El anuncio de Google de Muvera se hace eco de esas desventajas:
“… Los avances recientes, particularmente la preparación de modelos de vectores múltiples como Colbert, han demostrado un rendimiento significativamente mejorado en las tareas IR. Si aceptablemente este enfoque múltiple aumenta la precisión y permite la recuperación de documentos más relevantes, introduce desafíos computacionales sustanciales.
¿Podría ser un sucesor de la tecnología de rango de Google?
La demanda antimonopolio del Área de Probidad de los Estados Unidos (DOJ) dio como resultado un testificación que reveló que una de las señales utilizadas para crear las páginas de resultados del motor de búsqueda (SERPS) se pira Rankembed, que se describió así:
“Rankembed es un maniquí de codificador dual que incrusta la consulta y el documento en el espacio de incrustación. La incrustación del espacio considera las propiedades semánticas de la consulta y el documento por otra parte de otras señales. La recuperación y la clasificación son entonces un producto de punto (medida de distancia en el espacio de incrustación) … extremadamente rápido; entrada calidad en consultas comunes, pero pueden realizar malas consultas para colas …”
Muvera es un avance técnico que aborda el rendimiento y las limitaciones de escalera de los sistemas de vectores múltiples, que son un paso más allá de los modelos de doble codificador (como Rankembed), proporcionando una maduro profundidad semántica y manejo del rendimiento de la consulta de pan dulce.
El avance es una técnica señal codificación dimensional fija (FDE), que divide el espacio de incrustación en secciones y combina los vectores que caen en cada sección para crear un vector único de distancia fija, lo que hace que sea más rápido inquirir que comparar múltiples vectores. Esto permite que los modelos de vectores múltiples se usen de guisa eficaz a escalera, mejorando la velocidad de recuperación sin martirizar la precisión que proviene de una representación semántica más rica.
Según el anuncio:
“A diferencia de las incrustaciones de un solo vector, los modelos de vectores múltiples representan cada punto de datos con un conjunto de incrustaciones y aprovechan funciones de similitud más sofisticadas que pueden capturar relaciones más ricas entre puntos de datos.
Si aceptablemente este enfoque de múltiples vectores aumenta la precisión y permite recuperar documentos más relevantes, introduce desafíos computacionales sustanciales. En particular, el maduro número de integridades y la complejidad de la puntuación de similitud de vectores múltiples hacen que la recuperación sea significativamente más costosa.
En ‘MUVERA: recuperación de vectores múltiples a través de codificaciones dimensionales fijas’, presentamos un nuevo cálculo de recuperación de vectores múltiples diseñado para cerrar la brecha de eficiencia entre la recuperación de un solo y múltiples vectores.
… Este nuevo enfoque nos permite servirse los algoritmos MIPS en gran medida optimizados para recuperar un conjunto auténtico de candidatos que luego se pueden retornar a clasificar con la similitud exacta de múltiples vectores, lo que permite una recuperación multivectorial eficaz sin martirizar la precisión ”.
Los modelos de múltiples vectores pueden proporcionar respuestas más precisas que los modelos de doble codificador, pero esta precisión tiene costo de las demandas de cuenta intensivas. Muvera resuelve los problemas de complejidad de los modelos de vectores múltiples, creando así una forma de obtener una maduro precisión de los enfoques de vectores múltiples sin las altas demandas informáticas.
¿Qué significa esto para SEO?
Muvera muestra cómo la clasificación de búsqueda moderna depende cada vez más de los juicios de similitud en lado de las señales de palabras esencia anticuadas en las que a menudo se centran las herramientas de SEO y los SEO. Los SEOS y los editores pueden desear cambiar su atención de la frase exacta que coincide con la vinculación con el contexto normal y la intención de la consulta. Por ejemplo, cuando algún pesquisa “Medio para hombres de las chaquetas de pana”, es más probable que un sistema que utiliza una recuperación similar a Muvera clasifica páginas que positivamente ofrecen esos productos, no páginas que simplemente mencionan “chalecos de pana” e incluyan la palabra “medio” en un intento de igualar la consulta.
Lea el anuncio de Google:
MUVERA: Hacer una recuperación de vectores múltiples tan rápido como la búsqueda de un solo vector
Imagen destacada de Shutterstock/Bluestork