lun. Jun 9th, 2025

Operación de tipo de trabajo almacén de Google detallado en el trabajo de investigación


Google publicó un artículo de investigación que describe cómo extrae información “servicios ofrecidos” de sitios comerciales locales para agregarlo a los perfiles comerciales en Google Maps y Search. El operación describe factores de relevancia específicos y confirma que el sistema se ha utilizado con éxito durante un año.

Lo que hace que este trabajo de investigación sea especialmente importante es que uno de los autores es Marc Najork, un distinguido investigador de investigación de Google que está asociado con muchos hitos en la recuperación de la información, el procesamiento del estilo natural e inteligencia químico.

El propósito de este sistema es proveer que los usuarios encuentren negocios locales que brindan los servicios que están buscando. El documento se publicó en 2024 (según el archivo de Internet) y está fechado en 2023.

El trabajo de investigación explica:

“… Para acortar el esfuerzo del agraciado, desarrollamos e implementamos una tubería para extraer automáticamente los tipos de trabajo de los sitios web comerciales. Por ejemplo, si una página web propiedad de un negocio de plomería establece:” Proporcionamos el servicio de instalación de inodoros y reparación de grifos “, nuestra tubería genera la instalación del baño y la reparación de grifos como tipos de trabajo para este negocio”.

El sistema usa Bert

Google usó el maniquí de idioma Bert para clasificar si las frases extraídas de los sitios web de negocios describen los tipos de trabajo reales. Bert se ajustó a los ejemplos etiquetados y se le dio un contexto adicional, como la estructura del sitio web, los patrones de URL y la categoría de negocios para mejorar la precisión sin inmolar la escalabilidad.

Desarrollar un sistema de búsqueda almacén

El primer paso para crear un sistema para rastrear y extraer información de tipo de trabajo fue crear datos de capacitación desde cero. Seleccionaron miles de millones de páginas de inicio que se enumeran en los perfiles comerciales de Google y extrajeron información de tipo de trabajo de tablas y listas formateadas en páginas o páginas de inicio que estaban a un clic de las páginas de inicio. Estos datos de tipo de trabajo se convirtieron en el conjunto de semillas de tipos de trabajo.

Los datos de tipo de trabajo extraídos se utilizaron como consultas de búsqueda, aumentadas con la expansión de la consulta (sinónimos) para ampliar la registro de tipos de trabajo para incluir todas las variaciones posibles de las frases de palabras secreto de tipo de trabajo.

Segundo paso: solucionar un problema de relevancia

Los investigadores de Google aplicaron su sistema en los miles de millones de páginas y no funcionó como se pretendía porque muchas páginas tenían frases de tipo de trabajo que no describían los servicios ofrecidos.

El trabajo de investigación explica:

“Descubrimos que muchas páginas mencionan los nombres de los tipos de trabajo para otros fines, como dar consejos de vida. Por ejemplo, una página web que enseña a los lectores a tratar con chinches de cama puede contener una oración como una posibilidad es avisar a los servicios de desenvoltura del hogar si encuentra chinches en su hogar. Por lo normal, proporcionan servicios como el control de chinches. Aunque esta página menciona múltiples nombres de tipo trabajo, la página no proporciona una empresa de desenvoltura en el hogar”.

Condicionar el rastreo e indexación a la identificación de frases de palabras secreto de tipo de trabajo dio como resultado falsos positivos. La posibilidad era incorporar oraciones que rodearan las frases de palabras secreto para que pudieran comprender mejor el contexto de las frases de palabras secreto de tipo de trabajo.

Se explica el éxito de usar el texto circundante:

“Como se muestra en la Tabla 2, JobModelsround funciona significativamente mejor que JobModel, lo que sugiere que las palabras circundantes podrían explicar la intención de las menciones de tipo de trabajo de semilla. Esto restablecimiento con éxito la comprensión semántica sin procesar el texto completo de cada página, manteniendo nuestros modelos eficientes”.

SEO Insight
El operación de búsqueda almacén descrito excluye premeditadamente toda la información en la página y se concentra en frases de palabras secreto de tipo de trabajo y palabras y frases circundantes cerca de de esas palabras secreto. Esto muestra la importancia de cómo las palabras en torno a frases importantes de palabras secreto pueden proporcionar contexto para las frases de palabras secreto y proveer que los rastreadores de Google comprendan de qué se manejo la página sin tener que procesar toda la página web.

SEO Insight
Otra idea es que Google no está indexando toda la página web con el propósito acotado de identificar frases de palabras secreto de tipo de trabajo. El operación está buscando la frase de palabras secreto y las frases de palabras secreto circundantes.

SEO Insight
El concepto de analizar solo una parte de una página es similar al de Google Anotación de la estancia central donde se identifica una sección de contenido como el tema principal de la página. No digo que estos estén relacionados. Solo estoy señalando una característica de muchos donde un operación de Google se concentra en una sección de una página.

El sistema de linaje se puede extender a otros contextos

Un hallazgo interesante detallado por el documento de investigación es que el sistema que desarrollaron se puede utilizar en áreas (dominios) que no sean empresas locales, como “hallazgo de experiencia, linaje de información judicial y médica”.

Ellos escriben:

“Las lecciones que compartimos para desarrollar la cartera de linaje a gran escalera desde cero pueden generalizarse a otras tareas de linaje de información o enseñanza mecánico. Tienen aplicaciones directas a tareas de linaje específicas de dominio, ejemplificadas por la búsqueda de experiencia, la linaje de información judicial y médica.

Tres lecciones más importantes son:

(1) utilizar las propiedades de datos, como el contenido estructurado, podría aliviar el problema de inicio en frío de la anotación de datos;

(2) formular la tarea como un problema de recuperación podría ayudar a los investigadores y profesionales a luchar con un gran conjunto de datos;

(3) La información del contexto podría mejorar la calidad del maniquí sin inmolar su escalabilidad “.

El extracto de tipo de trabajo es un éxito

El trabajo de investigación dice que su sistema es un éxito, tiene un suspensión nivel de precisión (precisión) y que es escalable. El trabajo de investigación dice que ya ha estado en uso durante un año. La investigación está fechada en 2023 pero de acuerdo con el Archivo de Internet (Wayback Machine), se publicó en algún momento de julio de 2024.

Los investigadores escriben:

“Nuestra tubería se ejecuta periódicamente para abastecer el contenido extraído actualizado. Actualmente se implementa en producción, y los tipos de trabajo de salida están aparecidos para millones de usuarios de búsqueda y mapas de Google”.

Comida para aceptar

  • Operación de Google que extrae los tipos de trabajo de las páginas web
    Google desarrolló un operación que extrae “tipos de trabajo” (es sostener, servicios ofrecidos) de sitios web comerciales para mostrar en Google Maps y Búsqueda.
  • Extractos de tuberías del contenido no estructurado
    En empleo de encomendar en nociones HTML estructurados, el operación lee contenido de texto dispensado, lo que lo hace efectivo incluso cuando los servicios están enterrados en los párrafos.
  • La relevancia contextual es importante
    El sistema evalúa las palabras circundantes para confirmar que los términos relacionados con el servicio son efectivamente relevantes para el negocio, mejorando la precisión.
  • Potencial de universalización del maniquí
    El enfoque se puede aplicar a otros campos como la linaje de información judicial o médica, que muestra cómo se puede aplicar a otros tipos de conocimiento.
  • Reincorporación precisión y escalabilidad
    El sistema se ha implementado durante más de un año y ofrece resultados escalables y de reincorporación precisión en miles de millones de páginas web.

Google publicó un trabajo de investigación sobre un operación que extrae automáticamente las descripciones de servicios de los sitios web de negocios locales analizando frases de palabras secreto y su contexto circundante, permitiendo listados más precisos y actualizados en los mapas de Google y la búsqueda. Esta técnica evita la dependencia de la estructura HTML y puede adaptarse para su uso en otras industrias, donde se necesita extraer información del texto no estructurado.

Lea el sumario del documento de investigación y descargue la interpretación PDF aquí:

Extirpación de tipo de trabajo para empresas de servicios

Imagen destacada de Shutterstock/Vidi Studio

Related Post

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *