Anuncio del conjunto de datos de similitud de frase de patente

[ad_1]

Publicado Grigor Aslanyan, ingeniero de software, Google

Los documentos de patente suelen utilizar un lenguaje legal y muy técnico, con términos contextuales que pueden tener significados muy diferentes del uso coloquial e incluso entre diferentes documentos. El proceso de utilizar métodos tradicionales de búsqueda de patentes (por ejemplo, búsqueda por palabra clave) para buscar en el corpus de más de cien millones de documentos de patentes puede ser tedioso y generar muchos resultados faltantes debido al lenguaje amplio y no estándar utilizado. Por ejemplo, una «pelota de fútbol» puede describirse como un «dispositivo de recreación esférico», «pelota deportiva inflable» o «pelota para juegos de pelota». Además, el lenguaje utilizado en algunos documentos de patente puede ofuscar los términos a su favor, por lo que un procesamiento de lenguaje natural (NLP) más potente y una comprensión de la similitud semántica pueden brindar a cualquier persona acceso a una búsqueda exhaustiva.

El campo de las patentes (y la literatura técnica más general, como las publicaciones científicas) plantea desafíos únicos para el modelado de PNL debido al uso de terminología legal y técnica. Si bien hay varios conjuntos de datos de referencia de similitud de texto semántico (STS) de uso general de uso general (por ejemplo, STS-B, SICK, MRPC, PIT), hasta donde sabemos, actualmente no hay conjuntos de datos que se refieran a conceptos técnicos encontrados en patentes y publicaciones científicas (el el desafío BioASQ algo relacionado incluye una tarea para responder preguntas biomédicas). Además, con el continuo crecimiento del corpus de patentes (cada año se otorgan millones de nuevas patentes en todo el mundo), existe la necesidad de desarrollar modelos de PNL más útiles en esta área.

Hoy anunciamos el lanzamiento del conjunto de datos Patent Phrase Similarity, un nuevo conjunto de datos de coincidencia semántica contextual de frase a frase calificado por humanos, y el documento adjunto presentado en el taller SIGIR PatentSemTech centrado en términos técnicos concentrados en patentes. El conjunto de datos de Similitud de frases de patentes contiene aproximadamente 50 000 pares de frases puntuadas, cada una con una clase de Clasificación cooperativa de patentes (CPC) como contexto. Además de las puntuaciones de similitud que normalmente se encuentran en otros conjuntos de datos de referencia, incluimos clases de puntuación granulares similares a las de WordNet, como B. Sinónimo, antónimo, hiperónimo, hipónimo, holónimo, merónimo y dominio relacionado. Este conjunto de datos (distribuido bajo la licencia Creative Commons Attribution 4.0 International) fue utilizado por Kaggle y la USPTO como un conjunto de datos de referencia en la competencia de coincidencia de frase a frase de patentes de EE. UU. para llamar más la atención sobre el rendimiento de los modelos de aprendizaje automático con textos técnicos. Los resultados iniciales muestran que los modelos ajustados a este nuevo conjunto de datos funcionan significativamente mejor que los modelos genéricos previamente entrenados sin ajuste.

Registro de similitud de frases de patentes

Para entrenar mejor a la próxima generación de modelos de vanguardia, creamos el conjunto de datos Patent Phrase Similarity, que incluye muchos ejemplos para abordar los siguientes problemas: (1) desambiguación de frases, (2) coincidencia de palabras clave antagónicas y (3) palabras clave negativas duras (es decir, palabras clave que no están relacionadas pero que han recibido una alta puntuación de similitud de otros modelos). Algunas palabras clave y frases pueden tener múltiples significados (por ejemplo, la frase «ratón» puede referirse a un animal o un dispositivo de entrada de computadora), por lo que hacemos que las frases sean únicas al incluir clases de CPC en cada par de frases. Además, muchos modelos de NLP (p. ej., modelos de bolsa de palabras) no funcionarán bien con datos con frases que tengan palabras clave coincidentes pero que no estén relacionadas (palabras clave antagónicas, p. ej., «sección de contenedor») → «Contenedor de cocina», «Compensación mesa» → «Ventilador de mesa»). El conjunto de datos de similitud de frases de patentes está diseñado para contener muchos ejemplos de palabras clave coincidentes que no están relacionadas por coincidencias de palabras clave antagónicas, lo que permite que los modelos NLP mejoren su rendimiento.

Cada entrada en el registro de similitud de frases de patentes contiene dos frases, un ancla y un objetivo, una clase de CPC de contexto, una clase de puntuación y una puntuación de similitud. El conjunto de datos contiene 48 548 entradas con 973 anclas únicas divididas en conjuntos de entrenamiento (75 %), validación (5 %) y prueba (20 %). Al dividir los datos, todas las entradas con el mismo ancla se mantienen juntas en el mismo conjunto. Hay 106 clases de CPC de contexto diferentes y todas están representadas en el conjunto de entrenamiento.

ancla	objetivo	contexto	valuación	puntaje
absorción de ácido	absorción de ácido	B08	Estoy de acuerdo	1.0
absorción de ácido	inmersión en ácido	B08	sinónimo	0.75
absorción de ácido	empapado químicamente	B08	relacionado con el dominio	0.25
absorción de ácido	reflujo ácido	B08	no relacionado	0.0
mezcla de gasolina	mezcla de gasolina	C10	sinónimo	0.75
mezcla de gasolina	mezcla de combustible	C10	hiperónimo	0.5
mezcla de gasolina	mezcla de frutas	C10	no relacionado	0.0
montaje del grifo	grifo de agua	A22	hipónimo	0.5
montaje del grifo	suministro de agua	A22	holónimo	0.25
montaje del grifo	Asamblea de la Escuela	A22	no relacionado	0.0

Una pequeña muestra del conjunto de datos que muestra frases ancla y objetivo, clase de CPC de contexto (B08: limpieza, C10: petróleo, gas, combustible, lubricantes, A22: carnicería, carne/aves/procesamiento de pescado), una clase de evaluación y una puntuación de similitud .

Generación del conjunto de datos

Para generar los datos de similitud para frases de patentes, primero procesamos los aproximadamente 140 millones de documentos de patentes en el corpus de patentes de Google y extraemos automáticamente frases clave en inglés, que suelen ser frases nominales (por ejemplo, «procesamiento de alimentos», «impresión de tinta»). A continuación, filtramos y guardamos las frases que aparecen en al menos 100 patentes y tomamos al azar unas 1000 de esas frases filtradas, a las que llamamos frases ancla. Para cada conjunto de anclas encontramos todas las patentes coincidentes y todas las clases de CPC para estas patentes. Luego, seleccionamos aleatoriamente hasta cuatro clases de CPC coincidentes, que se convierten en las clases de CPC de contexto para la frase ancla específica.

Usamos dos métodos diferentes para pregenerar frases de destino: (1) coincidencia parcial y (2) un modelo de lenguaje enmascarado (MLM). Para una coincidencia parcial, seleccionamos al azar frases de todo el corpus que coincidan parcialmente con la frase ancla (por ejemplo, «combate» → «reducción de ruido», «educación» → «material educativo»). Para MLM, seleccionamos oraciones de las patentes que contienen una oración ancla específica, las enmascaramos y usamos el modelo BERT de patentes para predecir candidatos para la parte enmascarada del texto. Luego, todas las frases se desinfectan, lo que incluye reducir y eliminar la puntuación y ciertas palabras vacías (por ejemplo, «y», «o», «dijo»), y se envían a evaluadores expertos para su revisión. Cada par de frases se califica de forma independiente por dos evaluadores con experiencia en el campo de la tecnología. Cada evaluador también genera nuevas frases objetivo con diferentes puntajes. Específicamente, se les pide que generen algunos objetivos de baja similitud y no relacionados que coincidan parcialmente con el ancla original y/o algunos objetivos de alta similitud. Finalmente, los calificadores se reúnen para discutir sus calificaciones y dar calificaciones finales.

evaluación del conjunto de datos

Para evaluar su desempeño, se utilizó el conjunto de datos de similitud de frases de patentes en la competencia Kaggle de coincidencia de frases de patentes de EE. UU. El concurso fue muy popular y atrajo a unos 2.000 participantes de todo el mundo. Los equipos con la puntuación más alta han utilizado con éxito una variedad de enfoques, incluidos modelos de conjunto de variantes de BERT e indicaciones (consulte la discusión completa para obtener más detalles). La siguiente tabla muestra los mejores resultados de la competencia, así como varias líneas de base estándar de nuestro artículo. La métrica de correlación de Pearson se usó para medir la correlación lineal entre las puntuaciones predichas y las verdaderas, que es una métrica útil para los modelos posteriores que les permite distinguir entre diferentes puntuaciones de similitud.

Las líneas de base en el lanzamiento se pueden considerar cero tiro en el sentido de que usan modelos estándar sin más ajustes del nuevo conjunto de datos (usamos estos modelos para incorporar las frases ancla y objetivo por separado y calcular la similitud de coseno entre ellos). Los resultados de la competencia de Kaggle muestran que al usar nuestros datos de entrenamiento se pueden lograr mejoras significativas en comparación con los modelos de PNL existentes. También estimamos el desempeño humano en esta tarea comparando las puntuaciones de un único evaluador con la puntuación combinada de ambos evaluadores. Los resultados muestran que esta no es una tarea particularmente fácil, incluso para expertos humanos.

modelo	educación	Correlación de Pearson
palabra2vec	tiro cero	0.44
Patente BERT	tiro cero	0.53
Oración BERT	tiro cero	0,60
Kaggle 1er lugar individuales	afinado	0.87
Conjunto Kaggle 1er lugar	afinado	0.88
Humano		0,93

Desempeño de modelos populares sin ajuste fino (disparo cero), modelos ajustados como parte de la competencia Kaggle usando el conjunto de datos de similitud de frase de patente y rendimiento humano individual.

Conclusión y trabajo futuro

Presentamos el conjunto de datos de Patent Phrase Similarity utilizado como un conjunto de datos de referencia en la competencia de coincidencia de frase a frase de patentes de EE. UU. y mostramos que al usar nuestros datos de entrenamiento se pueden lograr mejoras significativas en comparación con los modelos de PNL existentes.

Se pueden generar puntos de referencia de aprendizaje automático desafiantes adicionales a partir del corpus de patentes, y los datos de patentes se han abierto camino en muchos de los modelos más estudiados de la actualidad. Por ejemplo, el conjunto de datos de texto C4 utilizado para entrenar T5 contiene muchos documentos de patente. Los modelos BigBird y LongT5 también usan patentes a través del conjunto de datos BIGPATENT. La disponibilidad, el alcance y los términos abiertos de los datos de texto completo (consulte Conjuntos de datos públicos de patentes de Google) hacen de las patentes un recurso único para la comunidad investigadora. Las posibilidades para tareas futuras incluyen clasificación masiva de etiquetas múltiples, resumen, recuperación de información, similitud de imagen y texto, predicción de gráficos de citas y traducción. Consulte el documento para obtener más detalles.

Gracias

Este trabajo fue posible gracias a una colaboración con Kaggle, Satsyil Corp., USPTO y MaxVal. Muchas gracias a los colaboradores Ian Wetherbee de Google, Will Cukierski y Maggie Demkin de Kaggle. Gracias a Jerry Ma, Scott Beliveau y Jamie Holcombe de la USPTO y Suja Chittamahalingam de MaxVal por sus contribuciones.

[ad_2]

Subscribe to Updates

What's Hot

Anuncio del conjunto de datos de similitud de frase de patente

Related Posts