[ad_1]
Ya sea que se trate de un profesional que mejora sus habilidades o de un niño que aprende a leer, los entrenadores y educadores desempeñan un papel clave al evaluar la respuesta del alumno a una pregunta en un contexto determinado y guiarlo hacia un objetivo. Estas interacciones tienen características únicas que las diferencian de otras formas de diálogo, pero no están disponibles cuando los alumnos practican solos en casa. En el campo del procesamiento del lenguaje natural, este tipo de capacidad no ha recibido mucha atención y es un desafío tecnológico. Queríamos investigar cómo podríamos usar el aprendizaje automático para calificar las respuestas de una manera que facilite el aprendizaje.
En este blog, presentamos una habilidad importante de Comprensión del lenguaje natural (NLU) llamada Evaluación del lenguaje natural (NLA) y discutimos cómo puede ser útil en el contexto de la educación. Mientras que las tareas típicas de NLU se centran en la intención del usuario, NLA permite evaluar una respuesta desde múltiples perspectivas. En situaciones en las que un usuario quiere saber qué tan buena es su respuesta, NLA puede ofrecer un análisis de qué tan cerca está la respuesta de las expectativas. En situaciones en las que puede no haber una respuesta «correcta», NLA puede proporcionar información sutil que incluye puntualidad, relevancia, verbosidad y más. Articulamos el alcance de NLA, presentamos un modelo práctico para llevar a cabo NLA puntual y mostramos cómo NLA se ha utilizado para ayudar a los buscadores de empleo a practicar cómo responder preguntas de entrevistas con la nueva herramienta de preparación de entrevistas de Google, Interview Warmup .
Descripción general de la evaluación del lenguaje natural (NLA)
El objetivo de NLA es evaluar la respuesta del usuario frente a un conjunto de expectativas. Considere los siguientes componentes para un sistema NLA que interactúa con los estudiantes:
- Una pregunta presentado al estudiante
- Expectativas que definen lo que esperamos en la respuesta (por ejemplo, respuesta de texto concreto, conjunto de temas que esperamos de la respuesta, concisión)
- Una respuesta proporcionado por el estudiante
- Un resultado de revisión (por ejemplo, corrección, falta de información, comentarios demasiado específicos o generales, estilo, pronunciación, etc.)
- [Optional] un contexto (por ejemplo, un capítulo de un libro o un artículo)
Con NLA, tanto las expectativas de la respuesta como la evaluación de la respuesta pueden ser muy amplias. Esto permite interacciones profesor-alumno que son más expresivas y sutiles. Aquí hay dos ejemplos:
- Una pregunta con una respuesta correcta específica: Incluso en situaciones en las que hay una respuesta correcta clara, puede ser útil evaluar la respuesta de manera más sutil que simplemente correcta o incorrecta. Considera lo siguiente:
contexto: Harry Potter y la Piedra Filosofal
pregunta: «¿Qué es Hogwarts?»
expectativa: «Hogwarts es una escuela de magia y hechicería» [expectation is given as text]
respuestas: «No estoy exactamente seguro, pero creo que es una escuela».Es posible que a la respuesta le falten detalles importantes, pero marcarla como incorrecta no sería del todo precisa ni útil para un usuario. NLA puede proporcionar una comprensión más sutil, por ejemplo, al señalar que la respuesta del alumno es demasiado general y que el alumno no está seguro.
Ilustración del proceso NLA desde la pregunta de entrada, la respuesta y la expectativa hasta el resultado de la evaluación Este tipo de evaluación sutil, además de notar la incertidumbre que el estudiante ha expresado, puede ser importante para ayudar a los estudiantes a desarrollar habilidades en situaciones de conversación.
- expectativas de puntualidad: Hay muchas situaciones en las que no se espera una respuesta concreta. Por ejemplo, cuando se le hace una pregunta de opinión a un estudiante, no hay una expectativa textual específica. En cambio, se espera relevancia y expresión y quizás un grado de concisión y familiaridad. Considere la siguiente estructura de práctica de entrevista:
pregunta: «¿Dime algo sobre tí?»
Expectativas: { «educación», «experiencia», «intereses» } (una variedad de temas)
respuestas: «Veamos. Crecí en el Valle de Salinas de California y fui a Stanford, donde me especialicé en economía, pero luego me apasioné por la tecnología, así que lo siguiente que hice fue…»En este caso, un resultado de calificación útil asociaría la respuesta del usuario con un subconjunto de los temas cubiertos, posiblemente junto con un marcador de qué partes del texto se relacionan con qué tema. Esto puede ser un desafío desde la perspectiva de la PNL, ya que las respuestas pueden ser largas, los temas se pueden mezclar y cada tema puede ser multifacético por sí solo.
Un modelo NLA de puntualidad
En principio, la NLA de recencia es una tarea multiclase estándar para la cual uno puede entrenar fácilmente a un clasificador utilizando técnicas estándar. Sin embargo, los datos de capacitación para tales escenarios son escasos y sería costoso y llevaría mucho tiempo recopilarlos para cada pregunta y tema. Nuestra solución consiste en desglosar cada tema en componentes granulares que se pueden identificar mediante modelos de lenguaje extenso (LLM) con un voto genérico directo.
Relacionamos cada tema con una lista de preguntas subyacentes y definimos que si la oración contiene una respuesta a cualquiera de esas preguntas subyacentes, entonces ese tema está cubierto. Para el tema «Experiencia» podemos seleccionar preguntas subyacentes como:
- ¿Donde trabajaste?
- ¿Qué estudiaste?
- …
Mientras que para el tema de intereses podríamos optar por preguntas de fondo como:
- ¿En que estas interesado?
- ¿Qué te gusta hacer?
- …
Estas preguntas subyacentes se diseñan a través de un proceso manual iterativo. Debido a que estas preguntas son suficientemente granulares, es importante que los modelos de lenguaje actuales (ver detalles a continuación) puedan capturar su semántica. Esto nos permite ofrecer un enfoque de disparo cero para la tarea de actualización de NLA: una vez capacitado (más en el modelo a continuación), es fácil agregar nuevas preguntas y nuevos temas, o ajustar los temas existentes cambiando las expectativas de contenido subyacentes sin la necesidad de ser cambiado para recopilar datos específicos del tema. Vea a continuación las predicciones del modelo para la frase «He estado trabajando en el comercio minorista durante 3 años.” para los dos temas descritos anteriormente:
Un diagrama que muestra cómo el modelo utiliza las preguntas subyacentes para predecir el tema que probablemente cubra la respuesta del usuario. |
Dado que se coincidió con una pregunta subyacente sobre el tema de «Experiencia», la oración se clasificaría como «Experiencia».
Aplicación: ayudar a los solicitantes de empleo a prepararse para las entrevistas de trabajo
Interview Warmup es una nueva herramienta desarrollada en asociación con personas que buscan trabajo para ayudarlos a prepararse para entrevistas en campos laborales de rápido crecimiento como el soporte de TI y el diseño de UX. Permite a los solicitantes de empleo practicar respondiendo preguntas seleccionadas por expertos de la industria y sentirse más seguros y cómodos durante la entrevista. A medida que trabajábamos con personas que buscaban trabajo para comprender sus desafíos al prepararse para las entrevistas y cómo una herramienta de práctica de entrevistas podría ser más útil, inspiró nuestra investigación y aplicación de la NLA de puntualidad.
Creamos el modelo NLA de actualidad (una vez para todas las preguntas y temas) de la siguiente manera: Entrenamos un modelo T5 solo de codificador (arquitectura EncT5) con 350 millones de parámetros en datos de preguntas y respuestas para garantizar la compatibilidad de <underlying question, answer>
Pocos. Confiamos en los datos de SQuAD 2.0 procesados para la producción <question, answer, label>
trillizos.
En la herramienta de calentamiento de entrevistas, los usuarios pueden cambiar entre puntos de conversación para ver cuáles fueron reconocidos en su respuesta. |
La herramienta no califica ni juzga las respuestas. En cambio, permite a los usuarios practicar por su cuenta e identificar oportunidades de mejora. Después de que un usuario responde a una pregunta de la entrevista, su respuesta se analiza oración por oración utilizando el modelo NLA de actualidad. Luego pueden cambiar entre diferentes puntos de conversación para ver cuáles fueron reconocidos en su respuesta. Sabemos que hay muchos peligros potenciales al señalar a un usuario que su respuesta es «buena», dado que solo vemos una cantidad limitada de temas. En cambio, mantenemos el control en manos del usuario y solo usamos ML para ayudar a los usuarios a construir sus propios descubrimientos sobre cómo mejorar.
Hasta ahora, la herramienta ha tenido excelentes resultados ayudando a personas que buscan trabajo en todo el mundo, incluso en los EE. UU., y recientemente la hemos expandido a África. Planeamos continuar trabajando con las personas que buscan trabajo para iterar la herramienta y hacerla aún más útil para los millones de personas que buscan nuevos trabajos.
Un cortometraje que muestra cómo se desarrollaron Interview Warmup y sus funciones NLA en colaboración con personas que buscan trabajo. |
Conclusión
La evaluación del lenguaje natural (NLA) es un área de investigación tecnológicamente desafiante e interesante. Allana el camino para nuevas aplicaciones conversacionales que mejoran el aprendizaje al permitir la evaluación matizada y el análisis de las respuestas desde múltiples perspectivas. Al trabajar con comunidades, desde buscadores de empleo y empresas hasta maestros y estudiantes, podemos identificar situaciones en las que NLA tiene el potencial de ayudar a las personas a aprender, participar y desarrollar habilidades en una variedad de temas y podemos encontrar aplicaciones desarrolladas de manera responsable que permiten a los usuarios evaluar sus propias capacidades y descubrir oportunidades de mejora.
Gracias
Este trabajo es posible gracias a la colaboración entre varios equipos de Google. Nos gustaría reconocer las contribuciones de los equipos de Google Research Israel, Google Creative Lab y Grow with Google, entre otros.
[ad_2]