[ad_1]
Un robot que manipula objetos mientras trabaja en la cocina, por ejemplo, se beneficiará al comprender qué objetos están hechos de los mismos materiales. Sabiendo esto, el robot sabría ejercer una fuerza similar ya sea que estuviera recogiendo una pequeña barra de mantequilla de un rincón sombreado del mostrador o una barra entera de mantequilla del refrigerador brillantemente iluminado.
Identificar objetos en una escena que estén hechos del mismo material, lo que se conoce como selección de material, es un problema particularmente desafiante para las máquinas, ya que la apariencia de un material puede variar drásticamente según la forma del objeto o las condiciones de iluminación.
Los científicos del MIT y Adobe Research han dado un paso para resolver este desafío. Desarrollaron una técnica que puede identificar todos los píxeles de una imagen que representan un material específico mostrado en un píxel seleccionado por el usuario.
El método es preciso incluso cuando los objetos tienen diferentes formas y tamaños, y el modelo de aprendizaje automático que desarrollaron no se deja engañar por sombras o condiciones de iluminación que puedan hacer que el mismo material parezca diferente.
Aunque solo entrenaron su modelo utilizando datos «sintéticos» creados por una computadora que modifica escenas 3D para producir muchas imágenes diferentes, el sistema funciona de manera efectiva en escenas interiores y exteriores del mundo real que nunca antes se había visto. El enfoque también se puede utilizar para vídeos; Una vez que el usuario identifica un píxel en el primer cuadro, el modelo puede identificar objetos hechos del mismo material en el resto del vídeo.
Además de las aplicaciones en la comprensión de escenas para la robótica, este método podría usarse para el procesamiento de imágenes o integrarse con sistemas computacionales que derivan los parámetros de los materiales en las imágenes. También podría usarse para sistemas de recomendación web basados en materiales. (Por ejemplo, un comprador podría estar buscando ropa hecha de cierto tipo de tela).
“A menudo es muy importante saber con qué material estás interactuando. Aunque dos objetos parecen similares, pueden tener diferentes propiedades materiales. Nuestro método puede facilitar la selección de todos los demás píxeles de una imagen que estén hechos del mismo material», afirma Prafull Sharma, estudiante de doctorado en ingeniería eléctrica e informática y autor principal de un artículo sobre esta técnica.
Los coautores de Sharma incluyen a Julien Philip y Michael Gharbi, científicos investigadores de Adobe Research; y los autores principales William T. Freeman, profesor Thomas y Gerd Perkins de Ingeniería Eléctrica e Informática y asociado del Laboratorio de Informática e Inteligencia Artificial (CSAIL); Frédo Durand, profesor de Ingeniería Eléctrica e Informática y miembro del CSAIL; y Valentin Deschaintre, científico investigador de Adobe Research. La investigación se presentará en la conferencia SIGGRAPH 2023.
Un nuevo enfoque
Los métodos de selección de materiales existentes tienen dificultades para identificar con precisión todos los píxeles que representan el mismo material. Por ejemplo, algunos métodos se centran en objetos completos, pero un objeto puede estar hecho de varios materiales, como una silla con brazos de madera y un asiento de cuero. Otros métodos pueden utilizar un conjunto determinado de materiales, pero a menudo se los denomina genéricamente «madera», aunque existen miles de especies de madera.
En cambio, Sharma y sus colaboradores desarrollaron un enfoque de aprendizaje automático que evalúa dinámicamente todos los píxeles de una imagen para determinar las similitudes materiales entre un píxel seleccionado por el usuario y todas las demás áreas de la imagen. Si una imagen contiene una mesa y dos sillas, y las patas de la silla y la superficie de la mesa están hechas del mismo tipo de madera, su modelo podría identificar con precisión estas áreas similares.
Antes de que los investigadores pudieran desarrollar un método de IA para aprender a seleccionar materiales similares, tuvieron que superar algunos obstáculos. En primer lugar, ningún conjunto de datos existente contenía material etiquetado con suficiente precisión como para entrenar su modelo de aprendizaje automático. Los investigadores crearon su propio conjunto de datos sintéticos de escenas interiores, que contiene 50.000 imágenes y más de 16.000 materiales aplicados aleatoriamente a cada objeto.
«Queríamos un conjunto de datos en el que cada tipo de material estuviera etiquetado de forma independiente», dice Sharma.
Utilizando un conjunto de datos sintéticos, entrenaron un modelo de aprendizaje automático para la tarea de identificar materiales similares en imágenes reales, pero falló. Los investigadores se dieron cuenta de que la causa era un cambio en la distribución. Esto ocurre cuando un modelo se entrena con datos sintéticos, pero falla cuando se prueba con datos reales, que pueden diferir mucho del conjunto de entrenamiento.
Para resolver este problema, construyeron su modelo sobre un modelo de visión por computadora previamente entrenado que había visto millones de imágenes reales. Aprovecharon el conocimiento previo de este modelo utilizando las características visuales que ya habían aprendido.
“Cuando se utiliza una red neuronal en el aprendizaje automático, normalmente se trata de aprender la representación y el proceso de resolución de la tarea juntos. Eso lo desentrañamos. El modelo previamente entrenado nos da la representación, luego nuestra red neuronal simplemente se concentra en resolver la tarea”, dice.
Busque similitud
El modelo de los investigadores convierte las características visuales genéricas previamente entrenadas en características específicas del material de una manera que sea resistente a las formas de los objetos o a las diferentes condiciones de iluminación.
Luego, el modelo puede calcular un valor de similitud material para cada píxel de la imagen. Cuando un usuario hace clic en un píxel, el modelo determina qué tan cerca están visualmente cada dos píxeles de la consulta de búsqueda. Se crea un mapa en el que cada píxel se clasifica en términos de similitud en una escala de 0 a 1.
«El usuario simplemente hace clic en un píxel y luego el modelo selecciona automáticamente todas las regiones que tienen el mismo material», afirma.
Debido a que el modelo genera una puntuación de similitud para cada píxel, el usuario puede refinar los resultados estableciendo un umbral, como 90 por ciento de similitud, y obtener un mapa de la imagen con las regiones resaltadas. El método también funciona para la selección entre imágenes: el usuario puede seleccionar un píxel en una imagen y encontrar el mismo material en una imagen separada.
En experimentos, los investigadores descubrieron que su modelo era capaz de predecir con mayor precisión regiones de una imagen que contenían el mismo material que otros métodos. Cuando midieron qué tan buena era la predicción en comparación con la línea de base, que son las áreas reales de la imagen que están hechas del mismo material, su modelo coincidió con una precisión de aproximadamente el 92 por ciento.
En el futuro, quieren mejorar el modelo para que pueda capturar mejor los detalles finos de los objetos en una imagen, lo que aumentaría la precisión de su enfoque.
“Los materiales ricos contribuyen a la funcionalidad y la belleza del mundo en el que vivimos. Sin embargo, los algoritmos de visión por computadora normalmente pasan por alto los materiales y, en cambio, se centran principalmente en los objetos. «Este trabajo supone una importante contribución a la detección de materiales en imágenes y vídeos en una amplia gama de condiciones exigentes», afirma Kavita Bala, decana de la Facultad de Computación y Ciencias de la Información de Cornell Bowers y profesora de informática, que no participó en el estudio. este trabajo. “Esta tecnología puede resultar muy útil tanto para los usuarios finales como para los diseñadores. Por ejemplo, un propietario puede visualizar lo costosas que pueden ser decisiones como volver a tapizar un sofá o reemplazar la alfombra en una habitación, y puede utilizar estas visualizaciones para sentirse más seguro en sus decisiones de diseño”.
[ad_2]