[ad_1]
GPT-4 con Vision (GPT-4V) permite a los usuarios indicarle al GPT-4 que analice las entradas de imágenes proporcionadas por el usuario. Esta es la última característica que estamos poniendo a disposición de forma generalizada. Algunos consideran que la incorporación de modalidades adicionales (por ejemplo, entradas de imágenes) en grandes modelos de lenguaje (LLM) es un factor clave en la investigación y el desarrollo de la inteligencia artificial. Los LLM multimodales ofrecen la oportunidad de ampliar el impacto de los sistemas puramente basados en voz con interfaces y capacidades novedosas, permitiéndoles resolver nuevas tareas y ofrecer nuevas experiencias a sus usuarios. En este mapa del sistema, analizamos las propiedades de seguridad de GPT-4V. Nuestro trabajo sobre seguridad para GPT-4V se basa en el trabajo para GPT-4, y aquí profundizamos en las evaluaciones, preparativos y acciones de remediación realizadas específicamente para las entradas de imágenes.
[ad_2]