ChatGPT se acerca cada vez más a la paridad de funciones con el seductor asistente de inteligencia artificial de Her , gracias a una actualización que agrega reconocimiento de voz e imagen al chatbot.
OPEN.AI La compañía de inteligencia que lanzó ChatGPT en el mundo en noviembre pasado está haciendo que la aplicación de chatbot sea mucho más comunicativa.
Una actualización de las aplicaciones móviles ChatGPT para iOS y Android anunciada hoy permite a una persona expresar sus consultas al chatbot y escucharlo responder con su propia voz sintetizada.
La nueva versión de ChatGPT también agrega inteligencia visual: cargue o tome una foto desde ChatGPT y la aplicación responderá con una descripción de la imagen y ofrecerá más contexto, similar a la función Lens de Google.
Las nuevas capacidades de ChatGPT muestran que OpenAI está tratando sus modelos de inteligencia artificial, que han estado en desarrollo durante años, como productos con actualizaciones periódicas e iterativas. El éxito sorpresa de la compañía, ChatGPT, se parece más a una aplicación de consumo que compite con Siri de Apple o Alexa de Amazon.
Hacer que la aplicación ChatGPT sea más atractiva podría ayudar a OpenAI en su carrera contra otras empresas de IA, como Google, Anthropic, InflectionAI y Midjourney, al proporcionar una fuente más rica de datos de los usuarios para ayudar a entrenar sus potentes motores de IA.
Introducir datos de audio y visuales en los modelos de aprendizaje automático detrás de ChatGPT también puede ayudar a la visión a largo plazo de OpenAI de crear una inteligencia más parecida a la humana .
Los modelos de lenguaje de OpenAI que impulsan su chatbot, incluido el más reciente, GPT-4 , se crearon utilizando grandes cantidades de texto recopilado de diversas fuentes en la web. Muchos expertos en IA creen que, así como la inteligencia animal y humana utiliza varios tipos de datos sensoriales, la creación de una IA más avanzada puede requerir que los algoritmos alimenten información visual y auditiva, además de texto.
Se rumorea ampliamente que el próximo gran modelo de IA de Google, Gemini , será “multimodal”, lo que significa que podrá manejar algo más que texto, quizás permitiendo entradas de vídeo, imágenes y voz.
"Desde el punto de vista del rendimiento del modelo, intuitivamente esperaríamos que los modelos multimodales superaran a los modelos entrenados en una única modalidad", dice Trevor Darrell , profesor de UC Berkeley y cofundador de Prompt AI , una startup que trabaja en la combinación del lenguaje natural con la generación de imágenes y manipulación.
"Si construimos un modelo usando solo el lenguaje, no importa cuán poderoso sea, solo aprenderá el lenguaje".
La nueva tecnología de generación de voz de ChatGPT, desarrollada internamente por la empresa, también abre nuevas oportunidades para que la empresa conceda licencias de su tecnología a otros.
Spotify, por ejemplo, dice que ahora planea utilizar los algoritmos de síntesis de voz de OpenAI para probar una función que traduce podcasts a idiomas adicionales, en una imitación generada por IA de la voz del podcaster original.
La nueva versión de la aplicación ChatGPT tiene un ícono de auriculares en la parte superior derecha e íconos de fotografía y cámara en un menú desplegable en la parte inferior izquierda.
Estas funciones visuales y de voz funcionan convirtiendo la información de entrada en texto, utilizando reconocimiento de imagen o voz, para que el chatbot pueda generar una respuesta. Luego, la aplicación responde mediante voz o texto, según el modo en el que se encuentre el usuario.
Al preguntar al nuevo ChatGPT usando su voz si podía "escucharla", la aplicación respondió: "No puedo escucharte". pero puedo leer y responder tus mensajes de texto”, porque tu consulta de voz en realidad se procesa como texto. Responderá en una de las cinco voces, llamadas Juniper, Ember, Sky, Cove o Breeze.
Jim Glass , profesor del MIT que estudia la tecnología del habla, afirma que numerosos grupos académicos están probando actualmente interfaces de voz conectadas a grandes modelos de lenguaje, con resultados prometedores. "El habla es la forma más fácil que tenemos de generar lenguaje, por lo que es algo natural", afirma. Glass señala que si bien el reconocimiento de voz ha mejorado dramáticamente durante la última década, todavía falta en muchos idiomas.
Las nuevas funciones de ChatGPT están comenzando a implementarse hoy y estarán disponibles solo a través de la versión de suscripción de ChatGPT de $20 por mes. Estará disponible en cualquier mercado donde ChatGPT ya opere, pero para empezar estará limitado al idioma inglés.
Visión de máquina
En las primeras pruebas de WIRED, la función de búsqueda visual tenía algunas limitaciones obvias. Respondió: "Lo siento, no puedo ayudar con eso" cuando se le pidió que identificara a las personas en las imágenes, como una foto de la tarjeta de identificación con foto de Conde Nast de un escritor de WIRED.
En respuesta a una imagen de la portada del libro American Prometheus , que presenta una fotografía destacada del físico J. Robert Oppenheimer, ChatGPT ofreció una descripción del libro.
ChatGPT identificó correctamente un arce japonés basándose en una imagen, y cuando se le dio una foto de una ensaladera con un tenedor, la aplicación se centró en el tenedor y lo identificó de manera impresionante como una marca compostable.
También identificó correctamente una foto de un bolso como bolso de la revista New Yorker y agregó: “Dada su experiencia como periodista de tecnología y su ubicación en una ciudad como San Francisco, tiene sentido que posea artículos relacionados con publicaciones destacadas. "Eso se sintió como una quemadura leve, pero reflejó la configuración personalizada de la escritora dentro de la aplicación que identifica su profesión y ubicación en ChatGPT.
La función de voz de ChatGPT se retrasó, aunque se estaba probando una versión preliminar de la nueva aplicación. Después de enviar una consulta de voz, a veces ChatGPT tardaba varios segundos en responder de forma audible.
OpenAI describe esta nueva característica como conversacional, como un Asistente de Google de próxima generación o Amazon Alexa, en realidad, pero esta latencia no ayudó a defender el caso.
Traducido y Adaptado de WIRED