En Resumen
- OpenAI presentó GPT-Vision (GPT-V) como la última maravilla de la IA multimodal.
- Los usuarios pusieron a prueba las nuevas capacidades de GPT-V, desde descifrar documentos censurados hasta realizar análisis técnico.
- GPT-V, también ofrece sugerencias de diseño de interiores y lecturas de radiografías e informes médicos.
Aunque la IA explotó a través de chatbots a veces inquietantemente inteligentes, las interacciones basadas en texto ya son anticuadas. OpenAI presentó GPT-Vision (GPT-V), la última actualización de GPT-4 y nueva maravilla de la IA multimodal.
El anuncio ahora se ha convertido en realidad, ya que los usuarios finalmente tienen la oportunidad de poner a prueba todo el potencial de sus habilidades.
Un modelo de lenguaje grande multimodal o multimodal large language model (LLM) significa que puede interactuar no solo con la palabra escrita, sino también a través de otros modos. En este caso, el nuevo GPT-V puede entender imágenes y trabajar con ellas. Además, gracias a la nueva herramienta de arte generativo DALL-E 3, ChatGPT puede tomar imágenes como entrada y también generar imágenes como salida.
Estas nuevas capacidades han llamado la atención en el espacio tecnológico a medida que los usuarios las ponen a prueba. ¿Pueden descifrar documentos gubernamentales censurados sobre avistamientos de OVNIs? Sí. "ChatGPT-4V Multimodal descifró un documento gubernamental censurado sobre un avistamiento de OVNIs publicado por la NASA", dice un tweet. "Tal vez la verdad no esté ahí fuera; sino aquí mismo en GPT-V".
Tratar de llenar los vacíos en una cadena de texto es básicamente lo que hacen los LLM. El usuario hizo lo siguiente mejor al intentar probar las capacidades de GPT-V haciéndole adivinar partes de un texto que censuró. Obtuvo "Casi un 100% de precisión en el intento", informó.
Por supuesto, es difícil verificar si su suposición sobre lo que está oculto es precisa, no es como si pudiéramos preguntarle a la CIA qué tan bien se desempeñó al mirar a través de las líneas negras.
Aún más difícil que descubrir información que ha sido censurada por el gobierno es tratar de entender la letra críptica con la que escribe tu médico. Pero GPT-V puede descifrar todo tipo de garabatos. Con una solicitud educada, GPT-V puede dar sentido incluso a las notas de los médicos más indescifrables, asegurando que "tomar dos tabletas" no se convierta en "hornear gofres azules".
Pero ten cuidado. A veces, incluso la IA más avanzada falla ante las manos de un médico experimentado, o artrítico, y puede que se necesite un experto para descifrar esos enigmas escritos.
Y para aquellos que no confían en sus médicos, ChatGPT puede brindar una segunda opinión instantánea. El modelo puede entender radiografías y proporcionar análisis e información sobre casos médicos específicos.
Pero, ¿por qué quedarse solo en la caligrafía y los escaneos corporales? GPT-V se ha convertido en el último gurú del fitness en casa, creando planes de entrenamiento adaptados a tu equipo y objetivos en casa. Y si tienes curiosidad por saber cuántas calorías tiene esa comida que estás a punto de comer, GPT-V te respalda. Un usuario compartió con alegría: "OK ChatGPT 4.0 con nuevas funciones de visión... reconoce todo. Incluso una foca en la playa".
¡Entusiastas del diseño de interiores, regocijaos! La IA ahora ofrece sugerencias de diseño y puede incorporar preferencias personales. Imagina una herramienta que te ayude a crear un espacio vital ideal para ti, sin los costosos honorarios de un diseñador. Solo toma una foto de tu horrible habitación y pregunta a GPT-V por sugerencias para convertirla en el paraíso que deseas.
Y si tienes problemas con las tareas, simplemente envia una captura de pantalla de la tarea y GPT-V asumirá el papel de ese compañero de clase servicial que siempre deseaste que se sentara a tu lado.
Y para los fanáticos de las finanzas, GPT-V no se trata solo de diversión y juegos. GPT-V puede adentrarse en el análisis técnico. Simplemente, ingresa una captura de pantalla de tu acción o criptomoneda favorita (o más odiada) y analizará tu gráfico y hará proyecciones en consecuencia. Solo recuerda que no es un consejo financiero, y si terminas pobre, ninguna IA te hará rico.
El amanecer de los LLM multimodales está redefiniendo industrias. Con los titanes de la IA evolucionando, GPT-V es solo la punta del iceberg. Se rumorea que el próximo proyecto de Google, Gemini, superará a Bard con su destreza multimodal. NexT-GPT ofrece una alternativa de código abierto, y el futuro promete modelos entrenados para manejar palabras, sonidos, videos e imágenes.
Estos avances no son solo palabrería técnica, tienen implicaciones que podrían remodelar nuestras interacciones diarias, nuestras profesiones y tal vez incluso nuestra visión del mundo. Y aunque OpenAI es pionera con GPT-V, los competidores no se quedan atrás. ¿Podríamos estar al borde de un renacimiento de la IA?
Bueno, si todavía estás usando la IA solo para chatear, es posible que ya te estés quedando atrás. La IA ya puede leer y ver, y adquiere más capacidades cada día.
GPT-V también puede arruinar la diversión de un libro de "¿Dónde está Wally?". Pero, ¿por qué alguien querría esto? eso ya es territorio de ChaosGPT.
Generally Intelligent Newsletter
A weekly AI journey narrated by Gen, a generative AI model.