Revelando Secretos Gubernamentales y Analizando Radiografías: Cómo Los Usuarios Aprovechan ChatGPT-V

Twitter está revolucionado con ejemplos de las nuevas habilidades visuales de GPT-4. Aquí tienes algunos de los mejores.

Por Jose Antonio Lanz

Oct 11, 2023

6 min lectura

Image created by Decrypt using AI

Add on Google

En Resumen

OpenAI presentó GPT-Vision (GPT-V) como la última maravilla de la IA multimodal.
Los usuarios pusieron a prueba las nuevas capacidades de GPT-V, desde descifrar documentos censurados hasta realizar análisis técnico.
GPT-V, también ofrece sugerencias de diseño de interiores y lecturas de radiografías e informes médicos.

Aunque la IA explotó a través de chatbots a veces inquietantemente inteligentes, las interacciones basadas en texto ya son anticuadas. OpenAI presentó GPT-Vision (GPT-V), la última actualización de GPT-4 y nueva maravilla de la IA multimodal.

El anuncio ahora se ha convertido en realidad, ya que los usuarios finalmente tienen la oportunidad de poner a prueba todo el potencial de sus habilidades.

Un modelo de lenguaje grande multimodal o multimodal large language model (LLM) significa que puede interactuar no solo con la palabra escrita, sino también a través de otros modos. En este caso, el nuevo GPT-V puede entender imágenes y trabajar con ellas. Además, gracias a la nueva herramienta de arte generativo DALL-E 3, ChatGPT puede tomar imágenes como entrada y también generar imágenes como salida.

Estas nuevas capacidades han llamado la atención en el espacio tecnológico a medida que los usuarios las ponen a prueba. ¿Pueden descifrar documentos gubernamentales censurados sobre avistamientos de OVNIs? Sí. "ChatGPT-4V Multimodal descifró un documento gubernamental censurado sobre un avistamiento de OVNIs publicado por la NASA", dice un tweet. "Tal vez la verdad no esté ahí fuera; sino aquí mismo en GPT-V".

ChatGPT-4V Multimodal decodes a Redacted government document on a UFO sighting released by NASA.

I have tested this on 100s of redacted documents and I can say we are in a new world. pic.twitter.com/aCKOm577TO

— Brian Roemmele (@BrianRoemmele) October 6, 2023

Tratar de llenar los vacíos en una cadena de texto es básicamente lo que hacen los LLM. El usuario hizo lo siguiente mejor al intentar probar las capacidades de GPT-V haciéndole adivinar partes de un texto que censuró. Obtuvo "Casi un 100% de precisión en el intento", informó.

Por supuesto, es difícil verificar si su suposición sobre lo que está oculto es precisa, no es como si pudiéramos preguntarle a la CIA qué tan bien se desempeñó al mirar a través de las líneas negras.

Aún más difícil que descubrir información que ha sido censurada por el gobierno es tratar de entender la letra críptica con la que escribe tu médico. Pero GPT-V puede descifrar todo tipo de garabatos. Con una solicitud educada, GPT-V puede dar sentido incluso a las notas de los médicos más indescifrables, asegurando que "tomar dos tabletas" no se convierta en "hornear gofres azules".

ChatGPT-4V Multimodal.

Prompt: “Please decode this document. Let’s think step-by-step. It is vital to be accurate. Thank you” pic.twitter.com/b7FPuPVRn9

— Brian Roemmele (@BrianRoemmele) October 6, 2023

Pero ten cuidado. A veces, incluso la IA más avanzada falla ante las manos de un médico experimentado, o artrítico, y puede que se necesite un experto para descifrar esos enigmas escritos.

Codeine 4 grains
ASA (Aspirin) 30 grains
Compound to VI (6) ounces

Take (illegible) every 4 hours as needed for (illegible - possible pain)

Dose of aspirin would seem low.

Sometimes it takes a pharmacist.

— Dr. Nefarious (@_DrNefarious) October 7, 2023

Y para aquellos que no confían en sus médicos, ChatGPT puede brindar una segunda opinión instantánea. El modelo puede entender radiografías y proporcionar análisis e información sobre casos médicos específicos.

Underrated use case of ChatGPT Vision.

It takes 13 years of training to be a radiologist.

Now instead of drafting a report from scratch, they probably just need to review AI's diagnosis. pic.twitter.com/IhQFe98m5q

— Peter Yang (@petergyang) October 2, 2023

Pero, ¿por qué quedarse solo en la caligrafía y los escaneos corporales? GPT-V se ha convertido en el último gurú del fitness en casa, creando planes de entrenamiento adaptados a tu equipo y objetivos en casa. Y si tienes curiosidad por saber cuántas calorías tiene esa comida que estás a punto de comer, GPT-V te respalda. Un usuario compartió con alegría: "OK ChatGPT 4.0 con nuevas funciones de visión... reconoce todo. Incluso una foca en la playa".

OK ChatGPT 4.0 with new vision features is pretty incredible.

Here I ask it how many calories are in the fish taco I just ate.

It is incredible to see how it recognizes everything. Even a seal on the beach. pic.twitter.com/rfIK5o9ODD

— Robert Scoble (@Scobleizer) October 5, 2023

¡Entusiastas del diseño de interiores, regocijaos! La IA ahora ofrece sugerencias de diseño y puede incorporar preferencias personales. Imagina una herramienta que te ayude a crear un espacio vital ideal para ti, sin los costosos honorarios de un diseñador. Solo toma una foto de tu horrible habitación y pregunta a GPT-V por sugerencias para convertirla en el paraíso que deseas.

Y si tienes problemas con las tareas, simplemente envia una captura de pantalla de la tarea y GPT-V asumirá el papel de ese compañero de clase servicial que siempre deseaste que se sentara a tu lado.

Kids will never do homework again. pic.twitter.com/rtjJT2xn9l

— Peter Yang (@petergyang) September 27, 2023

ChatGPT breaks down this diagram of a human cell for a 9th grader.

This is the future of education. pic.twitter.com/L0Za0ZB5rs

— Mckay Wrigley (@mckaywrigley) September 28, 2023

Y para los fanáticos de las finanzas, GPT-V no se trata solo de diversión y juegos. GPT-V puede adentrarse en el análisis técnico. Simplemente, ingresa una captura de pantalla de tu acción o criptomoneda favorita (o más odiada) y analizará tu gráfico y hará proyecciones en consecuencia. Solo recuerda que no es un consejo financiero, y si terminas pobre, ninguna IA te hará rico.

IT'S SO OVER FOR TA-OOOOORS

I gave GPT-V an image of my chart for $UBER with a bunch of indicators and it gave good long entries. Will test it out live.

Thread below! pic.twitter.com/k6Su9G0267

— Ropirito (0commoDTE) (@ropirito) October 11, 2023

El amanecer de los LLM multimodales está redefiniendo industrias. Con los titanes de la IA evolucionando, GPT-V es solo la punta del iceberg. Se rumorea que el próximo proyecto de Google, Gemini, superará a Bard con su destreza multimodal. NexT-GPT ofrece una alternativa de código abierto, y el futuro promete modelos entrenados para manejar palabras, sonidos, videos e imágenes.

Estos avances no son solo palabrería técnica, tienen implicaciones que podrían remodelar nuestras interacciones diarias, nuestras profesiones y tal vez incluso nuestra visión del mundo. Y aunque OpenAI es pionera con GPT-V, los competidores no se quedan atrás. ¿Podríamos estar al borde de un renacimiento de la IA?

Bueno, si todavía estás usando la IA solo para chatear, es posible que ya te estés quedando atrás. La IA ya puede leer y ver, y adquiere más capacidades cada día.

GPT-V también puede arruinar la diversión de un libro de "¿Dónde está Wally?". Pero, ¿por qué alguien querría esto? eso ya es territorio de ChaosGPT.

"I found him!" pic.twitter.com/LhMQ8e29x2

— Pietro Schirano (@skirano) September 29, 2023

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Coin Prices