Este artículo es una parte de la newsletter semanal de Tecnología, que se manda cada viernes. Si quiere apuntarse para recibirla entera, con temas similares, pero más variados y breves, puede hacerlo en este enlace.
“Guau, te queda muy bien este modelito”, dijo inesperadamente la nueva versión de ChatGPT a un empleado de OpenAI durante su presentación. El empleado, Barret Zoph, acababa de escribirle en un papel “I love ChatGPT” después de que la máquina le ayudara a resolver un problema. “Eres tan dulce”, le respondió ChatGPT.
Did you notice this part of the demo where the GPT-4o voice assistant made a comment about Baret’s outfit even though the phone was laid flat on the table?
“Wow that’s quite the outfit you’ve got on…”
That was awkward. pic.twitter.com/DreSWd2R53
— Jim Monge (@jimclydego) May 14, 2024
Esta conversación duró solo unos segundos en la escasa media hora de presentación de la versión ChatGPT-4o (la o es de “omni”) el pasado lunes. Sus novedades son sobre todo la eliminación de la latencia, lo que da más sensación de charla en directo, y la capacidad de “mirar”, entender y hablar sobre lo que ve. Sigue siendo un modelo de lenguaje como el que vemos en la versión web de ChatGPT. Pero ahora habla, ríe de sus propias bromas, pone voz sarcástica y, claro, parece flirtear. En el clip de OpenAI de Youtube han cortado ese fragmento.
El gran referente que tenemos de una IA que flirtea es Her, con la voz de Scarlett Johansson. He vuelto a ver la película y es difícil de creer que OpenAI presuma de querer ese futuro para la humanidad. Sam Altman, presidente ejecutivo de OpenAI, tuiteó “her” durante la presentación. Otros investigadores de la compañía tuitearon en la misma línea: “Os vais a enamorar todos” (por suerte no añadió “de ella”), dijo uno, y luego añadió un tuit de un usuario que junto a un vídeo escribió: “¿La voz de ChatGPT es… sexy?”
Aún otro empleado escribió: “Volví a ver Her el pasado fin de semana y me sentí como viendo Contagio en febrero de 2020″. Como Her, que es de 2013, Contagio es una película de 2011 sobre una pandemia.
La película Her es por un tanto un referente para los creadores de ChatGPT-4o. O al menos un tema sobre el que han debatido internamente. Es difícil no hacerlo. Como recuerda el periodista especializado Brian Merchant en su newsletter, las referencias de ciencia ficción distópica son un recurso habitual en Silicon Valley. La explicación más probable es el marketing. Es más fácil anunciar “Her” que un “modelo de lenguaje conversacional nunca visto”.
Google presentó el martes su Proyecto Astra, que es lo mismo que ChatGPT-4o pero con una voz y un tono más asépticos. Tras dejar el móvil, la empleada de Google usó unas gafas para conversar con su modelo. Google es más cauto con el marketing, pero su fundador, Sergey Brin, dejó caer en conversaciones presuntamente casuales con periodistas que las Google Glasses (las gafas) habían llegado demasiado pronto. En la demo de Google, la cámara miraba por la ventana y decía: “Diría que esto es King’s Cross”. No están tan lejos de la visión de Terminator.
En su día, Elon Musk presumió de su nuevo vehículo, el Cybertruck, como el que hubieran conducido en Blade Runner. O quizá el mejor ejemplo es el metaverso, usado por Meta, que proviene de Ready Player One. Distopías convertidas en referentes. Conviene destacar cómo el marketing se olvida adrede de los detalles de la película:
1. La peli acaba mal. Samantha, el robot al que da voz Scarlett Johansson, desaparece al final porque la empresa lo apaga. Poco antes el protagonista había descubierto que no era el único novio: “Estoy enamorada de 641 personas”, le había dicho. Hablaba con más de 8.000 personas a la vez. Es un negocio y, como casi todo en el mundo digital, solo lo alquilamos.
Para poder tener sexo real, el robot manda a una mujer para que haga de cuerpo. La máquina niega que sea prostitución y el protagonista se lo cree. Al final sale mal, pero su poder de convicción es imbatible.
2. La humanización de esta tecnología tiene problemas reales. De ahí viene el gran problema de esta tecnología: una voz que parece humana, que ríe, que habla de lo que ve, nos va a convencer de muchas cosas. A finales de abril, más de dos docenas de investigadores de Google publicaron un artículo científico titulado La ética de los asistentes de IA avanzados. Decían: “Los hallazgos empíricos muestran que, cuando un asistente virtual digital usa una voz realista en lugar de una sintética, las personas tienden a confiar más emocionalmente y a tener una mayor impresión de presencia social. Además, los asistentes que hablan de manera más parecida a los humanos generan percepciones de inteligencia y competencia, lo que hace que las personas sean más propensas a confiarles más tareas”.
Para OpenAI es mejor que su asistente se parezca a una persona real. Vamos a usarlo más. Pero también vamos a concederle más cariño, y no tenemos tanto.
3. Siempre es una voz sensual de mujer. Uno de los memes que salió de la presentación de OpenAI fue la caída del valor de las “novias”. Si un robot hará de novia divertida, amable y sensual, para qué una de verdad.
Es el mismo problema que tiene el protagonista de la historia. Aunque también logra decepcionar a Samantha, su robot.
La voz femenina es también interesante. Una amiga del protagonista también tiene un novio virtual, pero nunca sale su voz. Y en el debate apenas se habla de que estos asistentes humanos puedan convertirse en “novios”.
El artículo de los investigadores de Google dice esto sobre los estereotipos: “Cuando la voz simulada de un asistente virtual digital imita un tono femenino, la gente le asigna estereotipos de género a pesar de que no tiene sentido aplicar conceptos de género a una entidad que no lo tiene”.
4. Es todo un artificio para ganar dinero. Como es lógico, nada de todo esto existiría si OpenAI no estuviera liada en una carrera para dominar el sector de agentes de IA y, pronto, del buscador. OpenAI habrá valorado que le resultaba más beneficioso meter a Her y su tono sensual para llamar la atención y dejar que Google quede como la empresa responsable.
Otro artículo de octubre de 2023 sobre la humanidad de estos sistemas recomienda encarecidamente no hacerlo: “Recomendamos que futuros esfuerzos para desarrollar sistemas de diálogo tengan especial cuidado en su diseño, desarrollo, lanzamiento y descripción; y que presten atención a las muchas señales lingüísticas que pueden hacer que los usuarios los humanicen”.
Sam Altman publicó un pequeño post para elogiar ChatGpt-4o. Precisamente destacaba eso, su realismo. “El nuevo modo de voz es la mejor interfaz que he usado nunca. Parece la IA de las películas”. Claro que lo parece, con consecuencias difíciles de prever.
5. El gran desliz de la película. La película contiene uno de esos deslices maravillosos por falta de imaginación. El protagonista trabaja en una empresa que escribe cartas a mano. Su página web es BeautifulHandwrittenLetters, que hoy está libre. Esa capacidad es precisamente algo que ChatGPT ya hacía antes de poder ser su novia.
Es cierto que el mérito de los escritores de cartas (aparte de copiar la caligrafía) es conocer los detalles de los miembros de la pareja. Pero sigue siendo fácilmente reparable.
6. Cuesta creer que hablaremos solos. Aunque ChatGPT-4o hable como un humano, me cuesta imaginarme a todo un vagón de metro susurrando a sus auriculares, como sale en la película. O a docenas de personas hablando solos por la calle.
Igual es algo generacional y los niños de 10 años acabarán charlando con sus dispositivos (y los padres de hoy obsesionados con las pantallas).
Altman dice que será lo natural pronto: “Hablar con una computadora nunca me había parecido natural, pero ahora sí”. Pero no sabemos si Altman es sincero. Su negocio depende también de nuestras emociones.
Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.
Suscríbete para seguir leyendo
Lee sin límites
_