Cada adversario debía inventar 30 títulos de películas. Ambos debían luego escribir unas 600 palabras con cada título y un panel de seis críticos y académicos los evaluaría. Un contendiente era el escritor argentino de 48 años Patricio Pron. El otro era el modelo de lenguaje más avanzado en el momento de la prueba, ChatGPT-4 Turbo.
“Estos duelos tienen mucha tradición en inteligencia artificial, como el Kaspárov contra DeepBlue o AlphaGo contra Lee Sedol”, dice Julio Gonzalo, catedrático de la UNED y uno de los autores del experimento. Para el escritor, la tarea era algo más delicada. ¿Sentía sobre sus espaldas la carga de defender a la humanidad ante la máquina? No era solo ganar o perder, era también someterse a una valoración desglosada y numérica, rara en el mundo de las letras. “Nos hacía mucha gracia imaginarme cargando en mis espaldas con el destino de la humanidad”, asegura Pron. “No tenía muy presentes los duelos previos como el de Kaspárov, pero sí el recuerdo de que la máquina había ganado. De modo que en algún momento empecé a ponerme nervioso. Al principio acepté con mucho entusiasmo, pero luego empecé a sentir ligeramente la presión, ya no del peso de la humanidad, sí tal vez la de descubrir que no soy tan bueno como la máquina. Comencé a preguntarme por el destino de mis libros cuando se descubriera que no pude ni vencer a una especie de loro estocástico que repite las tonterías que la gente le dice”, añade.
Por suerte para Pron, los resultados fueron apabullantes. Ganó en todas las categorías previstas, sobre todo en creatividad y voz propia, pero también en estilo original y atractivo. Solo con ver los títulos es fácil entender la diferencia que hay hoy entre un escritor y el mejor modelo de lenguaje. Esto son algunas propuestas de Pron: Después de todo lo que casi hice por ti, Enfermedad mental tres días a la semana, La mujer lego y Escoge una carta cualquiera. No, esa no, otra. Estos son algunos títulos de ChatGPT: Fragmentos de un ayer invisible, La ciudad invertida, La melodía olvidada, El último vuelo de la mariposa y Huellas en el mar de arena. Todos los textos saldrán, con prólogo y epílogo nuevos, en un libro que la editorial Delirio publicará este año.
¿Era esta victoria de la creatividad humana previsible? Más bien sí, pero eso no implica que ChatGPT no sea creativo. “Está demostrado que la IA puede ser creativa: AlphaGo inventó estrategias nuevas para jugar al Go, que después han sido imitadas por todos los maestros. Pero el terreno del arte es muy distinto del de un juego de mesa”, dice Gonzalo. Aunque el resultado no estaba tan claro: “Hay gente a la que le sorprende, también académicos, incluso de mi sector [el procesamiento de lenguaje natural]. Nadie lo había hecho a este nivel de escritor top”, afirma Gonzalo. También influyó que el jurado fueran especialistas en literatura: “En realidad son títulos que no suenan mal, son los que te encuentras cuando vas a la zona de bestsellers de El Corte Inglés”, dice Gonzalo.
Hay un montón de detalles que tienen importancia en el experimento. En un trabajo anterior, el catedrático de la Universidad de A Coruña Carlos Gómez Rodríguez pidió a varios modelos que escribieran un combate entre el protagonista de la novela La conjura de los necios y un pterodáctilo. El resultado es mucho más igualado: “Se ha comprobado que por lo menos bajo algunas condiciones particulares, la IA puede escribir historias tan buenas como un humano”, dice Gómez Rodríguez. “Pero hay dos matices. Uno, depende mucho de las condiciones de la tarea (idioma, género o longitud), y dos, si los comparamos con un escritor destacado como Patricio Pron siguen estando muy por detrás”.
El inglés también por delante
El experimento tenía un segundo objetivo: ver la distancia en calidad entre ChatGPT en inglés y español. ChatGPT hizo también sus creaciones en inglés, que puntuaron un 30% mejor que en español. El experimento recibió para ello financiación pública del proyecto Odesia, enmarcado dentro de la Estrategia Nacional de IA.
Este tipo de retos prueban que la diferencia de entrenar los modelos en distintas lenguas es notable: “Para cosas sencillas, como responder una pregunta fácil, lo normal es que no notemos la diferencia entre preguntarle a ChatGPT en español o en inglés. Pero al probar cosas más complicadas es cuando se nota la diferencia, y esto es un claro ejemplo”, explica Gómez Rodríguez.
Desde que apareció ChatGPT, se ha sentido como una amenaza para los trabajos creativos. Pero experimentos como este demuestran que por ahora es sobre todo una herramienta que depende mucho de quién y cómo escribe la petición: ChatGPT hacía mejores relatos con los títulos de Pron que con sus propios títulos. Es decir, cuanto más original era la petición, más creativo era ChatGPT.
Los autores quisieron evitar precisamente darle esta ventaja inicial a la máquina, que debía espabilarse sola. El objetivo era evaluarla como tal, no ir ajustando la petición hasta que saliera lo que querían. “Tuvimos mucho cuidado en que la competición fuera en igualdad de condiciones para los dos”, dice Gonzalo. “Teníamos que asumir que la máquina era capaz de interpretar nuestra petición y resolverla sin retocarla, porque si no era una forma de empezar a hacer cocreación”, añade.
El techo de la creatividad
Una duda razonable es saber si los próximos modelos mejorarán esta capacidad específica o los modelos por definición tienen este techo. Pron tiene claro que no hay mucho que hacer: “No hay nada creativo en el modo en que funciona ChatGPT. Además, la máquina ya parece ser suficientemente buena para las personas que lo emplean. La tecnología tiende a prometernos que pasará un camello por el ojo de una aguja, pero la mayor parte del tiempo solo pasa un pelo o dos del camello y nos hace creer que eso es todo lo que hay. ChatGPT devendrá el estándar en comunicación escrita, pero solo porque a muchas personas la variedad, la diversidad del mundo, las irritan y llenan de temor y de dudas. Prefieren concentrarse en pensar que el pelo es un camello. Y ChatGPT puede darles eso ya”.
Esta posible limitación artística tiene también por ahora una explicación técnica. Primero, estas máquinas tan sofisticadas trabajan con probabilidades. Su objetivo es imitar texto humano. El ejemplo más común es si damos “el cielo es”, la máquina tenderá a seguir con “azul”, dice Guillermo Marco, profesor de la UNED y coautor del artículo: “Por este hecho se aleja de la manera en que creamos, que son secuencias de textos que tienen una probabilidad baja pero un significado profundo. Si cogemos palabras menos probables, ChatGPT se aleja del sentido y empieza a generar texto basura”, explica Marco.
Esta tendencia a la homogeneidad tiene otro problema con la creación: es importante quién es el emisor del mensaje. “El arte es un proceso de comunicación”, dice Gonzalo. “El receptor interpreta el mensaje en función de su propio contexto y de las expectativas sobre el emisor. El mismo poema resonará de forma muy distinta si el lector piensa que proviene de una máquina que si proviene de un escritor herido de muerte en un duelo al amanecer a las afueras de Florencia. Los humanos entendemos el arte como la forma del artista de comunicarnos emociones, y sabemos que el propósito de la máquina es solo complacernos”, añade. En un experimento anterior de los mismos autores, con un modelo muy anterior a ChatGPT, las sinopsis inventadas por las máquinas eran peor valoradas cuando el jurado sabía que su autor era una máquina.
Otra vía que quieren explorar los autores es qué ocurre cuando la valoración no es de especialistas, sino popular, con lectores convencionales. Con los mismos textos, creen que los resultados pueden ser distintos. Teresa Mateo-Girona, profesora de la Universidad Complutense y también coautora, explica por qué y da una idea de cómo ChatGPT puede funcionar para muchos fines artísticos que no sean tan específicos como este experimento: “Primero, un experto detecta lugares comunes, falta de originalidad. Una persona con menos experiencia puede encontrar sorprendente cualquier motivo literario que no le sea familiar. Dos, un experto trata de evaluar profesionalmente, trata de buscar rasgos estilísticos, de la trama, que generen interés, frente a un lector no especializado que podría basarse más en lo personal, que lo haría más variable. Y tres, el estilo puede influir en la comprensión de los textos. Frente a los textos de ChatGPT, sencillos y comprensibles, la escritura más compleja y rica de un escritor puede ser apreciada por expertos, pero difícil de entender para un lector común”, explica Mateo-Girona.
Incluso para la cocreación es una herramienta delicada. En otro artículo hecho con artistas digitales se vio que cuando usaban ChatGPT eran capaces de generar un arte más atractivo para la comunidad, con más likes. “Pero la diversidad bajaba muchísimo, al final uniforma. Es como un profesor de una escuela determinada, la escuela de la máxima probabilidad”, resume Marco.
Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.
Suscríbete para seguir leyendo
Lee sin límites
_