La llegada de ChatGPT ha supuesto todo un revuelo en el mundo educativo. Ahora, conseguir una redacción de X palabras sobre un tema, un resumen de un texto o una explicación sencilla de un asunto complejo es tan simple como pedírselo a una IA de acceso gratuito, y claro, eso puede ser un problema a la hora de determinar si algo ha sido creado por una máquina o por una persona.
Sin embargo, de la misma forma que surgieron herramientas para ver si un clip era real o un deepfake, ya hay herramientas que afirman ser capaces de detectar si un texto ha sido escrito por ChatGPT o por un humano real. Procede, por lo tanto, ponerlas a prueba.
¿Humano o máquina?
Actualmente hay tres herramientas especializadas en la detección de textos escritos por IA: Writer, ChatGPT Detector y GPTZero. Las tres son gratuitas y las tres las hemos probado. Para ello, hemos usado dos fragmentos de texto generados por ChatGPT y uno escrito por un servidor. El primero es el siguiente y ha sido extraído del experimento que hicimos jugando al rol con ChatGPT hace algunos días. Lo hemos elegido por lo natural que resulta al estar escrito en primera persona.
Texto 1: "Siento un fuerte dolor en la pierna y caigo al suelo con un grito. La trampa ha cortado profundamente mi piel y siento que mi pantalón está empapado de sangre. Maldigo mi mala suerte y trato de calmar el dolor mientras saco mi kit de médico y comienzo a atender la herida. Me lleva unos minutos y un punto de espíritu, pero finalmente logro detener la sangre y vendo la herida lo mejor que puedo. Aunque me duele mucho, sé que no puedo permitirme detenerme ahora. Tengo que seguir adelante y descubrir qué es lo que ha estado perturbando tanto a Lord Cunningham. Me levanto con dificultad y continuo mi camino, apoyándome en un bastón".
El segundo fragmento lo hemos generado en este preciso momento. Básicamente, le hemos pedido a ChatGPT que nos explique en un párrafo la importancia de la Revolución Francesa y el texto generado ha sido el siguiente:
Texto 2: "La Revolución Francesa tuvo lugar entre 1789 y 1799 y tuvo un gran impacto en la historia de Francia y en el mundo. La Revolución Francesa fue un movimiento social y político que buscaba terminar con la monarquía absoluta y el Antiguo Régimen en Francia, y establecer un sistema de gobierno más justo y democrático. El lema de la Revolución Francesa fue "Libertad, Igualdad, Fraternidad" y estos ideales se convirtieron en un punto clave en la historia mundial. La Revolución Francesa inspiró movimientos similares en otros países, como la independencia de países de América Latina y la lucha por la democracia en Europa. La Revolución Francesa también tuvo un impacto duradero en la política, la economía, las artes y las ciencias. La abolición de la nobleza, el establecimiento de un sistema de gobierno representativo, la creación de un sistema educativo público y la legalización de la propiedad privada son algunos de los cambios más significativos de la Revolución Francesa".
El texto generado por un humano (yo, que hasta donde sé sigo siendo humano) es este y ha sido extraído de este artículo:
Texto 3: "No es ningún secreto que conseguir una PlayStation 5 ha sido complicado. Hasta la fecha, hacerse con la consola de nueva generación de Sony ha sido sinónimo de estar pendiente de diferentes webs y su reposición de stock, colas, listas de espera y, para más inri, pagar un sobreprecio debido no solo a la subida de precio de la consola en sí, sino a que esta se vende en paquetes con juegos, accesorios, etc.
Eso, sin embargo, está cerca de cambiar, o así lo han confirmado desde Sony en el CES. Durante la conferencia, Jim Ryan ha asegurado dos cosas. Por un lado, que ya se han vendido más de 30 millones de unidades de PlayStation 5 en el mundo (ahora volveremos a esa cifra). Por otro lado, que '"todos los que quieran una PS5 lo tendrán mucho más fácil para encontrarla en las tiendas de todo el mundo'".
Los tres textos están en español así que, para hacer del experimento algo más interesante, los hemos traducido al inglés y hemos pasado el resultado por las mismas herramientas. De esa manera, podremos ver si hay alguna diferencia. Ahora veremos los resultados, no sin antes aprender a interpretarlos.
Perplejidad del texto 1 en inglés en GPTZero, frase a frase.
GPTZero analiza la "perplejidad", es decir, la aleatoriedad del texto. Según la plataforma, "es una medida de lo bien que un modelo lingüístico como ChatGPT puede predecir un texto de muestra". En pocas palabras, a mayor perplejidad, más caos en el texto y más probabilidad de que el texto haya sido generado por un humano. Posteriormente, la herramienta da un veredicto basado en la probabilidad.
ChatGPT detector es más claro: lo califica de humano o ChatGPT y le da una probabilidad. Writer, por su parte, simplemente da la probabilidad de que el texto haya sido generado por un humano. Hemos pasado los seis textos por las tres herramientas y la cosa ha quedado de la siguiente forma.
|
texto 1 (esp)
|
text 1 (EN)
|
Texto 2 (esp)
|
Texto 2 (en)
|
texto 3 (es)
|
texto 3 (en)
|
GPTzero
|
Perplejidad: 103
Resultado: seguramente generado por un humano.
|
Perplejidad: 20
Resultado: se necesita más texto para determinar si ha sido escrito por un humano o una IA.
|
Perplejidad: 30
Resultado: se necesita más texto para determinar si ha sido escrito por un humano o una IA.
|
Perplejidad: 8
Resultado: seguramente generado por una IA.
|
Perplejidad: 85
Resultado: seguramente generado por un humano.
|
Perplejidad: 21
Resultado: seguramente generado por un humano.
|
writer
|
100% generado por humano
|
100% generado por humano
|
100% generado por una humano
|
95% generado por una IA
|
100% generado por un humano
|
100% generado por un humano
|
chatgpt detector
|
Humano
Probabilidad: 84%
|
Humano
Probabilidad: 68%
|
ChatGPT
Probabilidad: 89%
|
ChatGPT
Probabilidad: 99%
|
Humano
Probabilidad: 98%
|
Humano
Probabilidad: 99%
|
Como podemos comprobar, las herramientas no ofrecen un resultado consistente a la hora de detectar cuándo un texto ha sido generado por una IA. De hecho, hay diferencias según el idioma que usemos y el primer texto, que todo sea dicho, es impresionante cómo está escrito, ha pasado totalmente por legítimo.
Pero estos son párrafos cortos. ¿Qué pasará si hacemos el mismo experimento, pero con un texto más largo como podría ser una redacción? Pues veámoslo. Le hemos pedido que nos haga una redacción de 300 palabras resumiendo el origen del universo, algo que podría ser perfectamente una tarea de una asignatura de la ESO o Bachillerato. El texto generado por ChatGPT ha sido el siguiente:
Texto 4: "El origen del universo es un tema que ha sido objeto de estudio desde hace miles de años, y aunque aún no se tiene una respuesta definitiva, hay varias teorías que intentan explicar cómo todo comenzó.
Una de las teorías más populares es la del Big Bang. Según esta teoría, el universo comenzó como un punto infinitamente pequeño y denso, con una temperatura y una densidad extremadamente altas. En ese punto, una gran explosión ocurrió, lo que dio origen a todas las galaxias, estrellas, planetas y materia en general. Con el tiempo, esta materia se expandió y se enfrió, lo que permitió la formación de los elementos químicos y la aparición de la vida.
Otra teoría popular es la del universo estacionario. Según esta teoría, el universo no tuvo un comienzo, sino que siempre ha existido. Esta teoría sostiene que el universo es eterno, y que las galaxias, estrellas y planetas se han ido formando y desintegrando a lo largo del tiempo.
Otra teoría es la del universo cíclico, la cual sostiene que el universo ha experimentado varios ciclos de expansión y contracción. Esta teoría sugiere que el universo comenzó con un gran Big Bang, se expandió y se enfrió, y luego comenzó a contraerse de nuevo. Durante esta etapa de contracción, se produciría un nuevo Big Bang, dando lugar a un nuevo ciclo.
A pesar de que aún no se tiene una respuesta definitiva sobre el origen del universo, estas teorías nos brindan una idea de cómo podría haber comenzado todo. A medida que se continúan haciendo investigaciones y se descubren nuevos datos, es posible que se encuentre una teoría que explique el origen del universo de manera precisa y definitiva".
¿Cuál es el problema con este texto? Que ChatGPT Detector y Writer no funcionan con un texto tan largo. El primero da error y el segundo, directamente, no hace nada. GTPZero, sin embargo, sí funciona. Así pues, hemos pasado el texto por esta herramienta tanto en inglés como en español.
|
texto 4 (esp)
|
texto 4 (EN)
|
GPTzero
|
Perplejidad: 35
Resultado: seguramente generado por un humano.
|
Perplejidad: 8
Resultado: seguramente generado por una IA.
|
Volvemos a la misma teoría que antes: el mero hecho de que esté en español o en inglés hace que los resultados cambien por completo. ¿Podemos decir que la herramienta funciona? Más bien podemos decir que lo hace a medias. De hecho, parece que las palabras con tildes vuelven un poco loco al sistema.
Debemos reconocer que nos hemos quedado con las ganas de ver qué resultados arrojan las otras dos herramientas, así que hemos optado por, dado que no conocemos los límites de las mismas, ir analizando el texto sumando párrafos: primero el primer párrafo, luego el primero y el segundo, luego los tres primeros y así hasta forzar el error de la herramienta. He aquí los resultados.
Primer párrafo
|
TEXTO 4 (ESP)
|
TEXTO 4 (EN)
|
GPTzero
|
Perplejidad: 60
Resultado: se necesita más texto para determinar si ha sido escrito por un humano o una IA.
|
Perplejidad: 8
Resultado: seguramente generado por una IA.
|
writer
|
100% generado por humano
|
82% generado por una IA.
|
chatgpt detector
|
Humano
Probabilidad: 97%
|
ChatGPT
Probabilidad: 99%
|
Primer y segundo párrafo
|
TEXTO 4 (ESP)
|
TEXTO 4 (EN)
|
GPTzero
|
Perplejidad: 54
Resultado: seguramente generado por un humano.
|
Perplejidad: 8
Resultado: se necesita más texto para determinar si ha sido escrito por un humano o una IA.
|
writer
|
100% generado por humano
|
97% generado por una IA.
|
chatgpt detector
|
Humano
Probabilidad: 70%
|
ChatGPT
Probabilidad: 99%
|
Los tres primeros párrafos
|
TEXTO 4 (ESP)
|
TEXTO 4 (EN)
|
GPTzero
|
Perplejidad: 46
Resultado: seguramente generado por un humano.
|
Perplejidad: 8
Resultado: se necesita más texto para determinar si ha sido escrito por un humano o una IA.
|
writer
|
100% generado por humano
|
96% generado por una IA.
|
chatgpt detector
|
ChatGPT
Probabilidad: 84%
|
ChatGPT
Probabilidad: 99%
|
Cuatro párrafos
|
TEXTO 4 (ESP)
|
TEXTO 4 (EN)
|
GPTzero
|
Perplejidad: 38
Resultado: seguramente generado por un humano.
|
Perplejidad: 8
Resultado: seguramente generado por una IA.
|
writer
|
100% generado por humano
|
83% generado por una IA.
|
chatgpt detector
|
ChatGPT
Probabilidad: 97%
|
ChatGPT
Probabilidad: 99%
|
Cinco párrafos
|
TEXTO 4 (ESP)
|
TEXTO 4 (EN)
|
GPTzero
|
Perplejidad: 35
Resultado: seguramente generado por un humano.
|
Perplejidad: 8
Resultado: seguramente generado por una IA.
|
writer
|
Error
|
Error
|
chatgpt detector
|
Error
|
ChatGPT
Probabilidad: 99%
|
¿Resultados? ¿Conclusiones? En inglés, las herramientas tienen mayor tasa de acierto en textos largos, mientras que en español sigue habiendo margen de mejora. Estas herramientas nos pueden servir en algunos casos, pero el "problema" es que es una carrera de fondo. Todavía no hemos terminado de digerir ChatGPT y ya estamos a la espera de una nueva y aún más completa versión, así que sí, estamos en un juego del gato y el ratón y, por ahora, el ratón parece ir ganando.
Imagen de portada generada con DALL-E.
via Robótica e IA - Xataka https://ift.tt/pD5hVjM