El ciberplagio en los tiempos de la IA
El año 2022 fue un gran año para la inteligencia artificial. Hemos sido testigos de increíbles avances en torno a la inteligencia artificial en todos los ámbitos.
Aunque los más sonados están en las que hacen procesamiento de imágenes, artísticas, como Dall-e (OpenAI) y Stable Diffusion (CreativeML), y las que trabajan sobre el procesamiento del lenguaje natural, es decir, que pueden procesar y generar textos, como GPT-3, de donde proviene la tan sonada ChatGPT (también de OpenAI), y donde podemos mencionar otra, más del mundo de la programación, llamada Copilot (Github), que ayuda a programar, sugiriendo código guiándose por descripciones en comentarios, o simplemente por iniciar la escritura de un instrucción.
Toda inteligencia artificial está relacionada con un origen de su conocimiento. Como explicamos en 4Geeks Academy, en nuestro curso Data Science y Machine Learning, donde hablamos de Inteligencia Artificial, se debe suministrar una o más fuentes de información para que la inteligencia artificial vaya aprendiendo y pueda generar su propia información. Sean bancos de datos, repositorios de código, libros, contenidos en internet… siempre tendrán una base en conjuntos de información preexistentes. Si esto es así, es natural que surja una duda: ¿hasta qué punto la información que nos provee es propia o es veraz? ¿Podríamos incurrir en un plagio al emplear una inteligencia artificial para desarrollar un contenido, un código, una imagen…?
*El ciberplagio es una forma de plagio que ocurre en el contexto de Internet y se refiere al acto de copiar o usar el trabajo de otra persona sin darle crédito o sin obtener permiso. El ciberplagio puede ser muy sutil y a menudo ocurre de manera accidental, pero también puede ser intencional y ser una forma de fraude o de robo de propiedad intelectual.
Un ejemplo común de ciberplagio es copiar y pegar el contenido de una página web o de un libro en un documento o en una presentación sin citar la fuente. También puede incluir el uso no autorizado de imágenes, música o cualquier otro tipo de contenido digital sin dar crédito al autor original.
El ciberplagio es un problema importante porque viola los derechos de autor y puede dañar la reputación y la carrera de una persona. Además, puede afectar negativamente a la calidad del trabajo y la honestidad académica.*
Guiándonos por lo anterior, el principal hecho en el ciberplagio es no atribuir la autoría de algo a quien le corresponde, pues al colocarlo en nuestra creación sin ningún tipo de referencia a la fuente original, se da a entender que ha sido producto de nuestra propia elaboración.
En el caso de Github Copilot, que ha sido hasta ahora la inteligencia artificial más polémica en cuanto a ciberplagio se refiere, el problema ha estado en que se alimenta de millones de líneas de código existentes en los servidores de Github, un gigante del almacenamiento de repositorios de códigos (proyectos de programación), principalmente de código abierto, pero que ha recibido denuncias por estar empleando código privativo, que no permite su utilización por terceros. Este y otros casos está aún en proceso de determinarse, ya que existen casos, como en el código, en el que la forma de escribir un contenido en concreto podría ser siempre la misma, por lo que sería difícil determinar que ha sido un caso de plagio y no de que no hay alternativa para escribirlo.
Antes de continuar… ¿Has notado que parte de este artículo se ha generado con una inteligencia artificial? He consultado sobre ciberplagio a la inteligencia artificial de OpenAI, ChatGPT (versión Dec 15, https://help.openai.com/en/articles/6825453-chatgpt-release-notes) y algunos párrafos que preceden a éste son su respuesta literal. Los he puesto entre marcas (*), por si no los habías detectado, y para no plagiar su respuesta.
Al llevar a cabo esta ocurrencia, me ha venido la idea de consultarle a ChatGPT si podría estar incurriendo en ciberplagio al darme una información en la que no cita fuentes. La inteligencia artificial me ha asegurado que toda la información proveída, si bien ha sido aprendida de otras informaciones, es de elaboración propia, justamente para evitar conflictos de derechos de autor. No significa que toda IA haga lo mismo o funcione de forma similar. De hecho, la propia web de OpenAI ChatGPT explica que esta inteligencia artifical está programada para no generar temas sobre violencia o sexo explícito o contenidos nocivos. Está entrenada para ser útil, veraz e inofensivo. Está sesgado para evitar la negatividad, lo que puede influir en el resultado. Es decir, el comportamiento de la IA estará manipulado y dependerá de las intenciones de quien la ha programado.
Volvamos a las inteligencias artificiales más generalistas como ChatGPT. El contenido de ChatGPT es identificable. De hecho, recientemente, se ha conocido que investigadores de Google y otras organizaciones trabajan en algoritmos que permitan detectar su contenido. Por otra parte, OpenAI también indica que ha desarrollado una “marca de agua” criptográfica que ayudará a detectar contenidos que sean creados a través de OpenAI. Esto reduciría el riesgo de que exista un plagio, al menos en cuanto a plagiar lo que haya escrito ChatGPT, aunque también permitiría demostrar que lo que se ha considerado un contenido plagiado, no ha sido escrito por la persona autora del texto, sino por la inteligencia artificial que ha utilizado como ayudante. ¿Digno de una trama de suspense, no?
Resumiendo, el ciberplagio es un problema grave que puede perjudicar al autor original y la integridad del trabajo académico, pero también puede afectar a la credibilidad de quien ha plagiado, sin importar que haya sido sin intención o con. Es importante ser conscientes de esto y tomar medidas para evitarlo. Para prevenir el ciberplagio podemos llevar a cabo medidas como asegurarnos de citar correctamente todas las fuentes de información y, si aplica, de obtener permiso de usarlas antes de usar contenido ajeno. También se pueden emplear herramientas de verificación de plagios, como pueden ser Turnitin o PlagScan, que permiten detectar contenido sospechoso de haber sido plagiado.
La inteligencia artificial nos plantea un nuevo reto en torno a este tema y, si bien no encuentro problema en apoyarse en las herramientas que surgen para facilitar nuestro trabajo, el problema de raíz sigue siendo el mismo: tenemos que tener mucho cuidado en la información que consultamos y en el uso que hacemos de ella. Procura siempre contrastar las informaciones con fuentes confiables y, por favor, dale el reconocimiento a quien lo merece. La honestidad y la humildad, tienen más valor que unos segundos de fama por adjudicarnos algo que no ha sido nuestro, y que posiblemente sea descubierto algún día.
Marco Gómez, director académico de 4Geeks