Libros de Harry Potter tomados por Microsoft para encaminar al desarrollo ético
En un esfuerzo por abordar desafíos legales y éticos asociados con el uso de grandes modelos lingüísticos (LLM) en inteligencia artificial generativa, los investigadores de Microsoft, Mark Russinovich y Ronen Eldan, han desarrollado una innovadora técnica usando textos de Harry Potter.
Esta permite que los grandes modelos lingüísticos, como los utilizados en los chatbots de IA, olviden selectivamente información protegida por derechos de autor, como el contenido de los libros de Harry Potter.
"Creamos un modelo cuyo conocimiento del contenido desaprendido se refuerza mediante un mayor ajuste de los datos de destino (como Harry Potter) y vemos qué probabilidades de tókenes han aumentado significativamente. Es probable que se trate de tókenes relacionados con el contenido que queremos evitar generar", escribieron en su informe.
El estudio destaca que los grandes modelos lingüísticos, entrenados con vastos conjuntos de datos de Internet, a menudo contienen información sensible.
La nueva técnica permite entre uno de los casos que un modelo desarrollado por Meta "olvide" referencias directas a los libros de J.K. Rowling, incluyendo personajes y tramas, sin sacrificar su capacidad general de toma de decisiones y análisis.
La técnica se compone de tres pasos clave. Primero, se identifican los "tókenes" relevantes; luego, se reemplazan expresiones idiosincrásicas en los datos con contrapartes genéricas; y finalmente, se realiza un ajuste fino del modelo con estas etiquetas alternativas.
El enfoque principal en los libros de Harry Potter se debe a su relevancia en el procesamiento del lenguaje natural, donde proporciona abundancia de escenas, diálogos y momentos emocionales en la saga de libros del joven mago. Además, que la popularidad de la obra entre los investigadores más jóvenes facilita su elección como corpus de texto.
Esta investigación destaca un paso significativo hacia el desarrollo ético de inteligencia artificial, abordando preocupaciones legales y éticas asociadas con el contenido protegido por derechos de autor y otros datos sensibles presentes en los conjuntos de datos utilizados para entrenar modelos de IA generativos.
Apreciado lector, Alerta Tolima es el portal más leído del centro del país. Para recibir la mejor información de manera oportuna, estar al día en los acontecimientos que suceden en Ibagué, el Tolima, Colombia y el Mundo, haga clic en el siguiente link y únase a nuestro grupo de WhatsApp
Comente las noticias de nuestro Portal, escribanos sus denuncias, conviértase en nuestros ojos donde la noticia se esté desarrollando, escríbanos al WhatsApp a través de este link