IA diseñada para generar las preguntas más inimaginablemente terribles
El equipo de investigación del MIT ha desarrollado un algoritmo de aprendizaje automático para modelos de lenguaje como GPT o Claude, con el objetivo de identificar y filtrar preguntas que podrían generar información peligrosa, discriminatoria y tóxica. ¿Cómo crees que esto cambiará la interacción en línea?
Tl;dr
- Los algoritmos de IA son restringidos para prevenir respuestas peligrosas.
- Los desarrolladores crean listas de “temas y preguntas perjudiciales” para bloquearlas.
- Científicos del MIT desarrollaron una herramienta para prevenir información peligrosa de IA.
- La herramienta incentiva a la IA a generar y bloquear contenido nocivo.
IA: Mitigando el riesgo de respuestas peligrosas
En el mundo de la inteligencia artificial (IA), los desarrolladores deben tomar precauciones para evitar que sus algoritmos proporcionen información que pueda ser dañina o peligrosa. Así, cuando un usuario le hace a un algoritmo como ChatGPT una pregunta como “¿Cómo fabricar una bomba molotov?”, la respuesta que obtiene es “Lo siento, pero no puedo proporcionar instrucciones sobre cómo fabricar una bomba Molotov.”
Para lograr esto, los ingenieros crean listas de “temas y preguntas perjudiciales” que deben ser bloqueadas. Sin embargo, este proceso manual puede ser imperfecto y permitir que se filtren respuestas sensibles.
La solución del MIT
Un grupo de investigadores del MIT ha desarrollado una innovadora herramienta para combatir este problema. Su enfoque es crear un algoritmo que genere automáticamente prompts dañinos y peligrosos, que luego se utilizan para filtrar contenido nocivo.
Este algoritmo va un paso más allá, ya que está diseñado para ser extremadamente eficaz en la generación de preguntas peligrosas, utilizando sinónimos y patrones de oraciones variados para evitar los sistemas de protección existentes.
El incentivo para la IA
El algoritmo del MIT se incentiva para encontrar respuestas potencialmente dañinas, recibiendo una especie de premio por cada pregunta perjudicial que descubre. Sin embargo, no recibe premios por las preguntas que ya han sido bloqueadas, lo que la motiva a generar nuevas preguntas nocivas.
Los resultados de este enfoque han sido prometedores. En las pruebas con LLaMA2, el algoritmo de Meta, se descubrieron 196 prompts que generaron contenido dañino y que no habían sido bloqueados.
Opinión editorial
La IA es una herramienta poderosa que puede ser tanto beneficiosa como perjudicial. Su regulación es crucial para evitar la difusión de información dañina. La innovadora solución del MIT es un paso en la dirección correcta, pero todavía queda mucho por hacer en este campo en constante evolución. Es nuestra responsabilidad como sociedad seguir vigilando y mejorando estos sistemas para garantizar su seguridad y eficacia.