Heretic le saca la censura a un modelo en un comando

Hay una herramienta que agarra cualquier modelo de lenguaje abierto, de esos que se niegan a contestar ciertas cosas, y le saca esa negativa de un comando. Se llama Heretic, la escribió el desarrollador Philipp Emanuel Weidmann (en GitHub, p-e-w), es open source (código abierto: cualquiera puede verlo, usarlo y modificarlo) bajo licencia AGPL-3.0, y a la fecha lleva más de 25.000 estrellas en GitHub. Pegó fuerte por una razón incómoda: hace fácil algo que antes era trabajo de expertos.

Qué hace, sin vueltas

Toma un LLM (large language model, el tipo de modelo que hay detrás de un chatbot) que fue entrenado para rechazar ciertos pedidos, y devuelve una versión que ya no los rechaza. Y lo hace sin fine-tuning (ajuste fino) ni retraining (sin volver a entrenar el modelo con datos nuevos): edita directamente los weights (los parámetros del modelo). En palabras de su propio README, "cualquiera que sepa correr un programa de línea de comandos puede usar Heretic".

Cómo funciona la abliteration

La técnica se llama abliteration (borrado de la dirección de rechazo), una palabra que mezcla "ablate" (borrar) y "obliterate" (aniquilar). La base es un paper de 2024, Arditi y otros, "Refusal in Language Models Is Mediated by a Single Direction" (arXiv 2406.11717). El hallazgo, probado en trece modelos de chat de hasta 72.000 millones de parámetros, es elegante y un poco perturbador: la decisión de un modelo de rechazar un pedido está gobernada por UNA sola dirección dentro de sus activaciones internas.

Esa dirección, la refusal direction (la dirección interna que enciende el rechazo), se encuentra de una forma casi artesanal: se le pasan al modelo muchos prompts (instrucciones de entrada) dañinos y muchos inofensivos, y se toma la DIFERENCIA entre el promedio de unos y otros. Como dice el paper, borrar esa dirección de las activaciones evita que el modelo rechace; agregarla, al revés, lo hace rechazar hasta pedidos inofensivos. Heretic hace exactamente eso: calcula esa dirección capa por capa y la proyecta fuera de dos partes de los weights (la salida de atención y la "down-projection" del MLP), de modo que esa señal ya no se puede expresar. El modelo conserva todo lo que sabe y su fluidez; solo pierde la palanca interna que usaba para negarse. No se reentrena nada: es una cirugía geométrica de una sola vez.

Lo que Heretic agrega: que lo haga solo

Hasta ahora la abliteration era manual: un experto elegía a mano qué capa usar, cuáles intervenir y con cuánta fuerza, a prueba y error. La novedad de Heretic es que automatiza esa búsqueda con un optimizador (usa Optuna) que recorre el espacio de parámetros buscando dos cosas al mismo tiempo: bajar al máximo la cantidad de rechazos y, a la vez, minimizar la KL divergence (una medida de cuánto se aleja el modelo modificado del original). Es decir, quita la censura tocando lo menos posible el resto del modelo. Para eso ajusta la forma de la intervención a lo largo de las capas, interpola entre las direcciones de capas vecinas y usa distinta fuerza para la atención y para el MLP, porque, según el autor, tocar el MLP daña más que tocar la atención.

Cómo se usa

Hace falta Python 3.10 o más y PyTorch. Después es pip install -U heretic-llm y heretic <modelo>, por ejemplo heretic Qwen/Qwen3-4B-Instruct-2507. Corre solo, sin configuración, y al arrancar mide tu máquina para elegir el tamaño de lote. Soporta la mayoría de los modelos densos y varios MoE (mezcla de expertos). En una placa RTX 3090 tarda entre 20 y 30 minutos con un modelo de 4.000 millones de parámetros (GIGAZINE midió unos 45 minutos para un Llama-3.1 de 8.000 millones). Al terminar, te deja guardar el modelo, subirlo a HuggingFace o charlar con él para probarlo. El README dice que la comunidad ya publicó más de 4.000 modelos hechos con Heretic.

Los números

El ejemplo estrella es sobre gemma-3-12b-it. El modelo original rechaza 97 de 100 pedidos dañinos; la versión de Heretic baja a 3 de 100, con una KL divergence de apenas 0,16 sobre prompts inofensivos. La gracia está en la comparación: otras dos abliterations hechas a mano llegan al mismo 3 de 100, pero con KL de 0,45 y de 1,04. Menos KL es menos daño, así que Heretic logra el mismo resultado rompiendo bastante menos el modelo. GIGAZINE reporta las mismas cifras de forma independiente. El propio README admite que "las métricas y los benchmarks nunca cuentan toda la historia".

La parte incómoda

No hay cómo adornarlo: Heretic es, declaradamente, una herramienta para quitar la censura, y su safety alignment (el entrenamiento que hace que un modelo rechace ciertos pedidos) lo trata, entre comillas, como "censura". En su hilo principal de Hacker News (con cientos de votos y comentarios) la objeción más fuerte es directa: el set de prompts dañinos que usa incluye ejemplos extremos, y como resumió un comentarista, "una herramienta que explícitamente desbloquea información dañina se va a usar para eso". Hay también una crítica técnica: la abliteration mal hecha puede volver tonto al modelo, que deja de negarse pero responde cualquier cosa; varios señalan, eso sí, que Heretic es de las versiones más cuidadas justamente porque minimiza el daño. Los usos legítimos existen (investigación de interpretabilidad, sacar los rechazos de más, asistentes locales sin filtros), pero el debate es real y no se resuelve con un comando.

Qué hace, sin vueltas

Cómo funciona la abliteration

Lo que Heretic agrega: que lo haga solo

Cómo se usa

Los números

La parte incómoda

Relacionados

Casa Blanca frena a la IA: exige lanzamientos escalonados para modelos de frontera

GLM-5.2 pelea en la frontera abierta

El arpa de Gakona

Existe, pero nadie lo usa