Interpretabilidad Mecanística en Grandes Modelos de Lenguaje
Resumen: Investigamos los mecanismos internos de grandes modelos de lenguaje a través del análisis de circuitos, revelando estructuras computacionales interpretables.
Introducción
A medida que los modelos de lenguaje crecen en tamaño y capacidad, comprender su funcionamiento interno se vuelve cada vez más crítico para:
- Seguridad y alineación
- Depuración y mejora
- Construcción de confianza en sistemas de IA
Metodología
Empleamos técnicas novedosas para mapear circuitos computacionales dentro de las capas del transformer:
- Análisis de cabezas de atención
- Descomposición del flujo residual
- Métodos de atribución de características
Hallazgos Clave
Nuestro análisis revela:
- Cabezas de atención especializadas para diferentes tareas lingüísticas
- Composición jerárquica de características a través de capas
- Motivos computacionales emergentes en modelos grandes
Implicaciones
Estos hallazgos sugieren que incluso modelos muy grandes desarrollan estructuras internas interpretables, proporcionando esperanza para soluciones de interpretabilidad escalables.