¿Es la inteligencia artificial generativa una “caja negra”?

La inteligencia Artificial generativa es una herramienta profundamente disruptiva para los profesionales del conocimiento. Para aprovecharla con éxito y criterio, merece la pena invertir tiempo en comprenderla más allá de su uso puramente instrumental.

Como expliqué en un artículo anterior sobre el funcionamiento de un LLM (Large Language Model o modelo extenso de lenguaje), sistemas como ChatGPT, Gemini, Copilot, DeepSeek o Claude son, en esencia, motores de procesamiento que predicen el siguiente token (la siguiente “pieza” de texto). Hasta ahí, el mecanismo general resulta razonablemente claro.

Sin embargo, al profundizar en la literatura técnica aparece una afirmación recurrente: los LLM son una caja negra. Algunos investigadores sostienen incluso que resulta imposible anticipar con precisión qué responderá el modelo ante una instrucción concreta.

¿Estamos ante una exageración mediática o hay fundamentos técnicos sólidos detrás de esta afirmación?

Qué significa “caja negra” en ingeniería

En ingeniería de sistemas, un entorno se considera una caja negra cuando:

Conocemos sus entradas y sus salidas.
Podemos describir qué tipo de función matemática implementa.
Pero no podemos explicar de manera trazable el proceso interno que conecta una entrada con una salida concreta.

Un LLM encaja a la perfección en esta definición. Aunque sepamos qué hace “en general”, resulta muy difícil explicar paso a paso y de forma intuitiva por qué, ante una petición específica, el modelo asigna más probabilidad a una palabra que a otra.

No todos los LLM son igual de transparentes

Aquí conviene matizar: existen distintos niveles de opacidad.

En los modelos open source u open weights se publica la arquitectura y los pesos neuronales (la fuerza de las conexiones internas), lo que permite que expertos externos puedan auditar, inspeccionar y reproducir parcialmente el comportamiento del sistema.
En la mayoría de los modelos comerciales, los pesos no se publican, los datos de entrenamiento y su mezcla exacta no se revelan, y la fase de postentrenamiento rara vez se documenta en detalle.

Dicho esto, incluso los modelos más abiertos siguen siendo, por definición, cajas negras. Veamos por qué.

Representaciones distribuidas: el conocimiento no está en reglas

Un error frecuente es imaginar que el modelo contiene directrices internas del tipo:

“Si el texto habla de invierno, la siguiente palabra probable es nieve.”

Ese tipo de representación simbólica no existe en forma de reglas explícitas y legibles dentro de un LLM.

El “conocimiento” del modelo base no se almacena en una base de datos interna estructurada (independientemente de que luego el producto final pueda conectarse a buscadores o sistemas RAG). En su lugar, la información está codificada en patrones numéricos distribuidos a lo largo de todo su espacio de parámetros.

En vez de imaginar una biblioteca con libros perfectamente ordenados, piensa en una enorme nube de asociaciones. Cada consulta activa múltiples zonas simultáneamente, y la respuesta emerge de la combinación matemática de todas ellas.

La arquitectura Transformer (la base de los LLMs actuales) opera mediante el encadenamiento de decenas o cientos de capas de funciones altamente no lineales. Esta estructura permite capturar matices lingüísticos asombrosos, pero a costa de sacrificar la interpretabilidad: para el cerebro humano, seguir el rastro de miles de millones de operaciones simultáneas es simplemente imposible.

Matemáticamente, la función global está perfectamente definida; a nivel cognitivo humano, resulta inabarcable. Incluso si conociéramos todos los parámetros exactos, el volumen de interacciones cruzadas hace prácticamente imposible reconstruir mentalmente el camino causal que lleva de un token de entrada a uno de salida.

No es que la función sea misteriosa, es que es extraordinariamente compleja. A día de hoy, carecemos de una teoría mecanicista exhaustiva que explique el comportamiento de un LLM gigante en su totalidad.

Alta sensibilidad al contexto

Otra característica clave es su extrema sensibilidad al contexto.

Pequeñas variaciones en el prompt (la instrucción del usuario) pueden alterar de forma sustancial:

Los patrones de atención de la red.
Las activaciones internas.
Y, en consecuencia, la distribución final de la probabilidad.

Por ejemplo, añadir la coletilla “Explícalo brevemente” frente a “Explícalo con rigor técnico” no solo cambia el estilo superficial del texto: reconfigura las conexiones internas de múltiples cabezas de atención y altera el recorrido de la información a través de las capas.

Desde fuera vemos únicamente la respuesta final. El proceso intermedio permanece opaco.

Por qué el mismo prompt no siempre devuelve la misma respuesta

Dado que un LLM implementa una función matemática, en teoría, si fijáramos todas las variables, el modelo produciría siempre la misma salida. Sin embargo, en la práctica el sistema suele introducir azar controlado durante la generación.

Cuando el modelo redacta texto, no "elige" una palabra con absoluta certeza, sino que calcula una distribución de probabilidad para el siguiente token. Existen dos formas principales de convertir esa probabilidad en una palabra concreta:

Decodificación determinista: Escoger siempre el token más probable (greedy) o el mejor conjunto estadístico (beam search).
Decodificación probabilística (muestreo): Elegir un token al azar, pero respetando los pesos de las probabilidades calculadas.

La gran mayoría de los asistentes conversacionales utilizan el muestreo. ¿El motivo? Mejora la naturalidad, permite variar el estilo, reduce las repeticiones robóticas y ayuda a explorar respuestas creativas. Al utilizar muestreo, es completamente normal que un mismo prompt genere respuestas distintas.

Además, en los productos comerciales (como ChatGPT o Gemini), hay capas adicionales que introducen variabilidad:

Instrucciones del sistema (system prompts) ocultas que cambian con cada actualización.
Filtros de seguridad que pueden desviar o reescribir una respuesta al vuelo.
Herramientas externas: Si el modelo consulta la web (RAG), la información recuperada puede cambiar de un día para otro.
Infraestructura: Pequeñas diferencias de procesamiento paralelo entre servidores pueden generar microvariaciones matemáticas que se amplifican token a token.

En un entorno conversacional, se prioriza la naturalidad frente a la reproducibilidad exacta.

La emergencia: comportamientos no programados

Al escalar drásticamente el número de parámetros y el volumen de datos, los modelos desarrollan capacidades para las que no fueron programados explícitamente. Por ejemplo:

Resolución aproximada de problemas aritméticos.
Traducción directa entre idiomas que no formaban parte de su entrenamiento principal.
Razonamiento analógico básico.

Este fenómeno se conoce como emergencia (emergent abilities). No significa que la IA haya desarrollado "comprensión" en un sentido humano, sino que la escala genera propiedades complejas que no se pueden deducir analizando sus componentes por separado.

La existencia de estos comportamientos emergentes hace aún más difícil anticipar cómo reaccionará el sistema ante instrucciones novedosas.

Conclusión: sí, un LLM es una “caja negra”

Con todo lo anterior sobre la mesa, podemos afirmar —de manera rigurosa y sin dramatismos— que un LLM es una caja negra. Y no por arte de magia, sino por dos motivos puramente técnicos:

Es inescrutable a nivel causal. Aunque entendamos su arquitectura, el "porqué" de una respuesta concreta depende de interacciones distribuidas entre miles de millones de parámetros. No hay reglas explícitas ni pasos interpretables.
Falta de acceso a la información clave. En la mayoría de los modelos comerciales, carecemos de las piezas necesarias para auditar su comportamiento (pesos, datos, recetas de entrenamiento). En estos casos, literalmente solo vemos las entradas y las salidas.

Esto explica por qué no podemos predecir de manera infalible qué responderá el modelo. Su función interna es colosal, no lineal, hipersensible al contexto y basa su conocimiento en un sistema distribuido.

La variación es una funcionalidad, no un fallo

En la práctica, la IA generativa optimiza la naturalidad, la fluidez y la creatividad. Que el modelo no responda siempre de la misma manera no indica que sea caótico; significa que está diseñado para elegir fluidamente entre varias continuaciones plausibles.

¿Supone un problema esta variación?

El hecho de que los LLM actuales no sean deterministas y cometan errores (alucinaciones) resulta inaceptable en ciertos escenarios críticos.

Podemos concluir que estos modelos "funcionan bastante bien" o, siendo precisos, que funcionan bien en promedio. Esto es fantástico para muchas tareas, pero insuficiente para otras.

Por ejemplo, es perfectamente válido usar un LLM para pulir este artículo: no es una tarea crítica y el resultado final se publica bajo mi supervisión y criterio humano. Pero hagámonos las siguientes preguntas:

¿Dejarías una decisión médica de vida o muerte en manos de un sistema que funciona bien “en promedio”?
¿Dejarías que pilotara un avión comercial un agente que funciona bien “en promedio”?
¿Permitirías que programara la seguridad de una central nuclear un asistente que funciona bien “en promedio”?

La respuesta es un rotundo no.

Por esta razón, la comunidad científica y técnica está invirtiendo enormes esfuerzos en entender, acotar y controlar el funcionamiento de estos modelos. El gran reto actual de la inteligencia artificial es la interpretabilidad: avanzar desde el "el modelo suele acertar" hacia el "sabemos exactamente cuándo acierta, cuándo falla, por qué lo hace y cómo garantizar su control".