La pregunta correcta no es "cuál es mejor"

Toda semana un CTO me pregunta lo mismo: "¿vale la pena hacer fine-tuning de nuestro modelo?" La respuesta correcta casi siempre es otra pregunta — ¿con qué frecuencia cambian tus datos?

Si respondes "todos los días" (catálogo, precios, tickets, políticas internas), RAG es la opción obvia. Si respondes "raramente" (tono de voz de la marca, taxonomía interna estable, formato rígido de salida), fine-tuning compensa. Y si tienes ambos escenarios al mismo tiempo — lo que es el caso de empresas medianas brasileñas en producción — combinas los dos.

"Fine-tuning es como un tatuaje — bonito, duradero, pero doloroso de cambiar. RAG es como ponerse una camisa: la cambias según la temperatura."

— Principio que uso en todo onboarding técnico

Qué es RAG (Retrieval Augmented Generation)

Definición
RAG · Retrieval Augmented Generation
RAG es una arquitectura de IA que conecta un LLM a una base de conocimiento externa (vector store). En cada pregunta, el sistema busca los trechos más relevantes de la base y los entrega como contexto al modelo, que genera la respuesta con base en esos datos — sin necesidad de entrenarse de nuevo.

En la práctica, el pipeline RAG tiene tres etapas:

  1. Ingestión — tus documentos (Notion, PDFs, base de datos) se dividen en pedazos y se convierten a vectores (embeddings).
  2. Recuperación — cuando el usuario pregunta algo, la pregunta se vuelve un vector y busca los pedazos más similares en la base.
  3. Generación — el LLM recibe la pregunta + los trechos recuperados como contexto y produce la respuesta, citando las fuentes.

El gran triunfo es actualización instantánea: ¿editaste el documento en Notion? En segundos la IA ya responde con la nueva versión, sin reentrenar nada.

Qué es Fine-tuning

Definición
Fine-tuning · ajuste fino de modelo
Fine-tuning es el proceso de continuar el entrenamiento de un modelo pre-entrenado en un conjunto de datos específico de tu dominio. El resultado es un modelo cuyos pesos fueron ajustados para reflejar el estilo, el vocabulario y las reglas de tu negocio — incorporados dentro del propio modelo.

Existen variaciones con costo bien diferente:

  • Full fine-tuning — actualiza todos los 32B parámetros. Caro, lento, raramente justificado.
  • LoRA / QLoRA — adapta solo pequeñas matrices laterales. 10-100× más barato, sin perder calidad en el dominio.
  • Instruction tuning — enseña formato y estilo de respuesta a partir de ejemplos curados.

Para la mayoría de las empresas brasileñas, QLoRA es el punto de partida: corre en una única GPU A100, entrena en pocas horas y cabe en presupuesto de área de TI sin necesidad de convertirse en proyecto estrella.

Comparativa directa · 8 criterios que importan

RAG vs Fine-tuning · 8 criterios
Criterio RAG Fine-tuning (LoRA)
Actualización de conocimientoInstantánea (edita doc)Re-entrena modelo
Costo inicialBajo (vector DB + embeddings)Medio (GPU horas + curación)
Costo recurrenteEmbedding + storageSolo inferencia
Latencia adicional+200-500ms (retrieval)~0 (ya en el modelo)
Citación verificableSí (cita el trecho)No (peso opaco)
Conformidad LGPDDocumento auditableMás complejo (olvido)
Tono de voz / estiloLimitadoExcelente
Formato estructurado (JSON)Bueno con promptCasi perfecto
~10×
Costo menor (RAG vs full FT)
2-4h
Tiempo de iteración RAG
7-14d
Tiempo de iteración FT

La arquitectura híbrida · LoRA + RAG

En producción, la respuesta casi nunca es "o uno, u otro". La configuración predeterminada del MDA LLM es:

  1. QLoRA ligero sobre el Qwen 3.6 32B para incorporar el tono de voz de la marca, el vocabulario interno y el formato de salida esperado.
  2. RAG sobre vector store (Qdrant o pgvector) para los hechos volátiles — precios, políticas, historial de cliente, tickets.
  3. Guardrails vía LiteLLM para enmascarar PII y evitar drift de tema.

Resultado: respuestas que suenan como tu marca, con hechos actualizados en tiempo real y auditoría completa del trecho citado. Es lo que CIOs del sector financiero brasileño han elegido para desbloquear IA sin fricción legal.

Caso real · minorista mediano brasileño

Cliente: cadena minorista con 1.200 tiendas y 17 mil SKUs cambiando de precio diariamente. Inicio de 2025 probó fine-tuning mensual de un Llama 70B para el asistente de atención — gastó ~USD 18k/mes en GPU y aun así la IA respondía con precios del mes anterior.

Migró a la arquitectura híbrida del MDA LLM en febrero/2026:

  • QLoRA único (costo: ~USD 800 one-time) calibrando tono de la marca
  • RAG sobre catálogo + políticas (vector store actualiza cada sync de ERP, ~3min)
  • Guardrails Presidio para enmascarar CPF antes del prompt

En 90 días: costo mensual cayó a ~USD 2.4k (-87%), respuestas con precio correcto en 99.8% de los tickets, y el legal aprobó por primera vez (trazabilidad completa de citación).

"Lo que importa no es qué técnica uses — es si la arquitectura cabe en tu presupuesto, en el legal y en la velocidad del negocio."

Preguntas frecuentes

¿Qué es RAG (Retrieval Augmented Generation)?

RAG es una arquitectura que conecta un modelo de lenguaje a una base de conocimiento externa (vector store). En cada pregunta, el sistema busca los trechos más relevantes de la base y los entrega como contexto al LLM, que genera la respuesta con base en esos datos — sin necesidad de entrenarse de nuevo.

¿Qué es fine-tuning de un LLM?

Fine-tuning es el proceso de continuar el entrenamiento de un modelo pre-entrenado en un conjunto de datos específico de tu dominio. El resultado es un modelo cuyos pesos fueron ajustados para reflejar el estilo, el vocabulario y las reglas de tu negocio.

¿Cuándo usar RAG en lugar de fine-tuning?

Usa RAG cuando los datos cambian frecuentemente (políticas, precios, catálogo, tickets), cuando necesitas citación verificable, cuando el presupuesto de GPU es limitado, o cuando la LGPD requiere trazabilidad de la fuente. RAG es la opción predeterminada para 80% de los casos B2B brasileños.

¿Cuándo vale la pena la inversión en fine-tuning?

Fine-tuning vale cuando necesitas un tono de voz muy específico, formato estructurado de salida (JSON rígido), conocimiento estable que no cambia en 6+ meses, o latencia sub-200ms donde no puedes pagar el costo del retrieval.

¿Puedo combinar RAG y fine-tuning?

Sí, y es el enfoque más robusto para enterprise. Haz fine-tuning ligero (LoRA) para tono y formato, y usa RAG para hechos y conocimiento actualizado. Es la arquitectura estándar del MDA LLM en deployments empresariales.