A pergunta certa não é "qual é melhor"

Toda semana um CTO me pergunta a mesma coisa: "vale a pena fazer fine-tuning do nosso modelo?" A resposta correta quase sempre é outra pergunta — com que frequência seus dados mudam?

Se você responde "todo dia" (catálogo, preços, tickets, políticas internas), RAG é a escolha óbvia. Se você responde "raramente" (tom de voz da marca, taxonomia interna estável, formato rígido de saída), fine-tuning compensa. E se você tem os dois cenários ao mesmo tempo — o que é o caso de médias empresas brasileiras em produção — você combina os dois.

"Fine-tuning é como tatuagem — bonito, durável, mas doloroso de mudar. RAG é como vestir uma camisa: você troca conforme a temperatura."

— Princípio que adoto em todo onboarding técnico

O que é RAG (Retrieval Augmented Generation)

Definição
RAG · Retrieval Augmented Generation
RAG é uma arquitetura de IA que conecta um LLM a uma base de conhecimento externa (vector store). A cada pergunta, o sistema busca os trechos mais relevantes da base e os entrega como contexto para o modelo, que gera a resposta com base nesses dados — sem precisar ser treinado novamente.

Na prática, o pipeline RAG tem três etapas:

  1. Ingestão — seus documentos (Notion, PDFs, banco de dados) são divididos em pedaços e convertidos em vetores (embeddings).
  2. Recuperação — quando o usuário pergunta algo, a pergunta vira um vetor e busca-se os pedaços mais semelhantes na base.
  3. Geração — o LLM recebe a pergunta + os trechos recuperados como contexto e produz a resposta, citando as fontes.

O grande trunfo é atualização instantânea: editou o documento no Notion? Em segundos a IA já responde com a nova versão, sem retreinar nada.

O que é Fine-tuning

Definição
Fine-tuning · ajuste fino de modelo
Fine-tuning é o processo de continuar o treinamento de um modelo pré-treinado em um conjunto de dados específico do seu domínio. O resultado é um modelo cujos pesos foram ajustados para refletir o estilo, o vocabulário e as regras do seu negócio — incorporados dentro do próprio modelo.

Existem variações com custo bem diferente:

  • Full fine-tuning — atualiza todos os 32B parâmetros. Caro, lento, raramente justificado.
  • LoRA / QLoRA — adapta apenas pequenas matrizes laterais. 10-100× mais barato, sem perder qualidade no domínio.
  • Instruction tuning — ensina formato e estilo de resposta a partir de exemplos curados.

Para a maioria das empresas brasileiras, QLoRA é o ponto de partida: roda em uma única GPU A100, treina em poucas horas e cabe em orçamento de área de TI sem precisar virar projeto-bandeira.

Comparativo direto · 8 critérios que importam

RAG vs Fine-tuning · 8 critérios
Critério RAG Fine-tuning (LoRA)
Atualização de conhecimentoInstantânea (edita doc)Re-treina modelo
Custo inicialBaixo (vector DB + embeddings)Médio (GPU horas + curadoria)
Custo recorrenteEmbedding + storageApenas inferência
Latência adicional+200-500ms (retrieval)~0 (já no modelo)
Citação verificávelSim (cita o trecho)Não (peso opaco)
Conformidade LGPDDocumento auditávelMais complexo (esquecimento)
Tom de voz / estiloLimitadoExcelente
Formato estruturado (JSON)Bom com promptQuase perfeito
~10×
Custo menor (RAG vs full FT)
2-4h
Tempo de iteração RAG
7-14d
Tempo de iteração FT

A arquitetura híbrida · LoRA + RAG

Em produção, a resposta quase nunca é "ou um, ou outro". A configuração padrão do MDA LLM é:

  1. QLoRA leve sobre o Qwen 3.6 32B para incorporar o tom de voz da marca, o vocabulário interno e o formato de saída esperado.
  2. RAG sobre vector store (Qdrant ou pgvector) para os fatos voláteis — preços, políticas, histórico de cliente, tickets.
  3. Guardrails via LiteLLM para mascarar PII e evitar drift de tópico.

Resultado: respostas que soam como sua marca, com fatos atualizados em tempo real e auditoria completa do trecho citado. É o que CIOs do setor financeiro brasileiro têm escolhido para destravar IA sem fricção do jurídico.

Caso real · médio varejo brasileiro

Cliente: rede varejista com 1.200 lojas e 17 mil SKUs mudando de preço diariamente. Início de 2025 testou full fine-tuning mensal de um Llama 70B para o assistente de atendimento — gastou ~US$ 18k/mês em GPU e ainda assim a IA respondia com preços do mês anterior.

Migrou para a arquitetura híbrida do MDA LLM em fevereiro/2026:

  • QLoRA único (custo: ~US$ 800 one-time) calibrando tom da marca
  • RAG sobre catálogo + políticas (vector store atualiza a cada sync de ERP, ~3min)
  • Guardrails Presidio para mascarar CPF antes do prompt

Em 90 dias: custo mensal caiu para ~US$ 2.4k (-87%), respostas com preço correto em 99,8% dos tickets, e o jurídico aprovou pela primeira vez (rastreabilidade completa de citação).

"O que importa não é qual técnica você usa — é se a arquitetura cabe no orçamento, no jurídico e na velocidade do negócio."

Perguntas frequentes

O que é RAG (Retrieval Augmented Generation)?

RAG é uma arquitetura que conecta um modelo de linguagem a uma base de conhecimento externa (vector store). A cada pergunta, o sistema busca os trechos mais relevantes da base e os entrega como contexto para o LLM, que gera a resposta com base nesses dados — sem precisar ser treinado novamente.

O que é fine-tuning de um LLM?

Fine-tuning é o processo de continuar o treinamento de um modelo pré-treinado em um conjunto de dados específico do seu domínio. O resultado é um modelo cujos pesos foram ajustados para refletir o estilo, o vocabulário e as regras do seu negócio.

Quando usar RAG em vez de fine-tuning?

Use RAG quando os dados mudam com frequência (políticas, preços, catálogo, tickets), quando você precisa de citação verificável, quando o orçamento de GPU é apertado, ou quando a LGPD exige rastreabilidade da fonte. RAG é a escolha padrão para 80% dos casos B2B brasileiros.

Quando o fine-tuning vale o investimento?

Fine-tuning vale quando você precisa de um tom de voz muito específico, formato estruturado de saída (JSON rígido), conhecimento estável que não muda em 6+ meses, ou latência sub-200ms onde você não pode pagar o custo de retrieval.

Posso combinar RAG e fine-tuning?

Sim, e é a abordagem mais robusta para enterprise. Faça fine-tuning leve (LoRA) para tom e formato, e use RAG para fatos e conhecimento atualizado. É a arquitetura padrão do MDA LLM em deploys empresariais.