A pergunta certa não é "qual é melhor"
Toda semana um CTO me pergunta a mesma coisa: "vale a pena fazer fine-tuning do nosso modelo?" A resposta correta quase sempre é outra pergunta — com que frequência seus dados mudam?
Se você responde "todo dia" (catálogo, preços, tickets, políticas internas), RAG é a escolha óbvia. Se você responde "raramente" (tom de voz da marca, taxonomia interna estável, formato rígido de saída), fine-tuning compensa. E se você tem os dois cenários ao mesmo tempo — o que é o caso de médias empresas brasileiras em produção — você combina os dois.
"Fine-tuning é como tatuagem — bonito, durável, mas doloroso de mudar. RAG é como vestir uma camisa: você troca conforme a temperatura."
— Princípio que adoto em todo onboarding técnicoO que é RAG (Retrieval Augmented Generation)
- RAG · Retrieval Augmented Generation
- RAG é uma arquitetura de IA que conecta um LLM a uma base de conhecimento externa (vector store). A cada pergunta, o sistema busca os trechos mais relevantes da base e os entrega como contexto para o modelo, que gera a resposta com base nesses dados — sem precisar ser treinado novamente.
Na prática, o pipeline RAG tem três etapas:
- Ingestão — seus documentos (Notion, PDFs, banco de dados) são divididos em pedaços e convertidos em vetores (embeddings).
- Recuperação — quando o usuário pergunta algo, a pergunta vira um vetor e busca-se os pedaços mais semelhantes na base.
- Geração — o LLM recebe a pergunta + os trechos recuperados como contexto e produz a resposta, citando as fontes.
O grande trunfo é atualização instantânea: editou o documento no Notion? Em segundos a IA já responde com a nova versão, sem retreinar nada.
O que é Fine-tuning
- Fine-tuning · ajuste fino de modelo
- Fine-tuning é o processo de continuar o treinamento de um modelo pré-treinado em um conjunto de dados específico do seu domínio. O resultado é um modelo cujos pesos foram ajustados para refletir o estilo, o vocabulário e as regras do seu negócio — incorporados dentro do próprio modelo.
Existem variações com custo bem diferente:
- Full fine-tuning — atualiza todos os 32B parâmetros. Caro, lento, raramente justificado.
- LoRA / QLoRA — adapta apenas pequenas matrizes laterais. 10-100× mais barato, sem perder qualidade no domínio.
- Instruction tuning — ensina formato e estilo de resposta a partir de exemplos curados.
Para a maioria das empresas brasileiras, QLoRA é o ponto de partida: roda em uma única GPU A100, treina em poucas horas e cabe em orçamento de área de TI sem precisar virar projeto-bandeira.
Comparativo direto · 8 critérios que importam
| Critério | RAG | Fine-tuning (LoRA) |
|---|---|---|
| Atualização de conhecimento | Instantânea (edita doc) | Re-treina modelo |
| Custo inicial | Baixo (vector DB + embeddings) | Médio (GPU horas + curadoria) |
| Custo recorrente | Embedding + storage | Apenas inferência |
| Latência adicional | +200-500ms (retrieval) | ~0 (já no modelo) |
| Citação verificável | Sim (cita o trecho) | Não (peso opaco) |
| Conformidade LGPD | Documento auditável | Mais complexo (esquecimento) |
| Tom de voz / estilo | Limitado | Excelente |
| Formato estruturado (JSON) | Bom com prompt | Quase perfeito |
A arquitetura híbrida · LoRA + RAG
Em produção, a resposta quase nunca é "ou um, ou outro". A configuração padrão do MDA LLM é:
- QLoRA leve sobre o Qwen 3.6 32B para incorporar o tom de voz da marca, o vocabulário interno e o formato de saída esperado.
- RAG sobre vector store (Qdrant ou pgvector) para os fatos voláteis — preços, políticas, histórico de cliente, tickets.
- Guardrails via LiteLLM para mascarar PII e evitar drift de tópico.
Resultado: respostas que soam como sua marca, com fatos atualizados em tempo real e auditoria completa do trecho citado. É o que CIOs do setor financeiro brasileiro têm escolhido para destravar IA sem fricção do jurídico.
Caso real · médio varejo brasileiro
Cliente: rede varejista com 1.200 lojas e 17 mil SKUs mudando de preço diariamente. Início de 2025 testou full fine-tuning mensal de um Llama 70B para o assistente de atendimento — gastou ~US$ 18k/mês em GPU e ainda assim a IA respondia com preços do mês anterior.
Migrou para a arquitetura híbrida do MDA LLM em fevereiro/2026:
- QLoRA único (custo: ~US$ 800 one-time) calibrando tom da marca
- RAG sobre catálogo + políticas (vector store atualiza a cada sync de ERP, ~3min)
- Guardrails Presidio para mascarar CPF antes do prompt
Em 90 dias: custo mensal caiu para ~US$ 2.4k (-87%), respostas com preço correto em 99,8% dos tickets, e o jurídico aprovou pela primeira vez (rastreabilidade completa de citação).
"O que importa não é qual técnica você usa — é se a arquitetura cabe no orçamento, no jurídico e na velocidade do negócio."
Perguntas frequentes
O que é RAG (Retrieval Augmented Generation)?
RAG é uma arquitetura que conecta um modelo de linguagem a uma base de conhecimento externa (vector store). A cada pergunta, o sistema busca os trechos mais relevantes da base e os entrega como contexto para o LLM, que gera a resposta com base nesses dados — sem precisar ser treinado novamente.
O que é fine-tuning de um LLM?
Fine-tuning é o processo de continuar o treinamento de um modelo pré-treinado em um conjunto de dados específico do seu domínio. O resultado é um modelo cujos pesos foram ajustados para refletir o estilo, o vocabulário e as regras do seu negócio.
Quando usar RAG em vez de fine-tuning?
Use RAG quando os dados mudam com frequência (políticas, preços, catálogo, tickets), quando você precisa de citação verificável, quando o orçamento de GPU é apertado, ou quando a LGPD exige rastreabilidade da fonte. RAG é a escolha padrão para 80% dos casos B2B brasileiros.
Quando o fine-tuning vale o investimento?
Fine-tuning vale quando você precisa de um tom de voz muito específico, formato estruturado de saída (JSON rígido), conhecimento estável que não muda em 6+ meses, ou latência sub-200ms onde você não pode pagar o custo de retrieval.
Posso combinar RAG e fine-tuning?
Sim, e é a abordagem mais robusta para enterprise. Faça fine-tuning leve (LoRA) para tom e formato, e use RAG para fatos e conhecimento atualizado. É a arquitetura padrão do MDA LLM em deploys empresariais.