Atendimento / Q&A
Resumos, perguntas e respostas curtas, classificação de tickets. Volume alto de requisições, mas cada uma compacta. Ideal para SLM otimizado.
Pagamentos em dólar, variação cambial e tokens que explodem a fatura no fim do mês. O custo de LLMs públicas pode inviabilizar a escala da sua operação de IA. Descubra quanto sua empresa economiza rodando agentes em um Cloud Privado com SLMs otimizados.
Antes de calcular, é preciso entender que trabalhos de agentes de automação consomem exponencialmente mais tokens que tarefas gerais. Esses números variam por tipo de uso.
Resumos, perguntas e respostas curtas, classificação de tickets. Volume alto de requisições, mas cada uma compacta. Ideal para SLM otimizado.
Geração de código, ETL, queries SQL, análises de BI. Contexto técnico estruturado e respostas com lógica multi-passo.
SDR, BI conversacional, tool-calls múltiplos com RAG e raciocínio multi-turn. Cada passo do agente multiplica o consumo.
Ajuste os controles abaixo. O custo, a economia e o gráfico atualizam em tempo real conforme você muda volume e tier de operação.
Preço fixo por usuário/mês · GPU dedicada · vLLM · MDA LLM 2.1 (MoE FP8, 32B totais · 3,3B ativos · 256k contexto) · datacenter BR · SLA 99,5%.
Preço = usuários × preço/usuário/mês (com desconto linear por volume)
Lista (100 usuários): Básico R$ 103 · Intermediário R$ 107 · Avançado R$ 110
Floor (500+ usuários): R$ 89 em todos os tiers · desconto interpola linearmente entre 100 e 500.
Inclui infraestrutura GPU dedicada (80 Básico · 40 Intermediário · 15 Avançado usuários/GPU), operação, SLA e suporte. Operação comercial padrão (9h × 22 dias), fair-use policy.
Preços enterprise frontier 2026 · USD por 1M tokens · cobrança por uso real.
Tokens/mês = usuários × req/dia × tokens × 22 dias úteis
Custo = (in × $/1M_in + out × $/1M_out) × R$ 5/USD
o3 $20/$80 · Opus 4.7 $15/$75 · Gemini 2.5 Pro $2,50/$15 · Grok 4 $3/$15
Básico · 40 req · 200 in / 300 out (Q&A · busca)
Intermediário · 40 req · 2.500 in / 1.200 out (BI · coding)
Avançado · 25 req · 12.000 in / 2.500 out (agentes · multi-tool)
Câmbio R$ 5,00/USD · 22 dias úteis/mês · Preços oficiais maio/2026 das APIs. MDA = preço fixo por usuário/mês com desconto linear por volume (100 → 500 usuários).
| Modelo | Preço / 1M tokens | 100 usuários | 200 usuários | 500 usuários |
|---|---|---|---|---|
| BásicoQ&A · busca · resumo · 40 req/dia · 200 in / 300 out | ||||
OpenAI GPT-5.5 |
$5 in · $30 out | R$ 4,4k | R$ 8,8k | R$ 22,0k |
Claude Opus 4.7 |
$5 in · $25 out | R$ 3,7k | R$ 7,5k | R$ 18,7k |
Gemini 3.1 Pro |
$2 in · $12 out | R$ 1,8k | R$ 3,5k | R$ 8,8k |
Grok 4 |
$3 in · $15 out | R$ 2,2k | R$ 4,5k | R$ 11,2k |
MDA LLM Básico |
R$ 103/usuário → R$ 89 (500+) | R$ 10,3k | R$ 19,9k | R$ 44,5k |
| IntermediárioBI · coding · agentes leves · 40 req/dia · 2.500 in / 1.200 out | ||||
OpenAI GPT-5.5 |
$5 in · $30 out | R$ 21,3k | R$ 42,7k | R$ 107k |
Claude Opus 4.7 |
$5 in · $25 out | R$ 18,7k | R$ 37,4k | R$ 93,5k |
Gemini 3.1 Pro |
$2 in · $12 out | R$ 8,5k | R$ 17,1k | R$ 42,7k |
Grok 4 |
$3 in · $15 out | R$ 11,2k | R$ 22,4k | R$ 56,1k |
MDA LLM Intermediário |
R$ 107/usuário → R$ 89 (500+) | R$ 10,7k | R$ 20,5k | R$ 44,5k |
| Avançadoagentes · multi-tool · RAG · 25 req/dia · 12.000 in / 2.500 out | ||||
OpenAI GPT-5.5 |
$5 in · $30 out | R$ 37,1k | R$ 74,3k | R$ 186k |
Claude Opus 4.7 |
$5 in · $25 out | R$ 33,7k | R$ 67,4k | R$ 168k |
Gemini 3.1 Pro |
$2 in · $12 out | R$ 14,9k | R$ 29,7k | R$ 74,3k |
Grok 4 |
$3 in · $15 out | R$ 20,2k | R$ 40,4k | R$ 101k |
MDA LLM Avançado |
R$ 110/usuário → R$ 89 (500+) | R$ 11,0k | R$ 20,9k | R$ 44,5k |
Comparamos a latência de modelos públicos (rota padrão EUA) vs nossa infraestrutura privada em datacenter no Brasil. Tempo até o primeiro token (TTFT).
Modelos tradicionais exigem clusters caríssimos. A arquitetura MoE (Mixture of Experts) do MDA LLM 2.1 ocupa uma fração da VRAM com a mesma qualidade — e ainda processa 256k tokens de contexto.
Fim da variação cambial e de contas em USD que dobram no fim do mês. Você paga em Reais, com custo fixo atrelado à sua infraestrutura. Previsibilidade orçamentária absoluta.
Seus dados nunca saem do Brasil. Stack roda em VPC privada (10.20.0.0/16) com proxies LiteLLM e engines vLLM isoladas. Audit logs imutáveis, RBAC, conformidade por design.
Não usamos modelos genéricos gigantes para tarefas específicas. Usamos a computação certa para o problema certo, aplicando fine-tuning e RAG com os dados da sua empresa.
Mudar de LLMs públicas para SLMs privados exige arquitetura, orquestração de dados e ajuste fino de quantização. Se seu time não tem bandwidth para isso, a Consultoria MDA faz por você.
Veja como o gasto de OPEX (operacional) se transforma em CAPEX inteligente (capacidade privada).
Você não está apenas trocando de fornecedor. Você está trocando o modelo econômico do consumo de IA.
Agende uma demonstração de 30 minutos. Você verá o LLM MDA 2.1 rodando em uma instância dedicada, com seus próprios casos de uso e benchmark ao vivo.