Atención al cliente / Preguntas y respuestas
Resúmenes, preguntas y respuestas breves, clasificación de tickets. Alto volumen de solicitudes, pero cada una compacta. Ideal para una gestión de niveles de servicio (SLM) optimizada.
Pagos en dólares, fluctuaciones cambiarias y tokens que disparan su factura a fin de mes. El costo de los LLM públicos puede hacer que escalar su operación de IA sea inviable. Descubra cuánto ahorra su empresa al ejecutar agentes en una nube privada con SLM optimizados.
Antes de calcular, es necesario comprender que las tareas de los agentes de automatización consumen exponencialmente más tokens que las tareas generales. Estas cifras varían según el tipo de uso.
Resúmenes, preguntas y respuestas breves, clasificación de tickets. Alto volumen de solicitudes, pero cada una compacta. Ideal para una gestión de niveles de servicio (SLM) optimizada.
Generación de código, ETL, consultas SQL, análisis de BI. Contexto técnico estructurado y respuestas con lógica de varios pasos.
Representación de desarrollo de software (SDR), BI conversacional, múltiples llamadas a herramientas con RAG y razonamiento de múltiples turnos. Cada paso del agente multiplica el consumo.
Ajusta los controles a continuación. Los costos, ahorros y gráficos se actualizan en tiempo real a medida que cambias el volumen y el nivel operativo.
Precio fijo por usuario/mes · GPU dedicada · vLLM · MDA LLM 2.1 (MoE FP8, 32 mil millones en total · 3,3 mil millones activos · 256 mil contextos) · centro de datos BR · SLA 99,5 %.
Precio = usuarios × precio/usuario/mes (con descuento lineal por volumen)
Lista (100 usuarios): Básico R$ 103 · Intermedio R$ 107 · Avanzado R$ 110
Mínimo (más de 500 usuarios): BRL 89 (~USD 17) en todos los niveles · el descuento se aplica linealmente entre 100 y 500 usuarios.
Incluye infraestructura GPU dedicada (80 Básico · 40 Intermedio · 15 Avanzado usuarios/GPU), operación, SLA y soporte. Operación comercial estándar (9 h × 22 días), política de uso justo.
Precios de vanguardia para empresas en 2026 · USD por millón de tokens · facturación basada en el uso real.
Tokens/mes = usuarios × solicitudes/día × tokens × 22 días hábiles
Costo = (entradas × $/1M_entradas + salidas × $/1M_salidas) × R$ 5/USD
o3 $20/$80 · Opus 4.7 $15/$75 · Gemini 2.5 Pro $2,50/$15 · Grok 4 $3/$15
Básico · 40 solicitudes · 200 de entrada / 300 de salida (Preguntas y respuestas · búsqueda)
Intermedio · 40 solicitudes · 2.500 de entrada / 1.200 de salida (BI · codificación)
Avanzado · 25 solicitudes · 12.000 de entrada / 2.500 de salida (agentes · multiherramienta)
Tipo de cambio R$ 5,00/USD · 22 días hábiles/mes · Precios oficiales de la API (mayo de 2026). MDA = precio fijo por usuario/mes con descuento lineal por volumen (de 100 a 500 usuarios).
| Modelo | Precio por millón de tokens | 100 usuarios | 200 usuarios | 500 usuarios |
|---|---|---|---|---|
| BásicoPreguntas y respuestas · búsqueda · resumen · 40 solicitudes/día · 200 de entrada / 300 de salida | ||||
OpenAI GPT-5.5 |
$5 de entrada · $30 de salida | R$ 4,4k | R$ 8,8k | R$ 22,0k |
Claude Opus 4.7 |
$5 de entrada · $25 de salida | R$ 3,7k | R$ 7,5k | R$ 18,7k |
Gemini 3.1 Pro |
$2 de entrada · $12 de salida | R$ 1,8k | R$ 3,5k | R$ 8,8k |
Grok 4 |
$3 de entrada · $15 de salida | R$ 2,2k | R$ 4,5k | R$ 11,2k |
MDA LLM Básico |
R$ 103/usuario → BRL 89 (~USD 17) (más de 500) | R$ 10,3k | R$ 19,9k | R$ 44,5k |
| IntermedioBI · codificación · agentes ligeros · 40 solicitudes/día · 2.500 de entrada / 1.200 de salida | ||||
OpenAI GPT-5.5 |
$5 de entrada · $30 de salida | R$ 21,3k | R$ 42,7k | R$ 107k |
Claude Opus 4.7 |
$5 de entrada · $25 de salida | R$ 18,7k | R$ 37,4k | R$ 93,5k |
Gemini 3.1 Pro |
$2 de entrada · $12 de salida | R$ 8,5k | R$ 17,1k | R$ 42,7k |
Grok 4 |
$3 de entrada · $15 de salida | R$ 11,2k | R$ 22,4k | R$ 56,1k |
MDA LLM Intermedio |
R$ 107/usuario → BRL 89 (~USD 17) (más de 500) | R$ 10,7k | R$ 20,5k | R$ 44,5k |
| Avanzadoagentes · multiherramienta · RAG · 25 solicitudes/día · 12.000 de entrada / 2.500 de salida | ||||
OpenAI GPT-5.5 |
$5 de entrada · $30 de salida | R$ 37,1k | R$ 74,3k | R$ 186k |
Claude Opus 4.7 |
$5 de entrada · $25 de salida | R$ 33,7k | R$ 67,4k | R$ 168k |
Gemini 3.1 Pro |
$2 de entrada · $12 de salida | R$ 14,9k | R$ 29,7k | R$ 74,3k |
Grok 4 |
$3 de entrada · $15 de salida | R$ 20,2k | R$ 40,4k | R$ 101k |
MDA LLM Avanzado |
R$ 110/usuario → BRL 89 (~USD 17) (más de 500) | R$ 11,0k | R$ 20,9k | R$ 44,5k |
Comparamos la latencia de modelos públicos (ruta predeterminada de EE. UU.) con nuestra infraestructura privada en un centro de datos en Brasil. Tiempo hasta el primer token (TTFT).
Los modelos tradicionales requieren clústeres muy costosos. La arquitectura MoE (Mixture of Experts) del MDA LLM 2.1 ocupa una fracción de la VRAM con la misma calidad — y aun así procesa 256 000 tokens de contexto.
Se acabaron las fluctuaciones cambiarias y las facturas en USD que se duplican a fin de mes. Usted paga en reales, con un costo fijo vinculado a su infraestructura. Previsibilidad presupuestaria absoluta.
Sus datos nunca salen de Brasil. Stack se ejecuta en una VPC privada (10.20.0.0/16) con proxies LiteLLM aislados y motores vLLM. Registros de auditoría inmutables, RBAC y cumplimiento normativo desde el diseño.
No utilizamos modelos genéricos gigantes para tareas específicas. Utilizamos la computación adecuada para cada problema, aplicando optimización y RAG con los datos de su empresa.
Pasar de LLM públicos a SLM privados requiere arquitectura, orquestación de datos y ajuste preciso de la cuantización. Si su equipo no tiene los recursos necesarios, la Consultoría MDA puede encargarse de ello.
Observa cómo el gasto operativo OPEX se transforma en CAPEX inteligente (capacidad privada).
No solo cambias de proveedor. Cambias el modelo económico de consumo de IA.
Agenda una demostración de 30 minutos. Verás el LLM MDA 2.1 funcionando en una instancia dedicada, con tus propios casos de uso y pruebas de rendimiento en tiempo real.