O que é o DeepSeek V4 de verdade
O DeepSeek V4 foi lançado em 24 de abril de 2026 pelo laboratório chinês DeepSeek, sediado em Hangzhou. É uma família de dois modelos de linguagem de grande escala (LLM): o V4-Pro, com 1,6 trilhão de parâmetros totais, e o V4-Flash, com 284 bilhões de parâmetros. Ambos rodam com arquitetura Mixture-of-Experts (MoE) — o que significa que, apesar do tamanho total imenso, apenas uma fração dos parâmetros é ativada em cada resposta. O V4-Pro ativa 49 bilhões de parâmetros por token; o Flash, apenas 13 bilhões.
IA que gera dinheiro — Grátis
Receba as melhores ferramentas de IA direto no seu e-mail, todo dia.
Sem spam. Cancele quando quiser.
O diferencial técnico mais relevante para quem paga por API é a janela de contexto padrão de 1 milhão de tokens — sem custo extra. Para efeito de comparação, um romance completo tem cerca de 100 mil tokens. Isso permite que o modelo analise contratos inteiros, bases de código extensas ou arquivos de dados históricos sem precisar fragmentar o conteúdo em pedaços menores. Segundo a DeepSeek, o V4-Pro precisa de apenas 27% dos FLOPs de inferência do modelo anterior (V3.2) para processar 1 milhão de tokens — o que reduz o custo de operação.
| Característica | Abordagem anterior (LLMs típicos até 2024) | DeepSeek V4 (abr. 2026) |
|---|---|---|
| Janela de contexto | 128K tokens (padrão) | 1M tokens (padrão, sem custo extra) |
| Arquitetura | Dense (todos os parâmetros ativos) | MoE (apenas fração ativada por token) |
| Multimodalidade | Alguns modelos com imagem + texto | Texto e raciocínio — sem multimodal completo público |
| Licença dos pesos | Proprietária na maioria dos casos | MIT License (open-weights no Hugging Face) |
| Hardware de treino | GPUs Nvidia H100 | Chips Huawei Ascend 950 + Cambricon |
O modelo também estreou com um detalhe geopolítico relevante: foi treinado inteiramente em chips domésticos chineses — processadores Huawei Ascend 950 e Cambricon — sem uso de GPUs Nvidia. Isso tem implicações para empresas que avaliam soberania tecnológica, mas também levanta questões sobre certificações de segurança que chips ocidentais acumularam ao longo de anos.
📎 Leitura relacionada
Comparativo: V4 vs GPT-5.5 vs Claude vs Gemini
Antes de qualquer tabela, um aviso que importa: benchmarks de IA são sempre medidas de laboratório. O desempenho real na sua tarefa específica — classificar e-mails de clientes, resumir contratos, responder via chatbot — pode ser diferente dos números abaixo. Use essa tabela como ponto de partida, não como veredicto final.
| Modelo | Nível técnico p/ integrar | Preço output (US$/1M tokens) | Preço output (R$/1M tokens)* | Contexto máx. | Multimodal | Open-source | Melhor para |
|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | Intermediário | US$ 0,28 | ~R$ 1,61 | 1M tokens | Não | Sim (MIT) | Volume alto, custo baixo, texto/código |
| DeepSeek V4 Pro (promo até 31/05) | Intermediário | US$ 0,87 | ~R$ 5,01 | 1M tokens | Não | Sim (MIT) | Raciocínio complexo, codificação avançada |
| DeepSeek V4 Pro (preço regular) | Intermediário | US$ 3,48 | ~R$ 20,01 | 1M tokens | Não | Sim (MIT) | Raciocínio complexo em produção |
| GPT-5.5 (OpenAI) | Baixo (ChatGPT) / Médio (API) | US$ 30,00 | ~R$ 172,50 | 128K tokens | Sim | Não | SaaS completo, multimodalidade, ecossistema |
| Claude Opus 4.7 (Anthropic) | Baixo (claude.ai) / Médio (API) | US$ 25,00 | ~R$ 143,75 | 200K tokens | Parcial | Não | Textos longos, análise jurídica, qualidade |
| Gemini 3.1 Pro (Google) | Baixo a Médio | Variável | Variável | 1M tokens | Sim | Não | Raciocínio multidisciplinar, integração Google |
*Cotação aproximada: US$ 1 = R$ 5,75 em 29/04/2026. Fontes: api-docs.deepseek.com (29/04/2026), openai.com/pricing, anthropic.com/pricing. Preços sujeitos a alteração.
Onde o V4-Pro realmente se destaca
Em codificação competitiva, o desempenho é genuinamente impressionante. O V4-Pro atingiu rating 3.206 no Codeforces — o mais alto já registrado por qualquer modelo. No SWE-bench Verified (tarefas reais de engenharia de software), marcou 80,6% — apenas 0,2 ponto percentual atrás do Claude Opus 4.6 (80,8%). No LiveCodeBench, chegou a 93,5%, superando todos os modelos com dados disponíveis. Para startups e PMEs que desenvolvem software, esse desempenho é uma vantagem concreta.
✅ Pontos fortes
- Custo por token muito abaixo dos concorrentes fechados
- Contexto de 1M tokens sem custo adicional
- Open-source MIT — pode rodar localmente
- Excelente em codificação e raciocínio matemático
- Compatível com API da OpenAI e da Anthropic (troca simples de modelo)
❌ Limitações reais
- Ainda em preview — sem versão final estabilizada
- Sem multimodalidade nativa completa (apenas texto)
- Lento em geração (35 t/s vs. mediana de 53 t/s)
- Sem certificações enterprise ocidentais (SOC 2, ISO 27001)
- Dados enviados à API passam por servidores chineses
- Pior que Gemini em raciocínio multidisciplinar (HLE)
Algoritmo em Áudio
Ep. 47 — DeepSeek V4: o que os gestores brasileiros precisam saber
Como avaliar e testar em 5 passos
Antes de trocar qualquer ferramenta, teste. O processo abaixo foi desenhado para gestores e analistas sem experiência em código — usando apenas o painel de API da DeepSeek e uma planilha.
-
1
Crie uma conta e obtenha crédito gratuito
Acesse platform.deepseek.com e crie uma conta. Novas contas recebem crédito promocional de 5 milhões de tokens — suficiente para milhares de testes antes de qualquer cobrança. Não exige cartão de crédito no cadastro.
-
2
Mapeie suas 3 tarefas mais repetitivas com IA
Escreva em uma planilha: qual tarefa, quantas vezes por semana e quantas palavras tem cada input/output típico. Exemplos: responder e-mails de suporte (300 palavras), resumir propostas comerciais (2.000 palavras), classificar leads por prioridade. Esse mapeamento define qual modelo testar — Flash para volume, Pro para complexidade.
-
3
Rode o mesmo prompt nos dois modelos e compare
Use o playground da plataforma (sem código) para enviar o mesmo prompt ao deepseek-v4-flash e ao deepseek-v4-pro. Avalie qualidade, velocidade e se a resposta exigiria edição antes de usar. Se o Flash for suficiente, o custo cai ainda mais — cerca de 4 vezes em relação ao Pro.
-
4
Calcule o custo mensal real antes de escalar
Multiplique: número de chamadas/mês × tokens médios por chamada × preço por token. Use a calculadora da seção seguinte deste artigo. Um erro comum é calcular com os tokens de entrada e esquecer os de saída — que costumam custar de 2 a 4 vezes mais.
-
5
Consulte seu time jurídico antes de enviar dados sensíveis
A API do DeepSeek processa dados em servidores na China. Para dados de clientes, informações financeiras ou qualquer dado protegido pela LGPD, avalie se isso é aceitável para o seu contrato e política de privacidade. Se houver dúvida, opte por rodar o modelo open-source localmente — a licença MIT permite isso.
📎 Leitura relacionada
Quanto custa na prática — em reais
Valores calculados com cotação de US$ 1 = R$ 5,75 (29/04/2026, aproximado). Os preços da API são em tokens — 1 milhão de tokens equivale a, aproximadamente, 750 mil palavras em português. Um documento de 1.000 palavras usa cerca de 1.300 tokens.
| Cenário da PME | Volume mensal | Modelo sugerido | Custo/mês (R$)* | Horas economizadas/mês (est.) |
|---|---|---|---|---|
| Chatbot de suporte ao cliente (respostas curtas) | 50.000 interações × ~500 tokens output | DeepSeek V4 Flash | ~R$ 46 | ~80h (1 atendente) |
| Resumo de contratos e propostas comerciais | 500 docs × ~3.000 tokens output | DeepSeek V4 Flash | ~R$ 14 | ~25h (analista jurídico) |
| Geração de código e automações (dev interno) | 200h/mês de uso intensivo, ~8.000 tokens/req. | DeepSeek V4 Pro (promo) | ~R$ 350 | ~60h (desenvolvedor) |
| Equivalente com Claude Opus 4.7 (saída) | 50.000 interações × ~500 tokens output | Claude Opus 4.7 | ~R$ 4.090 | ~80h (mesmo resultado) |
*Estimativas baseadas nos preços oficiais (api-docs.deepseek.com e anthropic.com, 29/04/2026). Não incluem custos de infraestrutura, desenvolvimento ou manutenção. Horas economizadas são estimativas médias de mercado — sua realidade pode variar.
O DeepSeek V4 Flash é, hoje, a opção mais custo-eficiente para tarefas de texto puro em volume alto — especialmente para empresas que não dependem de multimodalidade e aceitam os riscos de soberania de dados de uma API chinesa. Para dados sensíveis ou aplicações que exigem imagens, o ecossistema OpenAI ou Anthropic ainda é a escolha mais segura em 2026. O V4 Pro faz sentido principalmente para equipes de desenvolvimento que já testaram o Flash e precisam de raciocínio mais profundo — e mesmo assim, o preço cheio após maio muda o cálculo.
Para quem é (e para quem não é)
✅ Indicado
Startups e PMEs de tecnologia que desenvolvem produtos com alto volume de chamadas de API. Equipes que já usam OpenAI ou Anthropic e querem reduzir custo em tarefas de texto puro. Empresas com time técnico capaz de testar e monitorar qualidade de output.
⚖️ Avaliar com cuidado
PMEs que processam dados de clientes (CPF, e-mails, histórico de compras) via API. Empresas em setores regulados (saúde, finanças, jurídico) que precisam de certificações. Quem depende de multimodalidade — análise de imagens de produtos, OCR de notas fiscais.
❌ Não indicado agora
Empresas que precisam de suporte enterprise local com SLA garantido. Quem trabalha com dados altamente sensíveis e não pode transferi-los para servidores fora do Brasil. Times sem capacidade técnica para integrar e monitorar uma API — nesses casos, ferramentas no-code consolidadas ainda são a melhor opção.