O que é o DeepSeek V4 de verdade

O DeepSeek V4 foi lançado em 24 de abril de 2026 pelo laboratório chinês DeepSeek, sediado em Hangzhou. É uma família de dois modelos de linguagem de grande escala (LLM): o V4-Pro, com 1,6 trilhão de parâmetros totais, e o V4-Flash, com 284 bilhões de parâmetros. Ambos rodam com arquitetura Mixture-of-Experts (MoE) — o que significa que, apesar do tamanho total imenso, apenas uma fração dos parâmetros é ativada em cada resposta. O V4-Pro ativa 49 bilhões de parâmetros por token; o Flash, apenas 13 bilhões.

O diferencial técnico mais relevante para quem paga por API é a janela de contexto padrão de 1 milhão de tokens — sem custo extra. Para efeito de comparação, um romance completo tem cerca de 100 mil tokens. Isso permite que o modelo analise contratos inteiros, bases de código extensas ou arquivos de dados históricos sem precisar fragmentar o conteúdo em pedaços menores. Segundo a DeepSeek, o V4-Pro precisa de apenas 27% dos FLOPs de inferência do modelo anterior (V3.2) para processar 1 milhão de tokens — o que reduz o custo de operação.

Característica Abordagem anterior (LLMs típicos até 2024) DeepSeek V4 (abr. 2026)
Janela de contexto 128K tokens (padrão) 1M tokens (padrão, sem custo extra)
Arquitetura Dense (todos os parâmetros ativos) MoE (apenas fração ativada por token)
Multimodalidade Alguns modelos com imagem + texto Texto e raciocínio — sem multimodal completo público
Licença dos pesos Proprietária na maioria dos casos MIT License (open-weights no Hugging Face)
Hardware de treino GPUs Nvidia H100 Chips Huawei Ascend 950 + Cambricon
⚠️
Atenção: ainda é um preview O lançamento de 24/04/2026 é explicitamente rotulado como "preview" pela própria DeepSeek. Não inclui template Jinja de chat (exige scripts Python adicionais para integração). Benchmarks são divulgados pela empresa — avaliações independentes ainda estão em andamento. Trate qualquer afirmação de superioridade com ceticismo até confirmação externa.

O modelo também estreou com um detalhe geopolítico relevante: foi treinado inteiramente em chips domésticos chineses — processadores Huawei Ascend 950 e Cambricon — sem uso de GPUs Nvidia. Isso tem implicações para empresas que avaliam soberania tecnológica, mas também levanta questões sobre certificações de segurança que chips ocidentais acumularam ao longo de anos.

Comparativo: V4 vs GPT-5.5 vs Claude vs Gemini

Antes de qualquer tabela, um aviso que importa: benchmarks de IA são sempre medidas de laboratório. O desempenho real na sua tarefa específica — classificar e-mails de clientes, resumir contratos, responder via chatbot — pode ser diferente dos números abaixo. Use essa tabela como ponto de partida, não como veredicto final.

Modelo Nível técnico p/ integrar Preço output (US$/1M tokens) Preço output (R$/1M tokens)* Contexto máx. Multimodal Open-source Melhor para
DeepSeek V4 Flash Intermediário US$ 0,28 ~R$ 1,61 1M tokens Não Sim (MIT) Volume alto, custo baixo, texto/código
DeepSeek V4 Pro (promo até 31/05) Intermediário US$ 0,87 ~R$ 5,01 1M tokens Não Sim (MIT) Raciocínio complexo, codificação avançada
DeepSeek V4 Pro (preço regular) Intermediário US$ 3,48 ~R$ 20,01 1M tokens Não Sim (MIT) Raciocínio complexo em produção
GPT-5.5 (OpenAI) Baixo (ChatGPT) / Médio (API) US$ 30,00 ~R$ 172,50 128K tokens Sim Não SaaS completo, multimodalidade, ecossistema
Claude Opus 4.7 (Anthropic) Baixo (claude.ai) / Médio (API) US$ 25,00 ~R$ 143,75 200K tokens Parcial Não Textos longos, análise jurídica, qualidade
Gemini 3.1 Pro (Google) Baixo a Médio Variável Variável 1M tokens Sim Não Raciocínio multidisciplinar, integração Google

*Cotação aproximada: US$ 1 = R$ 5,75 em 29/04/2026. Fontes: api-docs.deepseek.com (29/04/2026), openai.com/pricing, anthropic.com/pricing. Preços sujeitos a alteração.

🔬
Dado anti-hype: onde o V4 ainda fica atrás No benchmark HLE (Humanity's Last Exam — raciocínio científico multidisciplinar avançado), o V4-Pro marca 37,7% contra 44,4% do Gemini 3.1 Pro e 40% do Claude Opus 4.6. Na velocidade de geração, o V4-Pro produz 35 tokens/segundo — abaixo da mediana de 53 t/s para modelos de peso aberto de porte semelhante (Artificial Analysis, abr. 2026). Para tarefas onde a latência importa — chatbots ao vivo, por exemplo — esse dado é relevante.

Onde o V4-Pro realmente se destaca

Em codificação competitiva, o desempenho é genuinamente impressionante. O V4-Pro atingiu rating 3.206 no Codeforces — o mais alto já registrado por qualquer modelo. No SWE-bench Verified (tarefas reais de engenharia de software), marcou 80,6% — apenas 0,2 ponto percentual atrás do Claude Opus 4.6 (80,8%). No LiveCodeBench, chegou a 93,5%, superando todos os modelos com dados disponíveis. Para startups e PMEs que desenvolvem software, esse desempenho é uma vantagem concreta.

✅ Pontos fortes

  • Custo por token muito abaixo dos concorrentes fechados
  • Contexto de 1M tokens sem custo adicional
  • Open-source MIT — pode rodar localmente
  • Excelente em codificação e raciocínio matemático
  • Compatível com API da OpenAI e da Anthropic (troca simples de modelo)

❌ Limitações reais

  • Ainda em preview — sem versão final estabilizada
  • Sem multimodalidade nativa completa (apenas texto)
  • Lento em geração (35 t/s vs. mediana de 53 t/s)
  • Sem certificações enterprise ocidentais (SOC 2, ISO 27001)
  • Dados enviados à API passam por servidores chineses
  • Pior que Gemini em raciocínio multidisciplinar (HLE)
🎙️

Algoritmo em Áudio

Ep. 47 — DeepSeek V4: o que os gestores brasileiros precisam saber

Ouvir episódio →

Como avaliar e testar em 5 passos

Antes de trocar qualquer ferramenta, teste. O processo abaixo foi desenhado para gestores e analistas sem experiência em código — usando apenas o painel de API da DeepSeek e uma planilha.

  1. 1

    Crie uma conta e obtenha crédito gratuito

    Acesse platform.deepseek.com e crie uma conta. Novas contas recebem crédito promocional de 5 milhões de tokens — suficiente para milhares de testes antes de qualquer cobrança. Não exige cartão de crédito no cadastro.

  2. 2

    Mapeie suas 3 tarefas mais repetitivas com IA

    Escreva em uma planilha: qual tarefa, quantas vezes por semana e quantas palavras tem cada input/output típico. Exemplos: responder e-mails de suporte (300 palavras), resumir propostas comerciais (2.000 palavras), classificar leads por prioridade. Esse mapeamento define qual modelo testar — Flash para volume, Pro para complexidade.

  3. 3

    Rode o mesmo prompt nos dois modelos e compare

    Use o playground da plataforma (sem código) para enviar o mesmo prompt ao deepseek-v4-flash e ao deepseek-v4-pro. Avalie qualidade, velocidade e se a resposta exigiria edição antes de usar. Se o Flash for suficiente, o custo cai ainda mais — cerca de 4 vezes em relação ao Pro.

💡
Dica: prompt de avaliação rápida Use o exemplo abaixo no playground para testar se o modelo responde bem às suas demandas específicas de setor. Adapte o contexto para o seu ramo.
🧪 Prompt de teste para PMEs
Você é um assistente especializado em [SEU SETOR]. Analise o texto abaixo e produza: 1. Um resumo executivo em 3 frases 2. Os 3 principais riscos identificados 3. Uma recomendação de ação imediata Texto: [COLE AQUI UM DOCUMENTO REAL DA SUA EMPRESA] Responda em português brasileiro, de forma direta e sem jargões técnicos.
  1. 4

    Calcule o custo mensal real antes de escalar

    Multiplique: número de chamadas/mês × tokens médios por chamada × preço por token. Use a calculadora da seção seguinte deste artigo. Um erro comum é calcular com os tokens de entrada e esquecer os de saída — que costumam custar de 2 a 4 vezes mais.

  2. 5

    Consulte seu time jurídico antes de enviar dados sensíveis

    A API do DeepSeek processa dados em servidores na China. Para dados de clientes, informações financeiras ou qualquer dado protegido pela LGPD, avalie se isso é aceitável para o seu contrato e política de privacidade. Se houver dúvida, opte por rodar o modelo open-source localmente — a licença MIT permite isso.

Atalho para quem já usa OpenAI ou Anthropic A API do DeepSeek V4 é compatível com os formatos da OpenAI ChatCompletions e da Anthropic API. Na prática, basta mudar o parâmetro model no seu código atual para deepseek-v4-flash ou deepseek-v4-pro — sem reescrever a integração. Isso reduz o custo de migração de teste a praticamente zero.

Quanto custa na prática — em reais

Valores calculados com cotação de US$ 1 = R$ 5,75 (29/04/2026, aproximado). Os preços da API são em tokens — 1 milhão de tokens equivale a, aproximadamente, 750 mil palavras em português. Um documento de 1.000 palavras usa cerca de 1.300 tokens.

Cenário da PME Volume mensal Modelo sugerido Custo/mês (R$)* Horas economizadas/mês (est.)
Chatbot de suporte ao cliente (respostas curtas) 50.000 interações × ~500 tokens output DeepSeek V4 Flash ~R$ 46 ~80h (1 atendente)
Resumo de contratos e propostas comerciais 500 docs × ~3.000 tokens output DeepSeek V4 Flash ~R$ 14 ~25h (analista jurídico)
Geração de código e automações (dev interno) 200h/mês de uso intensivo, ~8.000 tokens/req. DeepSeek V4 Pro (promo) ~R$ 350 ~60h (desenvolvedor)
Equivalente com Claude Opus 4.7 (saída) 50.000 interações × ~500 tokens output Claude Opus 4.7 ~R$ 4.090 ~80h (mesmo resultado)

*Estimativas baseadas nos preços oficiais (api-docs.deepseek.com e anthropic.com, 29/04/2026). Não incluem custos de infraestrutura, desenvolvimento ou manutenção. Horas economizadas são estimativas médias de mercado — sua realidade pode variar.

💰
Custo-benefício real Para o cenário de chatbot de suporte acima, a diferença entre usar Claude Opus 4.7 e DeepSeek V4 Flash é de cerca de R$ 4.044 por mês — ou R$ 48.528 por ano. Se a qualidade for equivalente para a sua tarefa específica (o que você precisará testar), esse é um argumento financeiro difícil de ignorar. Mas lembre: o custo de trocar a ferramenta errada inclui retrabalho, bugs e credibilidade. Teste antes de escalar.
Na nossa avaliação

O DeepSeek V4 Flash é, hoje, a opção mais custo-eficiente para tarefas de texto puro em volume alto — especialmente para empresas que não dependem de multimodalidade e aceitam os riscos de soberania de dados de uma API chinesa. Para dados sensíveis ou aplicações que exigem imagens, o ecossistema OpenAI ou Anthropic ainda é a escolha mais segura em 2026. O V4 Pro faz sentido principalmente para equipes de desenvolvimento que já testaram o Flash e precisam de raciocínio mais profundo — e mesmo assim, o preço cheio após maio muda o cálculo.

Para quem é (e para quem não é)

✅ Indicado

Startups e PMEs de tecnologia que desenvolvem produtos com alto volume de chamadas de API. Equipes que já usam OpenAI ou Anthropic e querem reduzir custo em tarefas de texto puro. Empresas com time técnico capaz de testar e monitorar qualidade de output.

⚖️ Avaliar com cuidado

PMEs que processam dados de clientes (CPF, e-mails, histórico de compras) via API. Empresas em setores regulados (saúde, finanças, jurídico) que precisam de certificações. Quem depende de multimodalidade — análise de imagens de produtos, OCR de notas fiscais.

❌ Não indicado agora

Empresas que precisam de suporte enterprise local com SLA garantido. Quem trabalha com dados altamente sensíveis e não pode transferi-los para servidores fora do Brasil. Times sem capacidade técnica para integrar e monitorar uma API — nesses casos, ferramentas no-code consolidadas ainda são a melhor opção.

FAQ — perguntas frequentes

DeepSeek V4 é melhor que o GPT-5.5?

Depende da tarefa. Em codificação competitiva e custo por token, o DeepSeek V4-Pro se destaca: lidera no Codeforces (rating 3.206) e no LiveCodeBench (93,5%). Em raciocínio multidisciplinar avançado (benchmark HLE), GPT-5.5 e Gemini 3.1 Pro ainda lideram com folga. Para PMEs que priorizam custo em tarefas de texto, o V4 Flash pode ser a melhor relação custo-benefício disponível hoje.

O DeepSeek V4 é multimodal?

Não de forma completa. O V4 lançado em 24/04/2026 é focado em texto e raciocínio lógico. Não oferece geração de imagens, vídeo ou análise visual nativamente como Gemini 3.1 ou GPT-4o. Essa é uma limitação real para empresas que precisam processar imagens de produtos, fazer OCR de notas fiscais ou analisar fotos via API.

Qual o preço do DeepSeek V4 em reais?

Com dólar a R$ 5,75 em 29/04/2026: DeepSeek V4 Flash custa cerca de R$ 0,81 por 1 milhão de tokens de entrada e R$ 1,61 por 1 milhão de tokens de saída. O V4 Pro (com 75% de desconto promocional até 31/05/2026) sai por R$ 2,50 entrada e R$ 5,01 saída. Após o desconto, o preço regular sobe para R$ 10,01 entrada e R$ 20,01 saída por 1 milhão de tokens. Fonte: api-docs.deepseek.com, consultado em 29/04/2026.

O DeepSeek V4 é open source?

Sim. Os pesos do modelo estão disponíveis no Hugging Face sob licença MIT — o que significa que empresas com infraestrutura própria podem rodá-lo localmente sem pagar por API. Isso resolve parcialmente a preocupação de soberania de dados. O V4-Pro ocupa 865 GB de armazenamento; o V4-Flash, 160 GB. Rodar localmente exige servidores com GPU ou hardware especializado.

O DeepSeek V4 é seguro para uso empresarial no Brasil?

É uma pergunta legítima sem resposta simples. O DeepSeek é uma empresa chinesa sujeita às leis de dados da China. Para dados sensíveis de clientes ou informações financeiras, avalie o risco jurídico com seu time de compliance antes de enviar qualquer dado via API. Para uso com informações genéricas, públicas ou não-sensíveis, o risco é comparável ao de qualquer outra API externa. A opção de rodar localmente (open-source) elimina esse risco.

O DeepSeek V4 é mais barato que o Claude?

Sim, de forma expressiva. O Claude Opus 4.7 custa cerca de US$ 25 por 1 milhão de tokens de saída; o DeepSeek V4 Flash custa US$ 0,28 — uma diferença de até 89 vezes. O V4 Pro no preço regular (US$ 3,48/M) é cerca de 7 vezes mais barato que o Opus. Para tarefas de texto puro sem necessidade de multimodalidade ou suporte enterprise, a diferença de custo é difícil de ignorar. A qualidade, porém, precisa ser testada na sua tarefa específica antes de qualquer migração.