A Anthropic acaba de liberar ao público geral o Claude Fable 5, seu modelo mais avançado até hoje. Mas a novidade não é só a capacidade técnica, é a forma como a empresa decidiu lidar com o poder que criou.
Um modelo, dois produtos
No dia 9 de junho de 2026, a Anthropic disponibilizou o Claude Fable 5 para uso geral. A estratégia, porém, foi incomum: o mesmo modelo foi dividido em dois produtos distintos, não pela capacidade, mas por uma camada de classificadores de segurança.
O Claude Fable 5 chega ao público em geral. Já o Claude Mythos 5, essencialmente o mesmo modelo mas sem as restrições de segurança cibernética, fica restrito a um grupo selecionado de especialistas em defesa digital e operadores de infraestrutura crítica.
A Anthropic afirma que o Mythos 5 é o modelo de cibersegurança mais poderoso do mundo atualmente.
A diferença prática é a seguinte: quando o Fable 5 recebe uma solicitação suspeita nas áreas de cibersegurança, biologia, química ou extração de modelos, ele redireciona a resposta para o Claude Opus 4.8 que é um modelo anterior e menos capaz. O usuário é avisado quando isso acontece. O Mythos 5, por outro lado, mantém todas as capacidades disponíveis para os usuários verificados.
Ambos custam US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída, menos da metade do preço do Mythos Preview anterior. O Fable 5 já está disponível via API e incluído nos planos Pro, Max, Team e Enterprise sem custo adicional até 22 de junho, quando passa a consumir créditos de uso.
Como funcionam os classificadores de segurança
A divisão existe por um motivo direto: modelos do nível Mythos são capazes de identificar e explorar vulnerabilidades de software com uma eficiência que, nas palavras da própria Anthropic, daria vantagem real a atacantes mal-intencionados se fosse liberada sem controle.
O mecanismo são os classificadores que são sistemas de IA separados que monitoram o tráfego em busca de abusos e tentativas de contornar as proteções. Quando uma solicitação aciona um deles, o Fable 5 não recusa a resposta simplesmente: ele delega ao Opus 4.8 e informa o usuário.
Entre as categorias bloqueadas, uma chama atenção: a destilação, que significa extrair as capacidades de um modelo para treinar um concorrente. A Anthropic bloqueia isso para evitar que habilidades avançadas vazem sem as devidas proteções.
O classificador de cibersegurança é o mais abrangente. Ele foi desenhado para bloquear não só o desenvolvimento de exploits, mas tarefas ofensivas em geral: reconhecimento, movimentação lateral, as etapas típicas de um ataque real.
Em testes internos, os classificadores impediram completamente o modelo de avançar nessas tarefas. Um parceiro externo confirmou que o Fable 5 não atendeu nenhuma solicitação prejudicial de planejamento de ataque, desenvolvimento de exploits ou evasão de defesas, além disso, resistiu a 30 técnicas diferentes de jailbreak conhecidas publicamente.
E os falsos positivos?
A Anthropic admite que os classificadores foram calibrados de forma conservadora para acelerar o lançamento, o que significa que às vezes bloqueiam solicitações inofensivas. O fallback (redirecionamento para o Opus 4.8) acontece em menos de 5% de todas as sessões — ou seja, em mais de 95% das interações, o Fable 5 se comporta como o Mythos 5 sem restrições. A empresa diz que vai afinar os classificadores para reduzir esses falsos positivos após o lançamento.
Quanto à robustez: um programa de bug bounty externo rodou por mais de 1.000 horas sem encontrar nenhum jailbreak universal. Times de red team externos também não encontraram brechas em tarefas agentivas de longo prazo. Uma ressalva importante: o AI Security Institute do Reino Unido conseguiu avançar em direção a um jailbreak universal durante uma janela inicial de testes. A Anthropic reconhece abertamente que provavelmente é impossível prevenir jailbreaks universais de forma definitiva — e que o objetivo real é torná-los lentos e custosos o suficiente para serem detectados antes de causar dano em escala.
Por que essa capacidade preocupa tanto?
A resposta está no que aconteceu em abril, quando a Anthropic liberou o Claude Mythos Preview para um grupo restrito pelo Project Glasswing.
Durante os testes, o Mythos Preview identificou e explorou vulnerabilidades zero-day em todos os principais sistemas operacionais e navegadores quando direcionado a isso. O bug mais antigo que encontrou tinha 27 anos, uma falha no OpenBSD, sistema conhecido justamente pela sua segurança.
O ponto mais perturbador do relatório técnico é este: a Anthropic não treinou essas capacidades explicitamente. Elas emergiram como efeito colateral de melhorias gerais em código, raciocínio e autonomia — os mesmos avanços que tornam o modelo melhor em corrigir vulnerabilidades.
O aviso do time de red team é direto: proteções que dependem de fricção e esforço manual do atacante perdem muito do seu valor quando o modelo consegue percorrer etapas tediosas de exploração em escala.
Nova exigência: retenção de dados por 30 dias
Uma mudança que merece atenção especial: a Anthropic está implementando retenção obrigatória de 30 dias para todo o tráfego no Fable 5, Mythos 5 e modelos futuros desse nível de capacidade.
A empresa afirma que não usará os dados para treinamento ou qualquer finalidade além de segurança, registrará todos os acessos humanos e apagará os dados após 30 dias, salvo investigações de segurança ou obrigações legais.
O motivo declarado é defensivo: os dados ajudam a detectar ataques e jailbreaks que operam distribuídos ao longo de muitas requisições. Times com exigências rígidas de tratamento de dados vão querer considerar essa janela de retenção antes de rotear tráfego sensível por esses modelos.
Por ora, o Fable 5 representa a aposta mais clara da Anthropic de que é possível disponibilizar poder de IA de fronteira ao público enquanto se tentam mitigar os riscos mais graves não recusando lançar, mas decidindo com cuidado o que chega a quem.
















