Kimi K2.5 Lançado Oficialmente: Evolução Completa da Visão Nativa e Agent Swarm
Kimi K2.5 Lançado Oficialmente: Evolução Completa da Visão Nativa e Agent Swarm
Novas Alturas da Multimodalidade Nativa
A Moonshot AI lançou oficialmente o Kimi K2.5 hoje. Esta não é apenas uma iteração de versão, mas um passo sólido em direção à Inteligência Artificial Geral (AGI). Construído sobre o Kimi K2, o K2.5 passou por um pré-treinamento contínuo em cerca de 15 trilhões (15T) de tokens mistos de visão e texto para construir uma arquitetura puramente Native Multimodal.

Figura: Comparação do Kimi K2.5 e Claude Opus 4.5 em capacidades básicas, demonstrando a sua força abrangente nas arenas de multimodalidade e raciocínio.
Este avanço arquitetônico dota o K2.5 com uma percepção extremamente forte do mundo físico, permitindo atualizações disruptivas em três dimensões principais: Coding with Vision, Agent Swarm e Office Productivity.
1. Coding with Vision: O Que Você Vê é O Que Você Codifica
O Kimi K2.5 é oficialmente definido como o "modelo de codificação open-source mais forte até hoje", mostrando domínio particular no campo de desenvolvimento frontend.
- Interação Visual para Código: O K2.5 pode converter diretamente conversas simples em interfaces frontend completas, implementando com precisão layouts interativos e ricos efeitos de animação (como gatilhos de rolagem).
- Vídeo como Código: Além de imagens estáticas, o K2.5 pode reconstruir sites raciocinando sobre conteúdo de vídeo. Por exemplo, ele pode assistir a um vídeo de interações em um site e, em seguida, restaurar a lógica de código e o estilo subjacentes.
- Pré-treinamento Conjunto Visão-Texto em Grande Escala: Essa capacidade decorre do pré-treinamento conjunto em grande escala, que sincroniza a melhoria da compreensão visual e das capacidades de codificação de texto, eliminando a desconexão entre visão e lógica encontrada em modelos tradicionais.
Em avaliações internas, o K2.5 resolveu problemas complexos de busca de caminho em labirintos, encontrando o caminho mais curto em um labirinto de 4,5 megapixels usando o algoritmo BFS e gerando um processo de solução visualizado, provando suas poderosas capacidades de raciocínio visual.
2. Agent Swarm: A Mente Coletiva dos Agentes (Prévia de Pesquisa)
Este é o recurso mais "sci-fi" desta atualização. O Kimi K2.5 lançou a prévia de pesquisa Agent Swarm, marcando uma mudança de paradigma na IA de "combate de soldado único" para "colaboração de legião".
- Enxame Autocomandado: O K2.5 pode comandar autonomamente até 100 Sub-agentes.
- Execução Simultânea Massiva: Ao processar tarefas complexas, ele pode orquestrar até 1.500 etapas de coordenação.
- Multiplicação de Eficiência: Em comparação com o modo de agente único, o modo Swarm reduz o tempo de execução de ponta a ponta em 4,5x.
- Tecnologia PARL: O núcleo disso é o Aprendizado por Reforço de Agentes Paralelos (PARL), onde o Orquestrador decompõe tarefas em subtarefas paralelas.
Por exemplo, em uma tarefa para "encontrar 100 criadores de destaque em campos de nicho", o K2.5 Swarm pode criar automaticamente 100 sub-agentes pesquisadores para pesquisar em paralelo, agregando finalmente os resultados em uma planilha estruturada contendo 300 perfis com uma eficiência surpreendente.
3. Produtividade de Escritório Suprema
O K2.5 traz recursos de agente para cenários reais de trabalho de conhecimento, capaz de lidar com entradas de escritório de alta densidade e grande escala.
- Saída Versátil: Gera diretamente documentos profissionais, planilhas, PDFs e slides de apresentação.
- Processamento de Contexto Ultra-Longo: Lida facilmente com documentos de mais de 100 páginas ou a redação de briefs de mais de 10.000 palavras.
- Operações Complexas: Suporta a adição de comentários no Word, a criação de tabelas dinâmicas no Excel e a escrita de fórmulas LaTeX em PDFs.
No benchmark interno AI Office, o desempenho do K2.5 melhorou 59,3% em comparação com o modelo de pensamento da geração anterior (K2 Thinking), alcançando verdadeiramente o salto de "brinquedo" para "ferramenta".
Domínio de Desempenho: Superação Abrangente
Em vários benchmarks autorizados, o K2.5 mostrou força que rivaliza ou até supera os principais modelos de código fechado que possuem "modos de pensamento" (incluindo Gemini 3 Pro, GPT-5.2, Claude Opus 4.5, etc.):
| Benchmark | Domínio | Destaques de Desempenho |
|---|---|---|
| HLE-Full | Raciocínio | Mais forte que DeepSeek-V3.2 |
| SWE-Bench Verified | Programação | Taxa de resolução de 80,9%, quebrando o teto do open-source |
| MMMU Pro | Visão | Capacidade de compreensão multimodal visual líder, próxima ao nível do Claude Opus 4.5 |
| BrowseComp | Pesquisa | Melhoria significativa de desempenho no modo Agent Swarm |
Como Experimentar
Atualmente, o Kimi K2.5 chegou às seguintes plataformas, oferecendo quatro modos (Instant, Thinking, Agent, Agent Swarm):
- Versão Web Kimi.com
- Kimi 智能助手 App (App Assistente Inteligente)
- Kimi 开放平台 (Plataforma Aberta de API)
- Kimi Code: Uma nova ferramenta de código de terminal que suporta integração com VSCode, Cursor, etc.
Nota: O modo Agent Swarm está atualmente em fase beta e oferece testes gratuitos para usuários premium.
Esta onda de atualizações sem dúvida eleva a dimensão da competição de IA do simples "diálogo de texto" para as novas alturas de "ação visual" e "inteligência de enxame". Para desenvolvedores e usuários empresariais, o Kimi K2.5 oferece não apenas um modelo mais forte, mas um conjunto totalmente novo de armas para resolver problemas complexos.