Novas Alturas da Multimodalidade Nativa

A Moonshot AI lançou oficialmente o Kimi K2.5 hoje. Esta não é apenas uma iteração de versão, mas um passo sólido em direção à Inteligência Artificial Geral (AGI). Construído sobre o Kimi K2, o K2.5 passou por um pré-treinamento contínuo em cerca de 15 trilhões (15T) de tokens mistos de visão e texto para construir uma arquitetura puramente Native Multimodal.

Comparação de desempenho entre Kimi K2.5 e Claude Opus 4.5

Figura: Comparação do Kimi K2.5 e Claude Opus 4.5 em capacidades básicas, demonstrando a sua força abrangente nas arenas de multimodalidade e raciocínio.

Este avanço arquitetônico dota o K2.5 com uma percepção extremamente forte do mundo físico, permitindo atualizações disruptivas em três dimensões principais: Coding with Vision, Agent Swarm e Office Productivity.

1. Coding with Vision: O Que Você Vê é O Que Você Codifica

O Kimi K2.5 é oficialmente definido como o "modelo de codificação open-source mais forte até hoje", mostrando domínio particular no campo de desenvolvimento frontend.

Interação Visual para Código: O K2.5 pode converter diretamente conversas simples em interfaces frontend completas, implementando com precisão layouts interativos e ricos efeitos de animação (como gatilhos de rolagem).
Vídeo como Código: Além de imagens estáticas, o K2.5 pode reconstruir sites raciocinando sobre conteúdo de vídeo. Por exemplo, ele pode assistir a um vídeo de interações em um site e, em seguida, restaurar a lógica de código e o estilo subjacentes.
Pré-treinamento Conjunto Visão-Texto em Grande Escala: Essa capacidade decorre do pré-treinamento conjunto em grande escala, que sincroniza a melhoria da compreensão visual e das capacidades de codificação de texto, eliminando a desconexão entre visão e lógica encontrada em modelos tradicionais.

Em avaliações internas, o K2.5 resolveu problemas complexos de busca de caminho em labirintos, encontrando o caminho mais curto em um labirinto de 4,5 megapixels usando o algoritmo BFS e gerando um processo de solução visualizado, provando suas poderosas capacidades de raciocínio visual.

2. Agent Swarm: A Mente Coletiva dos Agentes (Prévia de Pesquisa)

Este é o recurso mais "sci-fi" desta atualização. O Kimi K2.5 lançou a prévia de pesquisa Agent Swarm, marcando uma mudança de paradigma na IA de "combate de soldado único" para "colaboração de legião".

Enxame Autocomandado: O K2.5 pode comandar autonomamente até 100 Sub-agentes.
Execução Simultânea Massiva: Ao processar tarefas complexas, ele pode orquestrar até 1.500 etapas de coordenação.
Multiplicação de Eficiência: Em comparação com o modo de agente único, o modo Swarm reduz o tempo de execução de ponta a ponta em 4,5x.
Tecnologia PARL: O núcleo disso é o Aprendizado por Reforço de Agentes Paralelos (PARL), onde o Orquestrador decompõe tarefas em subtarefas paralelas.

Por exemplo, em uma tarefa para "encontrar 100 criadores de destaque em campos de nicho", o K2.5 Swarm pode criar automaticamente 100 sub-agentes pesquisadores para pesquisar em paralelo, agregando finalmente os resultados em uma planilha estruturada contendo 300 perfis com uma eficiência surpreendente.

3. Produtividade de Escritório Suprema

O K2.5 traz recursos de agente para cenários reais de trabalho de conhecimento, capaz de lidar com entradas de escritório de alta densidade e grande escala.

Saída Versátil: Gera diretamente documentos profissionais, planilhas, PDFs e slides de apresentação.
Processamento de Contexto Ultra-Longo: Lida facilmente com documentos de mais de 100 páginas ou a redação de briefs de mais de 10.000 palavras.
Operações Complexas: Suporta a adição de comentários no Word, a criação de tabelas dinâmicas no Excel e a escrita de fórmulas LaTeX em PDFs.

No benchmark interno AI Office, o desempenho do K2.5 melhorou 59,3% em comparação com o modelo de pensamento da geração anterior (K2 Thinking), alcançando verdadeiramente o salto de "brinquedo" para "ferramenta".

Domínio de Desempenho: Superação Abrangente

Em vários benchmarks autorizados, o K2.5 mostrou força que rivaliza ou até supera os principais modelos de código fechado que possuem "modos de pensamento" (incluindo Gemini 3 Pro, GPT-5.2, Claude Opus 4.5, etc.):

Benchmark	Domínio	Destaques de Desempenho
HLE-Full	Raciocínio	Mais forte que DeepSeek-V3.2
SWE-Bench Verified	Programação	Taxa de resolução de 80,9%, quebrando o teto do open-source
MMMU Pro	Visão	Capacidade de compreensão multimodal visual líder, próxima ao nível do Claude Opus 4.5
BrowseComp	Pesquisa	Melhoria significativa de desempenho no modo Agent Swarm

Como Experimentar

Atualmente, o Kimi K2.5 chegou às seguintes plataformas, oferecendo quatro modos (Instant, Thinking, Agent, Agent Swarm):

Versão Web Kimi.com
Kimi 智能助手 App (App Assistente Inteligente)
Kimi 开放平台 (Plataforma Aberta de API)
Kimi Code: Uma nova ferramenta de código de terminal que suporta integração com VSCode, Cursor, etc.

Nota: O modo Agent Swarm está atualmente em fase beta e oferece testes gratuitos para usuários premium.

Esta onda de atualizações sem dúvida eleva a dimensão da competição de IA do simples "diálogo de texto" para as novas alturas de "ação visual" e "inteligência de enxame". Para desenvolvedores e usuários empresariais, o Kimi K2.5 oferece não apenas um modelo mais forte, mas um conjunto totalmente novo de armas para resolver problemas complexos.

Kimi K2.5 Lançado Oficialmente: Evolução Completa da Visão Nativa e Agent Swarm

Novas Alturas da Multimodalidade Nativa

1. Coding with Vision: O Que Você Vê é O Que Você Codifica

2. Agent Swarm: A Mente Coletiva dos Agentes (Prévia de Pesquisa)

3. Produtividade de Escritório Suprema

Domínio de Desempenho: Superação Abrangente

Como Experimentar

Popular Kimi K2 paths

Kimi K3

Kimi K2.7 Code

Kimi Code

Kimi K3 Status

Artigos relacionados