Se eu tivesse 90 dias para aprender agentes de IA, eu não começaria por tutorial

Resposta direta

Se eu tivesse 90 dias para aprender a construir agentes de IA, eu clonaria repositórios reais e tentaria publicar alguma coisa funcionando. Tutorial ensina sintaxe; repositório ensina arquitetura, dependência, erro, autenticação, latência, memória, custo e produto. Essa diferença parece pequena até a primeira semana de projeto.

Capa editorial com a chamada 90 dias. 10 repos. para artigo sobre aprendizado prático de agentes de IA.

Essa diferença parece pequena até a primeira semana de projeto. O iniciante que vive de tutorial termina com um agente que responde no terminal. O operador que lê código de produção termina entendendo por que o agente precisa falar, navegar, lembrar, buscar contexto, chamar ferramentas, coordenar tarefas e falhar de forma controlada.

Agentes de IA não são uma categoria única. São uma pilha.

Key takeaways

Aprender agentes de IA em 90 dias não é estudar dez frameworks. É montar repertório por camada: voz, browser, workflow, RAG, memória, tempo real, integrações e coordenação.
O objetivo não é conhecer todos os recursos de cada projeto. É publicar três agentes pequenos, cada um com uma capacidade real.
Pipecat e LiveKit Agents ensinam a camada de voz e tempo real; Browser-use ensina ação na web; Dify e Mastra ensinam orquestração de produto.
RAGFlow e Mem0 mostram que agente sem contexto e memória vira chatbot com crachá novo.
Composio, AG2 e Awesome Claude Skills ajudam a enxergar o salto entre demo bonita e rotina operacional reutilizável.

O erro: aprender agentes como se fossem chatbots

A maior parte das pessoas começa pelo caminho confortável: curso, notebook, prompt, exemplo com uma API, resposta bonita. Isso é útil nos primeiros dois dias. Depois vira atraso.

O problema é que agente de IA não é apenas um modelo respondendo melhor. Um agente faz trabalho. Para fazer trabalho, ele precisa interagir com ambiente, usar ferramentas, recuperar contexto, respeitar estado, lidar com credenciais, manter memória, chamar outros processos e sobreviver a falhas.

Essa é a primeira separação importante.

Chatbot conversa.

Agente muda estado.

Quando você entende isso, a lista de estudos muda. Em vez de perguntar "qual framework de agente devo aprender?", a pergunta vira: "qual parte da pilha eu ainda não sei construir?".

É por isso que eu usaria dez repositórios, não dez tutoriais.

Cada repo abaixo ensina uma camada que aparece quando o agente sai da demo e encosta no trabalho real.

O roteiro de 90 dias

O plano não é ler tudo. É construir em ciclos: ação nos primeiros 30 dias, contexto nos 30 seguintes e produto nos últimos 30.

O output mínimo deveria ser este:

Dia 30: um agente web que executa uma tarefa simples em um site real.
Dia 60: um agente com RAG, memória e pelo menos uma integração externa.
Dia 90: um agente publicável, com interface, logs, recuperação de erro e caso de uso específico.

1. Pipecat: voz é a interface, latência é o produto

Pipecat é um framework open source para agentes conversacionais de voz e multimodais. O motivo para estudá-lo não é apenas "fazer agente falar". É entender que, em voz, latência deixa de ser detalhe técnico e vira experiência de produto.

Em chat, uma resposta demorar três segundos incomoda. Em voz, três segundos matam a conversa. O agente precisa ouvir, interromper, interpretar, responder e manter turnos naturais. Isso força você a aprender streaming, pipeline, transporte, estado de conversa e tolerância a erro.

O exercício prático: clone o Pipecat e construa uma triagem por voz para qualificar lead, agendar reunião ou responder perguntas sobre um serviço. O aprendizado real aparece quando você tenta reduzir silêncio, cortar resposta longa e lidar com interrupção.

O que esse repo ensina: agente não é só raciocínio. É ritmo.

2. Browser-use: o agente aprende quando encosta no navegador

Browser-use existe para permitir que agentes naveguem, cliquem, preencham campos e usem sites. É a camada que transforma "o agente sabe" em "o agente fez".

Esse é um dos saltos mais importantes. Enquanto o agente está preso no chat, ele pode parecer inteligente sem provar nada. Quando ele precisa entrar em um site, entender uma tela, preencher formulário e lidar com erro de interface, a fantasia acaba.

O exercício prático: crie uma rotina que pesquise três fornecedores, colete preço ou informação pública, salve uma tabela e gere recomendação. Use um site real, com menu ruim, loading estranho e texto inconsistente.

O que esse repo ensina: o mundo não foi desenhado para o seu agente. O agente precisa aprender a operar apesar disso.

3. Mastra: TypeScript força disciplina de produto

Mastra é um framework TypeScript para construir aplicações e agentes de IA. O valor aqui é menos "mais um framework" e mais a disciplina de produto que aparece quando agente entra no stack moderno de desenvolvimento.

Muita gente aprende agentes em Python porque o ecossistema de IA começou ali. Mas boa parte do produto web, da interface, da autenticação, dos jobs e dos deploys corporativos vive em TypeScript. Mastra força essa ponte.

O exercício prático: construa um workflow com tool calls tipadas e uma rota de API consumida por uma interface simples. O objetivo é entender como agente vira feature de produto, não experimento isolado.

O que esse repo ensina: agente bom precisa morar onde o usuário já trabalha.

4. Dify: workflow visual revela a arquitetura escondida

Dify é uma plataforma visual para construir aplicações e workflows agenticos, com RAG, múltiplos provedores de LLM e deploy self-hosted. O motivo para estudá-la é aprender a decompor fluxo.

Desenvolvedor gosta de código. Executivo gosta de processo. Agente de produção precisa dos dois.

Quando você monta um fluxo visual, fica claro onde entra prompt, documento, decisão, ferramenta e fallback. Isso mostra que "agente" muitas vezes é uma cadeia de decisões pequenas, não um cérebro único.

O exercício prático: monte no Dify um assistente interno que recebe uma pergunta, busca documentos, decide se precisa chamar ferramenta e devolve resposta com fonte. Depois tente quebrá-lo com perguntas vagas e instruções conflitantes.

O que esse repo ensina: workflow é produto. Prompt é só uma peça.

5. RAGFlow: documento bagunçado é o teste de maturidade

RAGFlow é um motor de RAG focado em recuperação com documentos complexos. Ele importa porque RAG simples funciona bem em tutorial e falha rápido em PDF real, tabela quebrada, contrato longo e manual técnico.

Empresas não têm conhecimento em parágrafos perfeitos. Têm apresentações antigas, planilhas, PDFs, políticas internas, contratos, transcrições e arquivos duplicados. Se o agente não sabe recuperar contexto desse caos, ele vira um estagiário confiante demais.

O exercício prático: pegue cinco documentos ruins, suba no RAGFlow e construa respostas com citação. Depois compare respostas com e sem recuperação. A diferença ensina mais do que qualquer aula sobre embeddings.

O que esse repo ensina: contexto ruim gera resposta ruim. RAG é operação de conhecimento, não mágica semântica.

6. Mem0: sem memória, o agente começa do zero para sempre

Mem0 se posiciona como camada universal de memória para agentes de IA. Essa camada é inevitável quando você passa de demo para uso recorrente.

Um agente que não lembra preferências, decisões, histórico e exceções obriga a empresa a reexplicar tudo. Isso destrói adoção. Mas memória também cria risco: o que lembrar, esquecer, atualizar, bloquear ou submeter a consentimento.

O exercício prático: crie um acompanhamento comercial que lembre tom, estágio do lead, última objeção e próxima ação. Depois implemente regra de esquecimento e revisão manual.

O que esse repo ensina: memória não é banco de dados bonito. É política operacional.

7. LiveKit Agents: tempo real muda o desenho do sistema

LiveKit Agents é um framework para voz e vídeo em tempo real usando infraestrutura WebRTC. Ele entra no roteiro porque sistemas síncronos têm restrições diferentes de jobs assíncronos.

Em um job de backoffice, o agente pode pensar por alguns segundos. Em uma chamada, reunião, atendimento ou experiência multimodal, ele precisa coordenar áudio, vídeo, turno de fala, ruído, interrupção e presença.

O exercício prático: crie uma sala em que o sistema escute uma solicitação e registre resumo ou responda uma dúvida baseada em documento. O objetivo é sentir a diferença entre "responder" e "participar".

O que esse repo ensina: presença é infraestrutura.

8. Composio: ferramenta sem autenticação não chega na empresa

Composio conecta agentes a toolkits e aplicações externas com autenticação e contexto. O valor aqui é encarar o problema que todo protótipo adia: OAuth, permissões, tokens, escopos, conectores e auditoria.

Agente corporativo quase nunca trabalha sozinho. Ele precisa ler Gmail, abrir issue no GitHub, consultar CRM, atualizar planilha, criar tarefa, buscar documento ou enviar mensagem. Cada ação exige permissão e deixa rastro.

O exercício prático: conecte GitHub ou Gmail em ambiente de teste e limite explicitamente o que pode ser feito. Ler é diferente de escrever. Sugerir é diferente de enviar. Essa diferença é onde mora a governança prática.

O que esse repo ensina: integração é poder. Poder sem alçada vira incidente.

9. AG2: multiagente só importa quando há divisão real de trabalho

AG2, anteriormente associado ao ecossistema AutoGen, é um framework open source para sistemas multiagentes. Ele é útil porque mostra a promessa e o perigo da coordenação entre agentes.

Multiagente vira teatro quando você cria cinco personagens para conversar sobre uma tarefa simples. Mas vira arquitetura quando há papéis realmente diferentes: pesquisador, executor, revisor, planejador, avaliador, publicador.

O exercício prático: construa um fluxo com três agentes: um pesquisa fontes, outro redige a resposta e outro revisa contra critérios objetivos. Não deixe o revisor "opinar". Dê rubrica, nota mínima e regra de reprovação.

O que esse repo ensina: multiagente não é reunião. É divisão de responsabilidade.

10. Awesome Claude Skills: o futuro do agente é workflow reutilizável

Awesome Claude Skills é uma curadoria de Skills, recursos e padrões para customizar fluxos com Claude. O valor não está em instalar tudo. Está em estudar como bons workflows são empacotados.

Skills são uma pista importante sobre para onde agentes estão indo: menos prompt solto, mais capacidade reutilizável. Um skill bom carrega instrução, exemplo, script, template, limites e critério de validação. Isso é muito mais próximo de operação do que uma frase bonita no system prompt.

O exercício prático: escolha três skills, leia a estrutura e crie uma skill própria para uma tarefa recorrente sua. Pode ser revisão de proposta, triagem de inbox, auditoria de landing page ou análise de reunião. O objetivo é transformar conhecimento tácito em rotina executável.

O que esse repo ensina: agente bom não é só inteligente. Ele é treinável por processo.

A sequência certa

Eu não estudaria os dez em ordem linear. Eu montaria três projetos.

Primeiro projeto: agente que navega e entrega resultado. Use Browser-use e Mastra. O agente precisa abrir sites, coletar dados e gerar uma recomendação. Meta: provar ação.

Segundo projeto: agente que responde com contexto e memória. Use RAGFlow, Mem0 e Dify. O agente precisa consultar documentos, lembrar preferências e mostrar fonte. Meta: provar continuidade.

Terceiro projeto: agente que entra em um fluxo real. Use Pipecat ou LiveKit Agents, Composio e AG2. O agente precisa conversar, chamar ferramenta, delegar revisão e registrar resultado. Meta: provar operação.

Awesome Claude Skills entra como camada transversal: leia padrões, copie estruturas boas e empacote seus próprios processos.

Essa sequência evita dois vícios.

O primeiro vício é estudar framework sem caso de uso. O segundo é construir caso de uso sem aprender arquitetura. Os dois cobram juros no primeiro deploy.

O que uma empresa deveria observar

Para liderança, o ponto não é exigir que todo executivo clone esses repositórios. O ponto é entender que agentes de IA exigem um mapa de capacidades.

Quando um fornecedor mostra um agente, pergunte qual camada ele domina:

interface: texto, voz, vídeo ou browser;
ação: quais ferramentas ele pode chamar;
contexto: como recupera documentos e fontes;
memória: o que persiste entre sessões;
alçada: o que pode ler, sugerir, escrever ou enviar;
coordenação: quando outro agente ou humano revisa;
observabilidade: onde ficam logs, custos, erros e decisões;
reversibilidade: como desfazer uma ação ruim.

Essa lista separa demo de operação.

Uma demo boa responde bonito. Um sistema bom mostra o que fez, por que fez, com que permissão, usando qual fonte e como corrigir se errou.

FAQ

Qual é o melhor framework para começar a aprender agentes de IA?

Não existe um melhor framework universal. Para começar, escolha pelo caso de uso: Browser-use para ação em sites, Mastra para produto em TypeScript, Dify para workflow visual, RAGFlow para documentos, Mem0 para memória, Pipecat ou LiveKit Agents para voz e tempo real.

É melhor aprender agentes com tutorial ou clonando repositórios?

Tutorial ajuda nos primeiros passos, mas clonar repositórios reais acelera o aprendizado operacional. Repositórios mostram dependências, erros, decisões de arquitetura, autenticação, testes, deploy e limites que tutoriais costumam esconder.

Dá para aprender agentes de IA em 90 dias?

Dá para construir uma base prática forte em 90 dias se o objetivo for publicar agentes pequenos e reais. O erro é tentar dominar todo o ecossistema. O caminho melhor é entregar três projetos: ação na web, contexto com memória e agente integrado a um fluxo real.

Quais capacidades um agente de IA precisa ter para sair da demo?

Um agente precisa ter objetivo claro, ferramentas, contexto, memória quando necessário, permissões explícitas, logs, tratamento de erro, avaliação e regra de intervenção humana. Sem isso, ele pode impressionar em apresentação, mas tende a falhar em operação.

Links e fontes

Repositórios citados:

Links internos recomendados:

Aplicação prática

Se você quer começar nesta semana, não abra mais uma playlist. Faça três coisas.

Clone Browser-use e complete uma tarefa real em um site. Depois clone RAGFlow ou Mem0 e dê contexto persistente ao fluxo. Por fim, conecte uma ferramenta externa com Composio ou transforme tudo em produto com Mastra.

Em 90 dias, o prêmio não vai para quem decorou mais abstrações. Vai para quem entendeu o atrito inteiro: interface, ferramenta, contexto, memória, permissão, erro e entrega.

Tutorial ensina a repetir. Repositório ensina a brigar com a realidade. Em agentes de IA, é a realidade que contrata.