LLM, RAG, agentes e MCP: o mapa que o mercado brasileiro precisa em 2026

Segundo levantamento do BCG citado no Relatório GFT Tech Trends 2026 LATAM, o Brasil lidera a adoção de IA agêntica na região com 18% das empresas já integrando agentes em seus fluxos de trabalho, ante uma média global de 13%. Ao mesmo tempo, publicações independentes de EY Brasil, Gartner e Deloitte (abr–mai/2026, via Startupi) mostram que só 7–8% das organizações brasileiras têm maturidade real em governança de IA. Traduzindo: muita gente quer o bot que “faz tudo”, pouca gente sabe auditar o que ele respondeu, quanto custou e se vazou dado de RH.

Esse gap é o pano de fundo desta trilha. Ao longo dos próximos episódios vamos construir o Núcleo Desk, portal de suporte interno de um SaaS B2B de operações com cerca de 800 funcionários, do mapa conceitual até um produto com busca em documentos internos, controle de acesso por papel, integração com Jira e Confluence, testes de qualidade antes de deploy e conformidade com a LGPD (Lei Geral de Proteção de Dados) e o PL 2338/2023 (marco legal de IA em tramitação). Hoje não tem código. Tem mapa. Porque comprar SaaS de chatbot ou contratar “o dev de IA” sem saber onde cada peça encaixa é jogar dinheiro no buraco certo com a pá de errada.

O problema no Núcleo Desk

Imagine o Núcleo Desk: People e IT atendem funcionários o dia inteiro com as mesmas perguntas: política de férias, como abrir chamado, runbook de deploy, FAQ de billing interno. Documentação espalhada no Confluence, tickets no Jira, PDFs de RH que não podem ir parar no contexto de um estagiário.

Os requisitos não são opcionais:

ACL (Access Control List, lista de controle de acesso) por papel: estagiário não vê salário; SRE vê runbook restrito; RH admin vê política completa.
Auditoria: quem perguntou o quê, com qual documento no contexto.
Custo por ticket: API de LLM (Large Language Model, modelo de linguagem) não é alecrim dourado.
Evals (avaliações automatizadas de qualidade da resposta) antes de deploy: resposta errada em política de RH vira processo trabalhista, não bug de CSS.

Nenhum “chatbot genérico” resolve isso com prompt bonito. Precisa de pilha: modelo, recuperação de contexto, ferramentas, protocolo de integração e UX que mostre incerteza. É isso que vamos nomear agora.

A pilha em camadas

Pense de baixo para cima. Cada camada resolve um problema diferente; empilhar sem critério é o que gera projeto cancelado. A Gartner projeta 40% dos projetos de agentes encerrados até 2027 (Gartner, jun/2025) por custo, risco ou resultado ruim.

No topo está o que o funcionário vê. No meio, o agente decide se precisa buscar documento, chamar ferramenta ou só responder. Embaixo, o modelo: ferramenta, não oráculo.

LLM: o motor de linguagem

O LLM transforma texto em texto (ou em chamadas estruturadas). No Núcleo Desk ele redige a resposta, resume um runbook, ou monta o JSON de uma ferramenta externa. Sozinho, ele inventa política de férias que nunca existiu.

Quando basta: FAQ curta, tom de voz, reformulação, sempre com humano revisando no início.

Quando não basta: qualquer pergunta cujo valor está em documento interno que o modelo não viu no treino.

RAG: Retrieval-Augmented Generation

RAG (Retrieval-Augmented Generation, geração aumentada por recuperação) busca trechos relevantes numa base (no nosso case, Markdown e páginas Confluence divididas em pedaços e indexadas no Supabase com pgvector) e injeta no contexto antes da geração. Com filtro por papel na ACL, o mesmo índice devolve políticas diferentes para employee e hr_admin.

Quando usar: base de conhecimento que muda, compliance, citação obrigatória (“segundo a política X…”).

Custo ilustrativo BR: indexar alguns milhares de chunks + embeddings roda na casa de dezenas a poucas centenas de reais por mês em cloud modesta. O vilão mesmo é inferência repetida sem cache e sem escolher o modelo certo para cada tarefa.

Agentes: loop com ferramentas

Agente, aqui, não é sinônimo de “IA consciente”. É um loop: modelo → decide qual ferramenta chamar → executa → observa resultado → continua ou responde. No Núcleo Desk: abrir ticket no Jira, buscar página no Confluence, escalar para humano.

Quando usar: a resposta depende de ação no mundo (criar issue, consultar status), não só de texto estático.

Risco: tool calling (chamada de ferramenta pelo modelo) sem trava abriu chamado de produção errado. Daí HITL (human-in-the-loop, humano no circuito) em ações destrutivas e alinhamento ao PL 2338 para sistemas de alto impacto.

MCP: Model Context Protocol

MCP (Model Context Protocol, protocolo de contexto para modelos) padroniza como a aplicação expõe ferramentas externas para o runtime de IA. No nosso roadmap, integração com Jira e Confluence via ecossistema Atlassian. Em vez de reinventar OAuth e endpoints a cada feature, você declara capabilities que o host consome.

Quando usar: várias ferramentas, troca de provedor de modelo, ecossistema que já adota MCP (IDEs, gateways).

Quando adiar: MVP só com RAG estático em documentos; MCP faz sentido quando Jira e Confluence viram extensão real do portal, não demo isolada.

UX e portal

A camada que o mercado subestima. Streaming, citações clicáveis, “não encontrei na base”, feedback por resposta, trilha de auditoria visível para admin. React Router 7 em Framework Mode é a stack de UI que vamos usar na trilha: combinação de SPA e rotas no servidor que encaixa bem em portal com chat.

Quando usar cada camada

Camada	Problema que resolve	Sinal no Núcleo Desk	Erro comum no BR
LLM só	Redação, classificação simples	Reescrever pergunta do usuário	Achar que GPT “já conhece” a empresa
RAG	Resposta ancorada em docs internos	Política de férias, FAQ billing	Indexar tudo sem ACL → vazamento
Agente	Multi-step + tools	Abrir Jira, buscar runbook vivo	Agente “autônomo” sem eval nem HITL
MCP	Integração padronizada	Confluence + Jira Cloud	Reescrever OAuth Atlassian do zero sem necessidade
UX / evals	Confiança e operação	Citação, custo/ticket, painel admin	Demo bonita no WhatsApp, produção zero

Minha tese, em uma frase: a maioria dos portais internos no Brasil deveria começar em RAG governado + UX honesta; agente e MCP entram quando há processo claro e métrica, não quando o slide de vendas precisa da palavra “agente”.

Stack escolhida para a trilha

Para manter os episódios coerentes, esta é a combinação que vamos seguir no Núcleo Desk:

Camada	Escolha
UI	React Router 7, TypeScript, Tailwind
IA	Vercel AI SDK + provedor de LLM (OpenAI ou Anthropic)
Vetores	Supabase Postgres + pgvector
Integrações	MCP para Jira e Confluence
Qualidade	promptfoo + Vitest
Compliance	LGPD; preparação para PL 2338

São escolhas de projeto para um case didático. No seu contexto, outra stack pode fazer mais sentido. O mapa das camadas vale independente do logo no README.

Papéis e ACL

Quatro papéis guiam o que entra no contexto do RAG:

Papel	ID	Pode ver
Funcionário	`employee`	FAQs públicas, políticas gerais RH
Admin RH	`hr_admin`	Políticas RH completas (exceto salários de terceiros)
SRE	`sre`	Runbooks, infra restrita
Estagiário	`intern`	Subconjunto de employee, sem salários

O mesmo assistente, perguntas parecidas, contextos diferentes. Isso é ACL aplicada na recuperação de documentos, não só no menu do front.

Para founders

Risco de negócio: adotar “IA agêntica” sem governança replica o gap de 7–8% de maturidade. Resposta errada em RH ou vazamento de runbook restrito não é glitch, é passivo trabalhista e segurança.
Custo típico de errar o caminho: R$ 15 mil–R$ 80 mil em POC mal escopada (licença + integração + retrabalho) antes de descobrir que faltava ACL, auditoria ou eval; SaaS de chatbot genérico pode custar menos no cartão, mas não fecha o gap do Núcleo Desk.
Quando o caminho genérico não basta: se o diferencial competitivo passa por dado interno e processo (não só FAQ pública), e se você precisa de resposta citável para auditoria, prompt no ChatGPT Team não escala.

Para devs

O que colocar no portfólio e no LinkedIn ao longo desta trilha (e o que este episódio já antecipa):

Diagrama de arquitetura: LLM + RAG + tools + UX; mostre onde entra ACL.
RAG governado: chunking, embeddings, retrieval com filtro por papel.
Tool calling + MCP: integração real com Jira/Confluence, não mock infinito.
Evals e observabilidade: promptfoo, métricas de fidelidade à fonte, custo por sessão.
Stack empregável no BR: TypeScript, React Router 7, Supabase, Vercel AI SDK; siglas com explicação na primeira ocorrência.

Vagas de engenheiro de IA no Brasil em 2026 pedem menos “prompt engineer” e mais context engineering: montar o que o modelo realmente vê antes de gerar resposta. Esse é o tema do próximo episódio.

Próximo episódio

Esta é a Parte 1 da trilha Núcleo Desk. Não há episódio anterior; começamos aqui.

Próximo da trilha (já publicado): Context engineering: a skill fundamental do AI engineer no Brasil em 2026, com o system_prompt.md do Núcleo Desk e o que cada papel (employee, hr_admin, sre, intern) realmente enxerga no contexto.

Estou aprendendo a colocar IA em produção e documentando o case Núcleo Desk em público. Me acompanhe no LinkedIn para seguir a trilha, trocar ideias e discutir o que estou construindo.

O problema no Núcleo Desk

A pilha em camadas

LLM: o motor de linguagem

RAG: Retrieval-Augmented Generation

Agentes: loop com ferramentas

MCP: Model Context Protocol

UX e portal

Quando usar cada camada

Stack escolhida para a trilha

Papéis e ACL

Para founders

Para devs

Próximo episódio

Bibliografia

Adoção de IA agêntica no Brasil (BCG via GFT Tech Trends 2026 LATAM)

Projeção Gartner: cancelamento de projetos de agentes até 2027

Maturidade em governança de IA (7–8%)

PL 2338/2023: marco legal de IA

Contexto adicional: Brasil no cenário global