Núcleo Desk: Engenharia de IA no BrasilParte2IA33minutos de leitura

Context engineering: a skill fundamental do AI engineer no Brasil em 2026

Prompt engineer sumiu das vagas BR; context engineering monta o que o LLM vê. system_prompt.md versionado, ACL e métricas no case Núcleo Desk.

Em maio de 2026, Lucas Souza publicou no Blog Beer And Code uma leitura do mercado brasileiro com base em 200 vagas de AI engineer (LinkedIn, Gupy e Indeed, 1 a 20/mai/2026): context engineering, evals e harness sobem; prompt engineering isolado perde peso (artigo de 23/05). Dados agregados Indeed/LinkedIn citados pelo levantamento indicam queda de ~73% em postagens com título “Prompt Engineer” entre 2023 e abril/2026 (SolidAITech). A Anthropic formalizou context engineering como evolução do prompt engineering: curar o conjunto ótimo de tokens na inferência, não só polir a frase do usuário.

No LinkedIn BR, anúncios pedem quem saiba montar RAG (Retrieval-Augmented Generation, geração aumentada por recuperação), filtrar contexto por ACL (Access Control List, lista de controle de acesso) e medir se o modelo usou o trecho certo. Não é moda de nomenclatura: é a diferença entre um chat que inventa política de RH e um portal interno que cita o documento que o estagiário tem permissão de ver.

Se você leu o mapa LLM → RAG → agentes → MCP, já sabe onde cada camada encaixa. Hoje a pergunta é mais íntima: o que exatamente entra na janela de contexto antes do modelo gerar a primeira palavra? Quem responde isso com código e métrica é context engineer. Quem só polia frase no ChatGPT era prompt engineer. O mercado brasileiro está trocando o segundo pelo primeiro.


O problema no Núcleo Desk

No Núcleo Desk, portal de suporte interno de um SaaS B2B com cerca de 800 funcionários, três perguntas aparecem todo dia:

  1. “Quantos dias de férias posso tirar este ano?”
  2. “Como faço deploy de um serviço em staging?”
  3. “Onde vejo a política de reembolso de despesas?”

Parece FAQ. O inferno está no contexto:

Papel ID Documentos que podem entrar no RAG
Funcionário employee politica-ferias.md, faq-billing.md (RH geral)
Admin RH hr_admin Políticas RH completas, exceto salários de terceiros
SRE sre runbook-deploy.md (classificação restricted)
Estagiário intern Subconjunto de employee, sem faixas salariais

Um bot genérico treinado na internet responde férias com CLT genérica e inventa passo de deploy. Um portal sem context engineering manda o runbook de produção para quem deveria ver só FAQ de billing. Os dois cenários viram incidente: trabalhista no primeiro, segurança no segundo.

A tese deste episódio: context engineering é desenhar, versionar e auditar tudo que o LLM (Large Language Model, modelo de linguagem) recebe, não só o parágrafo “ você é um assistente útil”.


Context engineering vs prompt engineer

Prompt engineer (título em declínio no BR) otimizava frases isoladas: tom, few-shot, “pense passo a passo”. Funciona em demo. Em produção B2B, o prompt fixo é uma fatia pequena do contexto.

Context engineering cobre o pipeline inteiro:

  1. System prompt versionado em arquivo no repositório (Núcleo Desk: prompts/system_prompt.md, nome escolhido pelo time).
  2. Instruções por papel derivadas da ACL.
  3. Trechos RAG recuperados com filtro dept + classification.
  4. Resultado de tools (futuro: Jira, Confluence via MCP, Model Context Protocol).
  5. Histórico truncado com critério (últimos N turnos, resumo, ou descarte).
  6. Metadados de auditoria (ids de chunk, score, papel ativo).

No mundo real, quem contrata engenheiro de IA quer ver o diagrama acima implementado, não print de conversa no playground.


O system_prompt.md do Núcleo Desk

O system_prompt.md concentra o que o modelo precisa saber antes da primeira pergunta do usuário: persona, regras de segurança, limites de ACL e contrato de resposta (como citar, quando dizer “não encontrei”). O conteúdo fica em Markdown, com seções nomeadas.

Versionar esse arquivo em Git, com PR, diff e tag por release, é prática recomendada em produção. O nome do arquivo pode ser definido pelo time; no Núcleo Desk usamos prompts/system_prompt.md (apps/portal/prompts/system_prompt.md no monorepo previsto) porque o basename deixa claro o papel do artefato.

Trate instrução como código: testes no CI validam que placeholders como {{user_role}} e {{rag_chunks}} são injetados corretamente antes da inferência.

Template prompts/system_prompt.md (Núcleo Desk v0.2)

Trecho ilustrativo; papéis estendem via template Handlebars/{{…}} na hora do build ou da request:

# Nucleo Desk: system prompt v0.2

Voce e o assistente interno do Nucleo Desk (People + IT).

## Regras inviolaveis
- Responda apenas com base nos documentos fornecidos em {{rag_chunks}}.
- Se a resposta nao estiver na base, diga explicitamente: "Nao encontrei na base interna."
- Cite sempre o titulo do documento fonte.
- Nunca revele conteudo classificado acima do papel {{user_role}}.
- Nunca invente valores de salario, beneficio ou passo de infra nao documentado.

## Papel ativo: {{user_role}}
{{role_instructions}}

## Documentos recuperados
{{rag_chunks}}

## Formato
- Portugues (Brasil), tom direto.
- Listas curtas; runbooks em passos numerados.
- Ao final, inclua bloco JSON de auditoria (nao mostrar ao usuario final na UI):
  {"sources": [...], "role": "...", "confidence": "high|medium|low"}

Instruções por papel (role_instructions)

Papel Bloco injetado em {{role_instructions}}
employee Pode orientar sobre ferias e billing interno. Nao acessar runbooks de infra.
hr_admin Pode detalhar politicas RH completas. Nao exibir salarios de outros funcionarios.
sre Pode detalhar runbooks e procedimentos restritos. Escalar deploy em producao para HITL (human-in-the-loop, humano no circuito).
intern Mesmo escopo de employee, mas omitir qualquer mencao a faixa salarial ou compensacao.

O assistente não muda de personalidade a cada pergunta; muda o subconjunto de verdade que pode usar. Isso é ACL aplicada antes da inferência, não depois da resposta pronta.


O que cada papel enxerga na prática

Fixtures da trilha (Markdown em PT, metadados para ACL futuro):

Arquivo dept classification Visível para
politica-ferias.md hr internal employee, hr_admin, intern (sem salários)
faq-billing.md product internal todos exceto conteúdo fora do escopo
runbook-deploy.md sre restricted sre apenas

Cenário: pergunta “Como faço deploy de um serviço em staging?”

  • employee: RAG não retorna runbook-deploy.md. Contexto traz só FAQs. Resposta esperada: “Não encontrei na base interna” + link para abrir chamado IT.
  • sre: chunk do runbook entra em {{rag_chunks}}. Resposta cita passos reais, com classificação restricted registrada na auditoria.
  • intern: igual employee; se alguém indexou salário no chunk de férias por erro, regra do system prompt (arquivo prompts/system_prompt.md) manda omitir.

Sem montagem explícita, o modelo preenche lacuna com alecrim dourado. Context engineering existe para deixar a lacuna visível.


Context rot e ordem de montagem

Context rot é a degradação de qualidade quando a janela enche de ruído: histórico longo demais, chunks irrelevantes, tool output gigante, system prompt duplicado em todo turno. A Anthropic descreve o fenômeno no artigo Effective context engineering for AI agents: contexto é recurso finito com retorno marginal decrescente; cada token irrelevante compete pela mesma atenção. O tutorial Engenharia de contexto vence prompt engineering (Beer And Code, 08/05/2026) resume Lost in the Middle (Liu et al., 2023) e Context Rot (Chroma, 2025): performance não escala linearmente com tamanho do input, mesmo em modelos de janela longa. A tabela comparativa do mesmo artigo traz números ilustrativos (médias de pipeline próprio do autor), não benchmark independente. Aqui citamos só a direção qualitativa do efeito.

Ordem que funciona no Núcleo Desk (do mais estável ao mais volátil):

  1. prompts/system_prompt.md ou equivalente (cacheável por versão + papel)
  2. Instruções de papel
  3. Chunks RAG ordenados por score, cap por token budget
  4. Tool results (somente o necessário)
  5. Histórico recente (truncar ou resumir)

Regra prática: se o budget é 8k tokens e os chunks consomem 6k, sobra pouco para raciocínio. Melhor menos chunk com score alto do que indexar o Confluence inteiro. Chunking fino entra no próximo episódio; aqui o ponto é priorizar o que entra, não empilhar tudo.

Custo ilustrativo BR: reenviar system prompt de 2k tokens em 500 sessões/dia multiplica a conta de API. Cache de system + deduplicação de chunks no mesmo ticket pode economizar dezenas a centenas de reais por mês em escala modesta. O vilão não é só o preço por token; é contexto mal dimensionado.


Métricas que o recrutador pergunta

Você não precisa decorar buzzword. Precisa mostrar número em entrevista:

Context utilization ratio

Proporção de tokens do contexto final que o modelo efetivamente citou ou seguiu na resposta. O tutorial de context engineering do Beer And Code (30/05/2026) descreve como métrica que recrutador pergunta em entrevista técnica de AI engineer: times maduros miram ratio ≥ 0,4; pipelines descuidados rodam em ~0,1 e queimam budget de token sem ganho de qualidade. Medição manual no início (planilha + eval); automatizada quando a trilha chegar em evals com promptfoo.

Exemplo ilustrativo:

ratio = tokens_citados_ou_alinhados / tokens_totais_contexto

Entrevista: “Como você sabe que o RAG ajudou?” Mostre ratio subindo quando filtra chunk ruim e cai quando indexa lixo.

Outras métricas úteis no portfólio

Métrica O que prova
Faithfulness Resposta ancorada no chunk, não inventada
ACL violation rate Zero é o alvo; qualquer vazamento é P0
Tokens por ticket Custo operacional em R$
Empty retrieval rate Quantas vezes “não encontrei” é correto vs bug

Vaga de AI Engineer no BR em 2026: menos “crie 10 prompts criativos”, mais “desenhe o pipeline de contexto e prove com eval”.


Para founders

  • Risco de negócio: chatbot genérico sem contexto do negócio homogeniza resposta e ignora ACL. Funcionário recebe instrução de deploy; estagiário vê menção salarial vazada. Passivo trabalhista e LGPD (Lei Geral de Proteção de Dados) batendo na porta.
  • Custo típico de errar: R$ 8 mil a R$ 40 mil em integração “plug-and-play” que não indexa seus PDFs com metadado, não versiona system prompt e não audita chunk usado. Barato no cartão, caro no incidente.
  • Quando o caminho genérico não basta: se o diferencial está em política interna, runbook ou processo que muda todo mês; se auditoria exige “qual documento sustentou esta resposta”; se você já comprou SaaS e a taxa de “não sei” ou alucinação assusta o jurídico.

Para devs

O que colocar no GitHub e no LinkedIn depois deste episódio:

  1. System prompt em Git (prompts/system_prompt.md no Núcleo Desk; ou AGENTS.md / CLAUDE.md se o case for agente de código) com variantes por user_role e testes Vitest que validam injeção de template.
  2. Diagrama de montagem de contexto (Mermaid ou PNG) antes do LLM.
  3. Tabela ACL × fixtures mostrando filtro na recuperação, não só no front.
  4. Planilha ou script de eval com context utilization ratio em 10 perguntas golden (mesmo manual).
  5. README em PT explicando context rot e por que você trunca histórico.

Frase para headline: “Context engineering para portal B2B com ACL e RAG governado” bate mais forte que “Prompt engineer ChatGPT”.


Próximo episódio

Esta é a Parte 2 da trilha Núcleo Desk. Episódio anterior: LLM, RAG, agentes e MCP: o mapa que o mercado brasileiro precisa em 2026.

No próximo artigo: chunking e embeddings em documentos português, custo de indexação em R$ e metadados dept/classification que alimentam o filtro ACL que vimos hoje.

Estou aprendendo a colocar IA em produção e documentando o case Núcleo Desk em público. Me acompanhe no LinkedIn para seguir a trilha, trocar ideias e discutir o que estou construindo.


Bibliografia

Vagas BR e context engineering vs prompt engineer

  • AI engineer no 2º semestre de 2026: o que o recrutador vai pedir (Lucas Souza, 23/05/2026): leitura de 200 vagas BR (LinkedIn, Indeed, Gupy, 1 a 20/mai/2026). Quatro skills que sobem: context engineering, evals, harness, compliance. Três que perdem peso: fine-tuning open-source como skill central, prompt engineering isolado, devoção a framework. Nas JDs, context engineering aparece disfarçado de “RAG em produção”, “embeddings e reranking”, “pipeline híbrido BM25 + vetorial”, “context window com sub-agents ou MCP”.
  • Context engineering: a skill nº 1 do AI engineer em 2026 (Lucas Souza, 30/05/2026): vaga sênior de 2026 “não acha prompt engineer” no texto; pede “experiência desenhando pipelines de contexto para agentes em produção”. Introduz context utilization ratio e os cinco pilares (retrieval, compaction, structure, recency, token budget).
  • Engenharia de contexto vence prompt engineering (Lucas Souza, 08/05/2026): Karpathy e Lütke (2025) renomeiam o problema; tabela comparativa de três configs (inflado vs enxuto). O autor avisa que os números são ilustrativos da ordem de grandeza (médias de pipeline próprio), não benchmark publicado replicável: referência de eixo, não verdade absoluta. Referencia Anthropic, Lost in the Middle (Liu et al., 2023) e Context Rot (Chroma, 2025).
  • Glossário do AI Engineer Vol.2: 20 termos de 2026 (Lucas Souza, 26/05/2026): context engineering entra no vocabulário de times de produção; cita Anthropic calling it “the #1 job of the AI Engineer”. Bônus: cinco termos que sumiram (incluindo hype de prompt isolado).

Declínio do título “prompt engineer” (dado agregado)

  • The Prompt Engineer Job Is Dead: What Replaced It in 2026 (SolidAITech, abr/2026): ~73% de queda em postagens com título “Prompt Engineer” no agregado Indeed/LinkedIn (pico 2023 → abr/2026). Skill absorvida por AI Systems Auditor, LLM Quality Analyst, AI Pipeline Engineer. Fonte citada pelo levantamento BR do Beer And Code acima.

Definição técnica e context rot (primárias)

  • Effective context engineering for AI agents (Anthropic Engineering): define context engineering como “strategies for curating and maintaining the optimal set of tokens during LLM inference”; evolução natural do prompt engineering. Princípio guia: menor conjunto de tokens de alto sinal que maximiza o resultado desejado. Formaliza context rot e estratégias (compaction, just-in-time retrieval, sub-agentes).
  • Context engineering tools cookbook (Anthropic, Claude Cookbooks): compaction, tool-result clearing e memory como alavancas de eficiência de contexto.

Versionamento de instruções em Git

Trilha Núcleo Desk

LGPD e contexto com dado pessoal