Context engineering: a skill fundamental do AI engineer no Brasil em 2026 — iwill.dev

Em maio de 2026, Lucas Souza publicou no Blog Beer And Code uma leitura do mercado brasileiro com base em 200 vagas de AI engineer (LinkedIn, Gupy e Indeed, 1 a 20/mai/2026): context engineering, evals e harness sobem; prompt engineering isolado perde peso (artigo de 23/05). Dados agregados Indeed/LinkedIn citados pelo levantamento indicam queda de ~73% em postagens com título “Prompt Engineer” entre 2023 e abril/2026 (SolidAITech). A Anthropic formalizou context engineering como evolução do prompt engineering: curar o conjunto ótimo de tokens na inferência, não só polir a frase do usuário.

No LinkedIn BR, anúncios pedem quem saiba montar RAG (Retrieval-Augmented Generation, geração aumentada por recuperação), filtrar contexto por ACL (Access Control List, lista de controle de acesso) e medir se o modelo usou o trecho certo. Não é moda de nomenclatura: é a diferença entre um chat que inventa política de RH e um portal interno que cita o documento que o estagiário tem permissão de ver.

Se você leu o mapa LLM → RAG → agentes → MCP, já sabe onde cada camada encaixa. Hoje a pergunta é mais íntima: o que exatamente entra na janela de contexto antes do modelo gerar a primeira palavra? Quem responde isso com código e métrica é context engineer. Quem só polia frase no ChatGPT era prompt engineer. O mercado brasileiro está trocando o segundo pelo primeiro.

O problema no Núcleo Desk

No Núcleo Desk, portal de suporte interno de um SaaS B2B com cerca de 800 funcionários, três perguntas aparecem todo dia:

“Quantos dias de férias posso tirar este ano?”
“Como faço deploy de um serviço em staging?”
“Onde vejo a política de reembolso de despesas?”

Parece FAQ. O inferno está no contexto:

Papel	ID	Documentos que podem entrar no RAG
Funcionário	`employee`	`politica-ferias.md`, `faq-billing.md` (RH geral)
Admin RH	`hr_admin`	Políticas RH completas, exceto salários de terceiros
SRE	`sre`	`runbook-deploy.md` (classificação `restricted`)
Estagiário	`intern`	Subconjunto de `employee`, sem faixas salariais

Um bot genérico treinado na internet responde férias com CLT genérica e inventa passo de deploy. Um portal sem context engineering manda o runbook de produção para quem deveria ver só FAQ de billing. Os dois cenários viram incidente: trabalhista no primeiro, segurança no segundo.

A tese deste episódio: context engineering é desenhar, versionar e auditar tudo que o LLM (Large Language Model, modelo de linguagem) recebe, não só o parágrafo “ você é um assistente útil”.

Context engineering vs prompt engineer

Prompt engineer (título em declínio no BR) otimizava frases isoladas: tom, few-shot, “pense passo a passo”. Funciona em demo. Em produção B2B, o prompt fixo é uma fatia pequena do contexto.

Context engineering cobre o pipeline inteiro:

System prompt versionado em arquivo no repositório (Núcleo Desk: prompts/system_prompt.md, nome escolhido pelo time).
Instruções por papel derivadas da ACL.
Trechos RAG recuperados com filtro dept + classification.
Resultado de tools (futuro: Jira, Confluence via MCP, Model Context Protocol).
Histórico truncado com critério (últimos N turnos, resumo, ou descarte).
Metadados de auditoria (ids de chunk, score, papel ativo).

No mundo real, quem contrata engenheiro de IA quer ver o diagrama acima implementado, não print de conversa no playground.

O `system_prompt.md` do Núcleo Desk

O system_prompt.md concentra o que o modelo precisa saber antes da primeira pergunta do usuário: persona, regras de segurança, limites de ACL e contrato de resposta (como citar, quando dizer “não encontrei”). O conteúdo fica em Markdown, com seções nomeadas.

Versionar esse arquivo em Git, com PR, diff e tag por release, é prática recomendada em produção. O nome do arquivo pode ser definido pelo time; no Núcleo Desk usamos prompts/system_prompt.md (apps/portal/prompts/system_prompt.md no monorepo previsto) porque o basename deixa claro o papel do artefato.

Trate instrução como código: testes no CI validam que placeholders como {{user_role}} e {{rag_chunks}} são injetados corretamente antes da inferência.

Template `prompts/system_prompt.md` (Núcleo Desk v0.2)

Trecho ilustrativo; papéis estendem via template Handlebars/{{…}} na hora do build ou da request:

# Nucleo Desk: system prompt v0.2

Voce e o assistente interno do Nucleo Desk (People + IT).

## Regras inviolaveis
- Responda apenas com base nos documentos fornecidos em {{rag_chunks}}.
- Se a resposta nao estiver na base, diga explicitamente: "Nao encontrei na base interna."
- Cite sempre o titulo do documento fonte.
- Nunca revele conteudo classificado acima do papel {{user_role}}.
- Nunca invente valores de salario, beneficio ou passo de infra nao documentado.

## Papel ativo: {{user_role}}
{{role_instructions}}

## Documentos recuperados
{{rag_chunks}}

## Formato
- Portugues (Brasil), tom direto.
- Listas curtas; runbooks em passos numerados.
- Ao final, inclua bloco JSON de auditoria (nao mostrar ao usuario final na UI):
  {"sources": [...], "role": "...", "confidence": "high|medium|low"}

Instruções por papel (`role_instructions`)

Papel	Bloco injetado em `{{role_instructions}}`
`employee`	Pode orientar sobre ferias e billing interno. Nao acessar runbooks de infra.
`hr_admin`	Pode detalhar politicas RH completas. Nao exibir salarios de outros funcionarios.
`sre`	Pode detalhar runbooks e procedimentos restritos. Escalar deploy em producao para HITL (human-in-the-loop, humano no circuito).
`intern`	Mesmo escopo de employee, mas omitir qualquer mencao a faixa salarial ou compensacao.

O assistente não muda de personalidade a cada pergunta; muda o subconjunto de verdade que pode usar. Isso é ACL aplicada antes da inferência, não depois da resposta pronta.

O que cada papel enxerga na prática

Fixtures da trilha (Markdown em PT, metadados para ACL futuro):

Arquivo	`dept`	`classification`	Visível para
`politica-ferias.md`	`hr`	`internal`	`employee`, `hr_admin`, `intern` (sem salários)
`faq-billing.md`	`product`	`internal`	todos exceto conteúdo fora do escopo
`runbook-deploy.md`	`sre`	`restricted`	`sre` apenas

Cenário: pergunta “Como faço deploy de um serviço em staging?”

employee: RAG não retorna runbook-deploy.md. Contexto traz só FAQs. Resposta esperada: “Não encontrei na base interna” + link para abrir chamado IT.
sre: chunk do runbook entra em {{rag_chunks}}. Resposta cita passos reais, com classificação restricted registrada na auditoria.
intern: igual employee; se alguém indexou salário no chunk de férias por erro, regra do system prompt (arquivo prompts/system_prompt.md) manda omitir.

Sem montagem explícita, o modelo preenche lacuna com alecrim dourado. Context engineering existe para deixar a lacuna visível.

Context rot e ordem de montagem

Context rot é a degradação de qualidade quando a janela enche de ruído: histórico longo demais, chunks irrelevantes, tool output gigante, system prompt duplicado em todo turno. A Anthropic descreve o fenômeno no artigo Effective context engineering for AI agents: contexto é recurso finito com retorno marginal decrescente; cada token irrelevante compete pela mesma atenção. O tutorial Engenharia de contexto vence prompt engineering (Beer And Code, 08/05/2026) resume Lost in the Middle (Liu et al., 2023) e Context Rot (Chroma, 2025): performance não escala linearmente com tamanho do input, mesmo em modelos de janela longa. A tabela comparativa do mesmo artigo traz números ilustrativos (médias de pipeline próprio do autor), não benchmark independente. Aqui citamos só a direção qualitativa do efeito.

Ordem que funciona no Núcleo Desk (do mais estável ao mais volátil):

prompts/system_prompt.md ou equivalente (cacheável por versão + papel)
Instruções de papel
Chunks RAG ordenados por score, cap por token budget
Tool results (somente o necessário)
Histórico recente (truncar ou resumir)

Regra prática: se o budget é 8k tokens e os chunks consomem 6k, sobra pouco para raciocínio. Melhor menos chunk com score alto do que indexar o Confluence inteiro. Chunking fino entra no próximo episódio; aqui o ponto é priorizar o que entra, não empilhar tudo.

Custo ilustrativo BR: reenviar system prompt de 2k tokens em 500 sessões/dia multiplica a conta de API. Cache de system + deduplicação de chunks no mesmo ticket pode economizar dezenas a centenas de reais por mês em escala modesta. O vilão não é só o preço por token; é contexto mal dimensionado.

Métricas que o recrutador pergunta

Você não precisa decorar buzzword. Precisa mostrar número em entrevista:

Context utilization ratio

Proporção de tokens do contexto final que o modelo efetivamente citou ou seguiu na resposta. O tutorial de context engineering do Beer And Code (30/05/2026) descreve como métrica que recrutador pergunta em entrevista técnica de AI engineer: times maduros miram ratio ≥ 0,4; pipelines descuidados rodam em ~0,1 e queimam budget de token sem ganho de qualidade. Medição manual no início (planilha + eval); automatizada quando a trilha chegar em evals com promptfoo.

Exemplo ilustrativo:

ratio = tokens_citados_ou_alinhados / tokens_totais_contexto

Entrevista: “Como você sabe que o RAG ajudou?” Mostre ratio subindo quando filtra chunk ruim e cai quando indexa lixo.

Outras métricas úteis no portfólio

Métrica	O que prova
Faithfulness	Resposta ancorada no chunk, não inventada
ACL violation rate	Zero é o alvo; qualquer vazamento é P0
Tokens por ticket	Custo operacional em R$
Empty retrieval rate	Quantas vezes “não encontrei” é correto vs bug

Vaga de AI Engineer no BR em 2026: menos “crie 10 prompts criativos”, mais “desenhe o pipeline de contexto e prove com eval”.

Para founders

Risco de negócio: chatbot genérico sem contexto do negócio homogeniza resposta e ignora ACL. Funcionário recebe instrução de deploy; estagiário vê menção salarial vazada. Passivo trabalhista e LGPD (Lei Geral de Proteção de Dados) batendo na porta.
Custo típico de errar: R$ 8 mil a R$ 40 mil em integração “plug-and-play” que não indexa seus PDFs com metadado, não versiona system prompt e não audita chunk usado. Barato no cartão, caro no incidente.
Quando o caminho genérico não basta: se o diferencial está em política interna, runbook ou processo que muda todo mês; se auditoria exige “qual documento sustentou esta resposta”; se você já comprou SaaS e a taxa de “não sei” ou alucinação assusta o jurídico.

Para devs

O que colocar no GitHub e no LinkedIn depois deste episódio:

System prompt em Git (prompts/system_prompt.md no Núcleo Desk; ou AGENTS.md / CLAUDE.md se o case for agente de código) com variantes por user_role e testes Vitest que validam injeção de template.
Diagrama de montagem de contexto (Mermaid ou PNG) antes do LLM.
Tabela ACL × fixtures mostrando filtro na recuperação, não só no front.
Planilha ou script de eval com context utilization ratio em 10 perguntas golden (mesmo manual).
README em PT explicando context rot e por que você trunca histórico.

Frase para headline: “Context engineering para portal B2B com ACL e RAG governado” bate mais forte que “Prompt engineer ChatGPT”.

Próximo episódio

Esta é a Parte 2 da trilha Núcleo Desk. Episódio anterior: LLM, RAG, agentes e MCP: o mapa que o mercado brasileiro precisa em 2026.

No próximo artigo: chunking e embeddings em documentos português, custo de indexação em R$ e metadados dept/classification que alimentam o filtro ACL que vimos hoje.

Estou aprendendo a colocar IA em produção e documentando o case Núcleo Desk em público. Me acompanhe no LinkedIn para seguir a trilha, trocar ideias e discutir o que estou construindo.

Bibliografia

Vagas BR e context engineering vs prompt engineer

AI engineer no 2º semestre de 2026: o que o recrutador vai pedir (Lucas Souza, 23/05/2026): leitura de 200 vagas BR (LinkedIn, Indeed, Gupy, 1 a 20/mai/2026). Quatro skills que sobem: context engineering, evals, harness, compliance. Três que perdem peso: fine-tuning open-source como skill central, prompt engineering isolado, devoção a framework. Nas JDs, context engineering aparece disfarçado de “RAG em produção”, “embeddings e reranking”, “pipeline híbrido BM25 + vetorial”, “context window com sub-agents ou MCP”.
Context engineering: a skill nº 1 do AI engineer em 2026 (Lucas Souza, 30/05/2026): vaga sênior de 2026 “não acha prompt engineer” no texto; pede “experiência desenhando pipelines de contexto para agentes em produção”. Introduz context utilization ratio e os cinco pilares (retrieval, compaction, structure, recency, token budget).
Engenharia de contexto vence prompt engineering (Lucas Souza, 08/05/2026): Karpathy e Lütke (2025) renomeiam o problema; tabela comparativa de três configs (inflado vs enxuto). O autor avisa que os números são ilustrativos da ordem de grandeza (médias de pipeline próprio), não benchmark publicado replicável: referência de eixo, não verdade absoluta. Referencia Anthropic, Lost in the Middle (Liu et al., 2023) e Context Rot (Chroma, 2025).
Glossário do AI Engineer Vol.2: 20 termos de 2026 (Lucas Souza, 26/05/2026): context engineering entra no vocabulário de times de produção; cita Anthropic calling it “the #1 job of the AI Engineer”. Bônus: cinco termos que sumiram (incluindo hype de prompt isolado).

Declínio do título “prompt engineer” (dado agregado)

The Prompt Engineer Job Is Dead: What Replaced It in 2026 (SolidAITech, abr/2026): ~73% de queda em postagens com título “Prompt Engineer” no agregado Indeed/LinkedIn (pico 2023 → abr/2026). Skill absorvida por AI Systems Auditor, LLM Quality Analyst, AI Pipeline Engineer. Fonte citada pelo levantamento BR do Beer And Code acima.

Definição técnica e context rot (primárias)

Effective context engineering for AI agents (Anthropic Engineering): define context engineering como “strategies for curating and maintaining the optimal set of tokens during LLM inference”; evolução natural do prompt engineering. Princípio guia: menor conjunto de tokens de alto sinal que maximiza o resultado desejado. Formaliza context rot e estratégias (compaction, just-in-time retrieval, sub-agentes).
Context engineering tools cookbook (Anthropic, Claude Cookbooks): compaction, tool-result clearing e memory como alavancas de eficiência de contexto.

Versionamento de instruções em Git

Prompt templates (llmbestpractices): pasta prompts/ no repo, filename estável, placeholders nomeados, eval ao lado do template.
AGENTS.md: padrão aberto para agentes de código (Codex, Cursor, Copilot); não substitui system_prompt.md de portal RAG.
Claude Code memory (CLAUDE.md): instruções de projeto por sessão na CLI Anthropic.
Tock: RAG Prompt Framework: system rules + business rules + runtime data + schema JSON (modelo conceitual para chatbot B2B).
Prompt versioning strategies: prompts como artefatos em Git, revisados em PR, com metadata e rollback.

Trilha Núcleo Desk

Mapa LLM, RAG, agentes e MCP: episódio anterior da trilha; persona Núcleo Desk e papéis ACL.

LGPD e contexto com dado pessoal

ANPD: Lei Geral de Proteção de Dados: base legal para tratamento de dado pessoal em contexto de assistente interno (políticas RH, auditoria).