Goal
Define onde chegar e qual evidência encerra. Sem condição de parada, a meta vira pedido aberto.
Goal é o destino verificável. Loop é o motor que repete executar, validar e corrigir. Plan Mode é análise sem editar. Rider é o trilho que impede o agente de parecer produtivo enquanto sai do caminho.
Use este mapa para entender a sequência da aula antes de entrar nos detalhes.
O erro comum é misturar feature nativa, motor de repetição e convenção de prompt engineering.
Define onde chegar e qual evidência encerra. Sem condição de parada, a meta vira pedido aberto.
Executa ciclos enquanto houver falha objetiva. Loop bom muda a hipótese depois de cada validação.
Carrega escopo, fontes, skills, stop rules e gates. É a peça que impede autonomia de virar deriva.
Contrato de chegada. Diz qual resultado precisa existir e como saber que terminou.
Contrato de repetição. Diz como o agente deve tentar, validar, corrigir e tentar de novo.
Contrato de análise sem edição. O agente lê, pesquisa e planeja sem editar até existir direção aprovada.
Contrato de condução. Diz contexto, skills, fontes, restrições, critérios e gates.
GOAL/CONTEXT/CONSTRAINTS é uma convenção útil dentro do prompt; não é sintaxe nativa obrigatória.
Pedido sem destino verificável. Pode gerar trabalho bonito, mas não garante fechamento.
A pesquisa separa o que é feature nativa, o que é modo de trabalho e o que é engenharia de prompt.
Antes de acionar autonomia, escolha o tamanho do contrato.
Quanto mais longa e ambígua, mais contrato ela precisa.
É pequena, reversível e fácil de conferir.
Você sabe que é importante, mas ainda não sabe o caminho nem o aceite.
Tem 2-4 passos, mas pouca incerteza.
Tem validator, teste, lint, review ou qualidade objetiva.
Vai durar muitos ciclos e precisa manter direção.
Se não consegue, ainda não é hora de /goal.
Uma ação, pouca incerteza, conferência manual rápida.
Executar, validar, corrigir e repetir enquanto o gate falhar.
Autonomia longa com contexto, skills, DoD e anti-drift explícitos.
Investigar sem editar, extrair critérios de aceite e só então ligar autonomia.
Goal bom é curto, mas não é raso. O detalhe pesado fica no rider.
Goal curto + rider longo + validators
Estado final mensurável.
Arquivos, fontes de verdade e restrições.
Especialistas por fase: didática, UX, DS, QA.
Comandos e critérios que provam avanço.
Quando encerrar ou quando pedir ajuda.
Se uma célula fica vazia, o agente vai inventar.
O que precisa estar verdadeiro no final?
Onde pode mexer e onde não pode?
Qual benchmark define qualidade?
Quem ajuda em cada fase?
Que comandos ou inspeções provam que passou?
Quando encerrar sem fingir progresso?
Os melhores exemplos de Claude Code e Codex não vendem mágica. Eles repetem a mesma engenharia: outcome claro, arquivos persistentes, stop rules e prova.
A pilha que mais se repete nos workflows bons
Define o que será construído ou ensinado.
Mantém regras estáveis entre Codex e Claude Code.
Detalha fases, skills, gates e riscos.
Dispara o trabalho autônomo com done-when verificável.
Confere o transcript e exige nova iteração se não fechou.
Use esta estrutura quando a tarefa for importante o suficiente para não caber em um pedido solto. Ela é convenção de prompt engineering, não sintaxe obrigatória do comando.
Use quando o resultado cabe em uma condição clara e provável no transcript.
/goal→estado final→evidência→limite/goal — Ativa o modo de meta com uma condição verificável.Estado final — O que precisa estar verdadeiro para encerrar.Evidência — Qual comando, artefato ou contagem prova que terminou.Limite — Quando parar por turnos, tempo, bloqueio ou ambiguidade.Use para coding, curso, módulo, refactor ou qualquer trabalho com risco de drift.
GOAL→CONTEXT→CONSTRAINTS→PRIORITY→PLAN→DONE WHEN→VERIFY→OUTPUT→STOP RULESGOAL — Uma frase com resultado mensurável.CONTEXT — Repo, arquivos, estado atual e fontes de verdade.CONSTRAINTS — O que não pode mudar, onde não pode mexer e quais padrões preservar.PRIORITY — Ordem de decisão quando houver conflito.PLAN — Entender primeiro, restatar, fazer mudanças mínimas e validar.DONE WHEN — Critérios objetivos que qualquer avaliador consegue conferir.VERIFY — Testes, lint, build, rota, screenshot ou rollback plan.OUTPUT — Resumo, arquivos alterados, riscos e validações.STOP RULES — Ambiguidade real, credencial faltante, destrutivo, escopo proibido ou limite de ciclos.Use quando você sabe o que quer, mas ainda não sabe formular a missão com precisão.
ler sessão→ler repo→inferir intenção→perguntar lacunas→gerar /goalLeia — Analise esta conversa, o repo e os arquivos relevantes.Extraia — Identifique intenção, restrições, risco, Definition of Done e validators.Scorecard — Defina métrica, threshold, regression check e o menor teste representativo antes de rodar.Pergunte — Faça perguntas só se a ambiguidade impedir um goal seguro.Escreva — Gere um /goal curto e um rider ou SPEC separado.Revise — Critique o goal como avaliador antes de rodar.O ganho não é escrever menos. É tirar o humano do microgerenciamento quando o critério de chegada é verificável.
O velho fluxo de trabalho parecia controle: pedir uma mudança, esperar, revisar, pedir outra correção, esperar de novo, lembrar o agente do que já tinha sido combinado. O novo fluxo troca conversa por contrato: a pessoa define o estado final, os limites, os gates e a regra de parada. O agente itera sozinho enquanto houver falha objetiva.
Quando o resultado é mensurável, o humano não precisa aprovar cada microcorreção.
A mudança real: de conversa para contrato
Goal, contexto, constraints, done-when e stop rules.
Implementar, validar, corrigir, repetir.
O avaliador confere se a evidência prometida apareceu.
Resumo final, arquivos alterados, riscos e próximos passos.
Em runs longas, o chat não deve ser a memória principal. A memória precisa morar no repo.
A pergunta não é qual arquivo é mais bonito. É qual ambiguidade cada um remove.
Define o produto, módulo ou aula: objetivo, estrutura, entregáveis e aceite.
Define regras permanentes: linguagem, git, segurança, estilo, validators.
Define a missão longa: fases, skills, scorecard, anti-drift e stop rules.
Registra progresso e decisões quando a execução dura muitos ciclos.
Quando ainda não está claro o que construir ou ensinar.
Quando você quer consistência entre sessões, IDEs e modelos.
Quando o trabalho é grande demais para caber em uma conversa.
Para AIOX Courses, SPEC não é documento corporativo. É um molde para o agente saber exatamente que aula ou módulo precisa nascer.
Use antes de gerar uma aula nova, especialmente se ela virar material canônico.
Overview→Audience→Objectives→Structure→Done when→Guidelines→Validation→Change logOverview — Uma frase com o resultado de aprendizagem.Audience — Quem é o aluno, o que ele já sabe e onde costuma confundir.Objectives — 2-4 objetivos com verbo observável.Structure — Seções, exemplos, prática, portão e artefatos visuais esperados.Done when — Lista verificável de aceite didático, visual e técnico.Guidelines — Tom, linguagem, acessibilidade, marca e densidade de texto.Validation — Comandos, inspeção visual, revisão adversarial e score mínimo.Change log — Registro curto do que mudou para o documento ser vivo.A pesquisa deixou uma regra clara: o avaliador de /goal só consegue fechar aquilo que aparece como evidência no transcript.
A diferença não é religiosa. É operacional: avaliador, persistência, custo, Plan Mode e recuperação mudam o melhor uso de cada ferramenta.
O aluno não precisa decorar versão. Ele precisa entender que cada diferença muda uma decisão prática.
Claude expõe um avaliador Haiku transcript-only. Codex não documenta um validador separado com nome; por isso a evidência precisa estar ainda mais explícita no transcript.
Codex guarda estado de goal em SQLite e pode retomar melhor depois de crash, reboot ou TUI fechado. Claude depende mais da sessão, compaction e arquivos manuais.
Benchmarks comunitários comparáveis apontam Codex consumindo 3-4x menos tokens em tarefas longas. Ainda assim, custo real varia por plano e precisa de budget rule.
Claude vence quando você quer análise read-only clara. Codex tem nudges e TUI, mas não é a mesma garantia operacional.
Codex tem `token_budget`, hooks e estado retomável. Claude tem hooks granulares. Em ambos, STOP RULES continuam obrigatórias.
A parte madura da aula é mostrar que nem toda afirmação tem o mesmo peso.
A diferença prática é simples: /goal é o modo nativo com avaliação entre turnos; Ralph Loop é o padrão manual de executar, verificar, criticar e repetir.
Você define uma condição de conclusão verificável. A ferramenta continua entre turnos até a condição aparecer como evidência suficiente.
Você monta manualmente o ciclo: agente trabalha, verifica contra o goal, critica a própria saída e roda outra iteração.
Os dois tentam resolver o mesmo problema: manter a IA trabalhando até existir prova de conclusão.
/goal transformou um padrão manual da comunidade em interface nativa, com pause, resume, clear e estado visível.
Sem stop rules, turn limit e evidência objetiva, qualquer loop vira consumo de token com aparência de progresso.
O fluxo mais forte não começa rodando o goal. Começa pedindo a um modelo mais forte para escrever o contrato certo.
Goal engineering loop
Modelo forte lê sessão, repo, SPEC e intenção.
Ele escreve /goal, constraints, done-when, verify e stop rules.
Codex ou Claude executa o goal com arquivos persistentes.
Outro olhar revisa output, riscos e evidência.
Se a crítica é objetiva, volta para o loop.
Use quando a tarefa é grande demais para confiar no primeiro goal escrito à mão.
criar SPEC→forjar /goal→executar→review adversarial→corrigirSPEC.md — Define aula, módulo, objetivos, entregáveis e critérios.Goal forge — Modelo forte converte SPEC + contexto em /goal curto e rider claro.Execução — Agente roda em loop até validators e DoD passarem.Review — Segundo agente ou humano revisa didática, visual, técnica e risco.Fechamento — Só encerra com prova, não com relato otimista.A ideia fica mais fácil quando vira caso real, com frase fraca, frase forte e evidência esperada.
Quando o escopo é pequeno, o goal precisa proteger arquivos fora do alvo.
Quando há muitos problemas parecidos, agrupe por classe de remediação.
Quando a entrega é educacional, teste verde não basta.
O padrão é sempre converter intenção vaga em prova concreta.
O que o aluno escreveria no impulso.
O mesmo pedido com escopo, critério e parada.
O que precisa aparecer no final para acreditar.
A regra reutilizável para o próximo goal.
Use para mostrar ao aluno a diferença entre frase curta e contrato suficiente.
migração→eval→teste/lint→coverageMigração — `/goal Finish the migration and keep tests green.` Curto, mas tem estado final: migração concluída e testes verdes.Eval — Melhorar prompt até accuracy 85% ou parar após 20 iterações. Tem métrica e freio.Teste/lint — Todos os testes em `test/auth` passam e lint está limpo. É o exemplo clássico de done-when binário.Coverage — Cobertura de `src/billing/` chega a 85% e lint passa. Número objetivo reduz interpretação.O aluno não precisa decorar nomes. Ele precisa entender quando cada skill entra.
Use quando o trabalho tem muitas aulas, design, dados estruturados e validação.
ler rider→diagnosticar aula→melhorar conteúdo→melhorar UI→validar→repetirAIOX:course-creator — Diagnostica didática, objetivos, exemplos, prática e Portão da aula.AIOX:aiox-ux-designer — Ajusta hierarquia, sidebar, hero, espaçamento e leitura.AIOX:design-system — Garante wrappers finos e uso de Brandbook antes de criar componente local.AIOX:visual-knowledge-chief — Converte conceitos abstratos em diagramas, matrizes e fluxos.AIOX:aiox-dev — Implementa YAML, TS, TSX e CSS local sem quebrar rotas.AIOX:aiox-qa — Roda typecheck, lint, quality:lessons, YAML changed e doctor.Use antes de qualquer /goal longo, caro ou com múltiplas aulas.
SPEC→scorecard→baseline→monitorar→controleSPEC/Rider — Coloque DoD, constraints, non-goals, skills e gates em arquivo persistente antes do goal.Scorecard — Defina threshold, regression check e o teste rápido que prova avanço em cada ciclo.Baseline — Rode os validadores principais antes para não culpar o goal por falha antiga.3-5 turns — Monitore as primeiras iterações. Se ele entendeu errado no começo, a autonomia só amplifica o erro.pause/resume/clear — Use `/goal pause` para congelar, `/goal resume` para continuar e `/goal clear` para matar um loop ruim.Uma aula por ciclo, conteúdo antes do visual, validação antes de avançar.
Use quando o avaliador automático pode passar algo tecnicamente correto, mas didaticamente fraco.
gerar→validar→revisar contra→corrigir→fecharAIOX:aiox-qa — Confere validadores e riscos técnicos.AIOX:course-creator — Confere clareza, objetivo, exemplo, prática e Portão da aula.AIOX:aiox-ux-designer — Confere se a aula está legível, com ritmo e sem ruído visual.Critério — Se o segundo olhar encontrar risco real, volta para o loop.Um goal seguro não depende de fé no agente. Ele tem freio, evidência e regra para parar quando o loop não aprende.
Melhorar até ficar excelente.
Esclareça: Troque por critério verificável: arquivos, rotas, score, testes e revisão.
Não mude nada, mas reformule tudo.
Esclareça: Priorize: o que pode mudar, o que não pode e quem vence em conflito.
Continue até terminar.
Esclareça: Use limite de turnos, tempo ou erro repetido para impedir queimar crédito.
Precisa de aprovação, credencial ou decisão externa.
Esclareça: O agente deve pedir uma vez e pausar, não repetir o mesmo pedido em loop.
Um orquestrador continua chamando uma peça que falha.
Esclareça: Depois de 3 falhas iguais, pare e reporte o elo quebrado.
Use quando for revisar uma aula ou módulo inteiro com /goal.
SPEC→goal→turnos iniciais→pausar se desviar→fechar com prova1. SPEC primeiro — Revise objetivo, deliverables, constraints, non-goals e acceptance criteria.2. Goal gerado por modelo forte — Peça para converter intenção em /goal com DONE WHEN, VERIFY e STOP RULES.3. Primeiras 3-5 turns — Observe se o agente entendeu o caminho. Se começou errado, pause cedo.4. Controle manual — `/goal pause` congela, `/goal resume` continua, `/goal clear` encerra.5. Prova final — O final precisa mostrar outputs de validação, arquivos alterados e riscos residuais.01STOP RULES:02- Halt immediately after 25 turns maximum or 4 hours of wall time.03- If any condition is ambiguous or contradictory, report the exact conflict and pause.04- Never invent requirements or expand scope.05- If user input, credential or permission is needed, ask once and pause.06- If the same error repeats 3 times, stop and summarize what is blocked.07- Do not delete tests, shrink content or remove acceptance criteria just to pass validation.
A diferença entre uma meta fraca e um goal operacional apareceu neste próprio app.
A meta inicial parecia correta: melhorar as aulas até ficarem superiores ao Método S2S. Mas isso ainda deixava espaço demais para progresso falso. O agente poderia melhorar uma aula, mexer em layout, rodar algum comando e parecer produtivo sem fechar o sistema inteiro. O rider transformou a intenção em contrato: quais aulas, qual régua, quais skills, quais gates, onde pode mexer e quando parar.
A frase 'melhorar aulas' virou uma rotina verificável de melhoria aula por aula.
O agente pode trabalhar muito e ainda assim não avançar no resultado.
Deixar o agente decidir qualquer coisa.
Esclareça: Autonomia boa é liberdade dentro de contrato.
Repetir comandos sem mudar a hipótese.
Esclareça: Loop bom diagnostica a falha antes de tentar de novo.
Rodar um comando verde e ignorar a experiência.
Esclareça: Aula precisa passar em código, conteúdo e leitura visual.
Documento longo para parecer elaborado.
Esclareça: Rider bom reduz decisão futura e acelera execução.
Modelo avaliador que nunca erra.
Esclareça: Evaluator ajuda no loop, mas curso ainda precisa de revisão humana ou adversarial.
Ligar o goal e nunca mais olhar.
Esclareça: Funciona para gates objetivos; conteúdo educacional alto nível ainda pede inspeção final.
Achar que a ferramenta sempre vai parar antes de gastar demais.
Esclareça: Não conte com cap de gasto nativo. Coloque limite de turnos, tempo e condição de bloqueio.
Achar que o avaliador vê o filesystem sozinho.
Esclareça: A evidência precisa aparecer na conversa: comando rodado, output mostrado, artefato citado.
Pegue uma tarefa que você pediria de forma vaga e converta em contrato de execução.
Use antes de qualquer tarefa longa em Codex ou Claude Code.
Goal→Contexto→Skills→Gates→StopGoal — O resultado final é...Contexto — As fontes de verdade são...Skills — Use estas skills por fase...Gates — Está pronto quando estes validadores e inspeções passarem...Stop — Pare e peça ajuda somente se...Use como base quando for abrir um goal real para melhorar cursos e aulas.
/goal→seguir rider→uma aula por ciclo→validar→reportar prova/goal — Levar as aulas disponíveis do AIOX Advanced ao padrão Método S2S+.Rider — Seguir `docs/goals/aiox-courses-s2s-rider.md` como contrato operacional.Skills — Usar course-creator para didática, UX para layout, design-system para componentes, QA para gates.Done when — Cada aula tem objetivos, exemplo real, visual, prática, Portão da aula, rota 200 e score aprovado.Verify — `quality:lessons`, typecheck, lint, YAML changed, doctor e inspeção visual quando houver mudança de UI.Stop — Parar por ambiguidade real, credencial, operação destrutiva, escopo proibido, input humano, limite de turns ou erro repetido 3 vezes.A autonomia fica segura quando o agente não precisa adivinhar o que é bom.
Destino verificável. Define o que precisa existir no final.
Motor de repetição. Executa, valida, corrige e tenta de novo.
Contrato de condução. Carrega contexto, skills, fontes, gates e anti-drift.
Documento que descreve o módulo, entregáveis e critérios de aceite.
Documento de regras permanentes para manter consistência entre sessões e ferramentas.
Modelo ou gate que verifica se o transcript provou a Definition of Done.
Regra que impede loop infinito, custo sem controle ou decisão fora do escopo.
Padrão manual de autoavaliação: trabalhar, verificar, criticar e repetir até o goal ser atingido.
Fluxo híbrido em que um modelo forte escreve o goal, outro executa e outro revisa criticamente.
Prova de passagem. Sem gate, o agente só relata progresso.
A anatomia de um goal verificável, para o aluno converter meta fraca em contrato.
01# Goal fraco (o agente relata progresso mas nunca termina):02/goal "melhorar as aulas"0304# Antes do goal, se ainda houver incerteza:05/plan "Leia a aula, o rider e os materiais de pesquisa.06Proponha acceptance criteria maquina-checaveis e gaps humanos.07Nao edite arquivos ainda."0809# Goal contrato (Definition of Done + gate + stop rule):10/goal "Levar todas as aulas disponiveis ao padrao S2S+.11DoD maquina-checavel:12- quality:lessons PASS13- typecheck PASS14- lint sem erro15- YAML changed PASS16- doctor sem erro bloqueante17Constraints:18- nao criar componente local se o brandbook ja tiver equivalente19- nao reduzir profundidade didatica para passar score20Stop rules:21- pare apos 25 turnos22- pare se precisar de credencial ou operacao destrutiva23- se precisar de input humano, pergunte uma vez e pause24- se o mesmo erro repetir 3 vezes, reporte bloqueio e evidencias25- nunca delete testes, reduza conteudo ou remova criterio para passar validacao."