É possível medir o que professores aprenderam e aplicaram em sala de aula: o que a literatura científica demonstra sobre avaliação da formação docente

Há uma afirmação que ainda aparece em parte dos debates sobre formação continuada: a de que seria impossível, ou pouco viável, mensurar com rigor o que professores aprendem em programas formativos e, sobretudo, o que dessa aprendizagem chega à prática real de sala de aula.

A cautela, nesse tema, é compreensível. Educação não é linha de montagem, professor não é executor mecânico e aprendizagem humana não se reduz a um único indicador. Uma avaliação séria precisa reconhecer essa complexidade.

Ainda assim, complexidade não é sinônimo de impossibilidade.

A literatura em avaliação de treinamento, desenvolvimento profissional docente e pesquisa educacional oferece, há décadas, instrumentos para observar aprendizagem, transferência e impacto. O problema, portanto, raramente está na inexistência de meios técnicos. Está, com frequência maior, no modo como os programas são desenhados: objetivos genéricos, ausência de linha de base, indicadores definidos tarde demais, coleta de evidências limitada à conclusão e à satisfação do participante.

Este artigo parte de uma posição simples: se um programa afirma que pretende alterar a prática docente, precisa ser capaz de demonstrar, com método, em que medida essa alteração ocorreu. Não para punir o professor. Para melhorar o próprio programa.

A origem técnica da mensuração de transferência

A pergunta sobre como mensurar a transferência da aprendizagem para a prática profissional não é nova. Donald Kirkpatrick, em sua proposta clássica de avaliação de treinamento, formulada originalmente em 1959 e posteriormente consolidada em obras de referência, distinguiu quatro níveis de avaliação: reação, aprendizagem, comportamento e resultado.

O terceiro nível, comportamento, trata justamente da alteração observável da prática profissional após a formação. Em contexto educacional, isso significa perguntar se o professor passou a agir de modo diferente em sala de aula em função do programa realizado.

Essa pergunta foi aprofundada por outros autores. Baldwin e Ford (1988), em uma revisão clássica sobre transferência de treinamento, definiram a transferência como a generalização e a manutenção, no ambiente de trabalho, de conhecimentos e habilidades desenvolvidos em formação. A formulação é importante porque impede uma confusão comum: aprender durante o curso não é o mesmo que aplicar depois dele.

No campo específico do desenvolvimento profissional docente, Thomas Guskey (2000) sistematizou cinco níveis de avaliação: reação dos participantes, aprendizagem dos participantes, suporte e mudança organizacional, uso de novos conhecimentos e habilidades, e resultados de aprendizagem dos estudantes. A contribuição de Guskey é especialmente relevante porque desloca a avaliação da formação docente para uma pergunta mais completa: o professor aprendeu, conseguiu aplicar e os alunos foram afetados por essa mudança?

Linda Darling-Hammond e colaboradores (2017), ao analisar características de programas efetivos de desenvolvimento profissional docente, também operam nessa direção. A identificação de programas com impacto depende, necessariamente, de alguma evidência sobre mudança na prática docente e sobre efeitos na aprendizagem dos estudantes. Sem isso, não há impacto demonstrado; há apenas participação registrada.

Portanto, a questão técnica não é se é possível medir. É como medir com rigor suficiente, respeitando a complexidade da educação e a diversidade dos contextos escolares.

Quatro tipos de evidência na formação docente

A literatura consolidada permite organizar a avaliação da formação docente em quatro categorias de evidência. Elas não são equivalentes, nem substituem umas às outras. Cada uma captura uma parte do fenômeno.

Evidência declarada: o que o educador relata ter aprendido e aplicado

A primeira categoria é o autorrelato estruturado. O professor pode ser convidado, em momentos definidos após a formação, a relatar o que compreendeu, o que tentou aplicar, quais obstáculos encontrou e que ajustes realizou.

O autorrelato tem limites conhecidos. Ele pode ser influenciado por desejabilidade social, memória seletiva e expectativas institucionais. Por isso, não deve ser tratado como prova isolada de impacto. No entanto, quando coletado por instrumentos estruturados, em mais de um momento e cruzado com outras evidências, oferece uma camada importante de compreensão.

Modelos como o Concerns-Based Adoption Model, associado aos trabalhos de Hall e Hord (1987), ajudam a compreender estágios de apropriação de uma inovação educacional. Um professor que ainda busca informação básica sobre uma prática não está no mesmo ponto de outro que já a implementa e procura refiná-la. Esse dado é precioso para redesenhar a formação com mais inteligência.

Evidência observada: o que efetivamente acontece em sala de aula

A segunda categoria é a observação da prática docente. Trata-se de uma das evidências mais fortes quando realizada com protocolo estruturado, formação de observadores e critérios claros.

Há instrumentos amplamente conhecidos para esse fim. O Classroom Assessment Scoring System (CLASS), desenvolvido por Pianta, La Paro e Hamre, organiza a observação de interações em sala de aula a partir de domínios e indicadores específicos. O Framework for Teaching, de Charlotte Danielson, estrutura dimensões como planejamento, ambiente de aprendizagem, instrução e responsabilidades profissionais.

Esses instrumentos não precisam ser compreendidos como mecanismos de fiscalização punitiva. Sua função, quando bem utilizados, é produzir evidência qualificada sobre a prática, permitindo identificar avanços, lacunas e necessidades de apoio.

A observação presencial em larga escala pode ser difícil e custosa. Hoje, porém, programas formativos podem combinar observação direta, registros em vídeo, análise por amostragem, observação por pares e devolutivas mediadas. Cada escolha tem implicações éticas e operacionais, especialmente quanto ao consentimento e à proteção de dados. Mas a dificuldade logística não torna a mensuração impossível. Apenas exige desenho cuidadoso.

Evidência produzida: artefatos da prática docente

A terceira categoria envolve os artefatos que o professor produz no exercício da profissão: planos de aula, sequências didáticas, atividades propostas aos alunos, instrumentos avaliativos, registros de acompanhamento, devolutivas, portfólios e materiais de intervenção.

Esses documentos revelam muito mais do que cumprimento burocrático. Quando analisados por rubricas claras, permitem observar mudanças na concepção pedagógica, na qualidade das atividades, na coerência entre objetivo e avaliação, na adaptação ao nível dos estudantes e na capacidade de transformar princípios formativos em prática planejada.

Em programas de formação continuada, comparar artefatos produzidos antes, durante e depois da formação pode oferecer evidência concreta de evolução profissional. Não substitui a observação da aula, mas a complementa. A aula mostra a prática em movimento; o artefato mostra o pensamento pedagógico organizado.

Evidência de impacto: aprendizagem dos alunos atendidos

A quarta categoria é a mais consequente: a aprendizagem dos alunos atendidos pelos professores que participaram da formação.

Essa mensuração exige cautela. A aprendizagem dos estudantes é influenciada por muitas variáveis: contexto socioeconômico, frequência, gestão escolar, recursos disponíveis, trajetória anterior, condições familiares e outros fatores que não podem ser ignorados. Por isso, não é tecnicamente correto atribuir qualquer variação de resultado exclusivamente à formação docente sem um desenho avaliativo adequado.

Ao mesmo tempo, não se pode excluir essa dimensão. Se uma formação pretende melhorar alfabetização, leitura, escrita, resolução de problemas ou qualquer outra aprendizagem específica, é razoável que o programa acompanhe indicadores dos estudantes relacionados a esses objetivos.

Avaliações diagnósticas antes e depois da intervenção, grupos de comparação quando possíveis, análise longitudinal, amostragens bem definidas e critérios consistentes de leitura dos dados permitem avaliar impacto com mais rigor. O What Works Clearinghouse, vinculado ao Institute of Education Sciences, é um exemplo de esforço institucional para estabelecer padrões de análise de evidências em educação. A contribuição desses padrões não está em simplificar a educação, mas em proteger a interpretação dos dados contra conclusões frágeis.

No caso da alfabetização, há instrumentos para acompanhar consciência fonológica, reconhecimento de letras, leitura de palavras, fluência, compreensão e produção escrita, respeitando a etapa de desenvolvimento dos estudantes. O cuidado metodológico está em escolher o instrumento adequado para a pergunta que o programa pretende responder.

A força está na integração das evidências

Nenhuma das quatro categorias, isoladamente, resolve o problema da avaliação. O autorrelato é rico, mas parcial. A observação é forte, mas mais custosa. Os artefatos são concretos, mas não mostram toda a dinâmica da aula. Os indicadores dos alunos são decisivos, mas exigem controle interpretativo.

A robustez aparece quando essas evidências são articuladas.

Um programa pode, por exemplo, iniciar com uma avaliação diagnóstica da prática docente e dos indicadores dos estudantes; acompanhar a aplicação por meio de autorrelatos estruturados e artefatos; observar aulas em momentos-chave; e, ao final de um ciclo, comparar mudanças na prática e nos resultados de aprendizagem. Essa arquitetura permite uma leitura mais justa: mostra o que mudou, onde mudou, para quem mudou, em que condições mudou e onde o programa precisa ser redesenhado.

Desimone (2009), ao discutir estudos de impacto em desenvolvimento profissional docente, chama atenção para a necessidade de melhores conceitualizações e melhores medidas. Essa observação é central. Sem uma teoria clara de como a formação deveria produzir mudança, a coleta de dados vira acúmulo de números. Sem medidas adequadas, a teoria permanece elegante, mas sem prova.

Avaliar formação docente, portanto, não é apenas aplicar questionários. É construir uma cadeia lógica entre intenção formativa, experiência de aprendizagem, mudança de prática e resultado educacional.

Gestão de Projetos Educacionais como infraestrutura de mensuração

Mensurar com rigor em pequena escala já exige método. Mensurar em programas com centenas ou milhares de educadores exige uma arquitetura de gestão.

É nesse ponto que a Gestão de Projetos Educacionais deixa de ser aspecto administrativo e se torna parte da qualidade metodológica do programa. Um projeto formativo sério precisa definir escopo, objetivos, indicadores, cronograma, responsabilidades, riscos, instrumentos de coleta, momentos de análise e mecanismos de ajuste.

Cinco elementos são especialmente importantes.

Definição de KPIs antes da produção do conteúdo. O programa precisa explicitar, desde o início, quais mudanças espera produzir na prática docente e na aprendizagem dos estudantes. Sem essa definição prévia, a avaliação fica dependente do que foi mais fácil registrar, não do que era mais importante saber.

Linha de base. Antes da intervenção, é necessário compreender o ponto de partida: como os professores atuam, quais dificuldades relatam, quais evidências aparecem nos artefatos e quais indicadores de aprendizagem dos alunos estão associados ao problema que se pretende enfrentar.

Coleta longitudinal de evidências. A formação docente não se avalia apenas no último dia do curso. A transferência ocorre no tempo. Por isso, é preciso prever coletas durante e depois da formação, em janelas compatíveis com o tipo de mudança esperada.

Análise integrada. Dados não devem ficar dispersos em planilhas, formulários e relatórios desconectados. A análise precisa reunir evidências declaradas, observadas, produzidas e de impacto, permitindo decisões mais precisas.

Ciclos de ajuste. A função ética da avaliação não é apenas declarar sucesso ou fracasso. É permitir redesenho. Quando uma etapa não produz a apropriação esperada, o programa deve ter maturidade metodológica para corrigir rota.

Plataformas educacionais bem desenhadas podem apoiar essa arquitetura: coleta de autorrelatos, organização de portfólios, envio de artefatos, rubricas digitais, acompanhamento de aplicação, dashboards de gestão e integração com avaliações diagnósticas. A tecnologia, porém, não substitui o método. Ela apenas amplia o alcance de um desenho avaliativo que precisa existir antes dela.

Essa é a perspectiva que orienta os projetos do Instituto Olam: a avaliação não como adendo burocrático, mas como parte estrutural do desenho formativo. Sem mensuração adequada, qualquer afirmação de impacto permanece incompleta.

Por que a ideia de impossibilidade persiste

Se há literatura, instrumentos e experiências acumuladas, por que a afirmação de que “não é possível medir” ainda aparece?

Há pelo menos três explicações plausíveis.

A primeira é o desconhecimento técnico. Nem todos os profissionais que atuam na gestão de programas educacionais tiveram acesso consistente à literatura sobre avaliação de treinamento, desenvolvimento profissional docente, transferência e desenho de evidências. Nesse caso, a resposta é formação. Gestores também precisam ser formados para avaliar programas com rigor.

A segunda é a dificuldade institucional de lidar com evidências desconfortáveis. Avaliações rigorosas podem revelar que um programa bem-intencionado, caro e publicamente valorizado não produziu o efeito esperado. Isso não é agradável. Mas é necessário. A evidência não diminui o trabalho realizado; ela mostra onde o desenho precisa melhorar.

A terceira é uma crítica teórica legítima ao reducionismo avaliativo. Há perspectivas educacionais que rejeitam avaliações simplistas, padronizadas e insensíveis ao contexto. Essa crítica tem valor, especialmente quando se opõe ao uso pobre de números como se fossem explicação suficiente da realidade. O problema começa quando a crítica ao reducionismo se transforma em recusa de qualquer prestação de contas. Entre reduzir a educação a indicadores e abandonar a avaliação rigorosa, há um campo amplo de trabalho sério.

A posição defendida aqui se situa nesse campo. Mensurar não significa empobrecer a educação. Significa assumir responsabilidade sobre aquilo que se promete produzir.

Mensuração como compromisso ético

A avaliação rigorosa de programas formativos não é apenas uma exigência técnica. É uma questão ética.

Quando uma rede investe em formação docente para melhorar alfabetização, ela assume um compromisso com professores, gestores, famílias e crianças. Se o programa não acompanha o que os professores aprenderam, o que aplicaram e o que isso produziu nos estudantes, a instituição perde a oportunidade de saber se está servindo de fato ao público que justificou sua existência.

Isso não significa transferir a responsabilidade do resultado ao professor individualmente. Ao contrário. Uma boa avaliação protege o professor de diagnósticos apressados, porque mostra se ele recebeu formação suficiente, apoio adequado, condições institucionais reais e tempo para apropriação. Avaliar bem é também separar aquilo que pertence ao educador daquilo que pertence ao desenho do programa, à gestão, à política pública e às condições de implementação.

A mensuração rigorosa, quando orientada por ciência e por ética, não é instrumento de punição. É instrumento de justiça metodológica.

Conclusão

A literatura científica não autoriza a afirmação de que é impossível medir o que professores aprenderam e aplicaram em sala de aula. Autoriza uma afirmação mais exigente: medir é possível, mas exige clareza conceitual, instrumentos adequados, desenho longitudinal, integração de evidências e disposição institucional para agir sobre os resultados.

Programas formativos que pretendem produzir transformação real precisam nascer com essa arquitetura. Não basta registrar presença, conclusão e satisfação. Esses dados têm utilidade, mas não respondem à pergunta principal.

O professor aprendeu?

Aplicou em sala de aula?

Essa aplicação produziu algum efeito relevante na aprendizagem dos estudantes?

Essas perguntas não são hostis à educação. São perguntas de responsabilidade. E, talvez, sejam também uma forma de respeito: ao professor, que merece programas capazes de apoiá-lo de verdade; ao gestor, que precisa decidir com evidência; e à criança, que não pode esperar que boas intenções substituam aprendizagem efetiva.

Referências

BALDWIN, T. T.; FORD, J. K. Transfer of training: A review and directions for future research. Personnel Psychology, v. 41, n. 1, p. 63-105, 1988. DOI: 10.1111/j.1744-6570.1988.tb00632.x.

DARLING-HAMMOND, L.; HYLER, M. E.; GARDNER, M. Effective Teacher Professional Development. Palo Alto, CA: Learning Policy Institute, 2017. DOI: 10.54300/122.311.

DANIELSON, C. The Framework for Teaching Evaluation Instrument: 2013 Edition. Princeton: The Danielson Group, 2013.

DESIMONE, L. M. Improving impact studies of teachers' professional development: toward better conceptualizations and measures. Educational Researcher, v. 38, n. 3, p. 181-199, 2009. DOI: 10.3102/0013189X08331140.

GATTI, B. A. Avaliação e qualidade do desenvolvimento profissional docente: que relação? Avaliação: Revista da Avaliação da Educação Superior, Campinas; Sorocaba, SP, v. 19, n. 2, p. 373-384, jul. 2014.

GUSKEY, T. R. Evaluating Professional Development. Thousand Oaks: Corwin Press, 2000.

HALL, G. E.; HORD, S. M. Change in Schools: Facilitating the Process. Albany: State University of New York Press, 1987.

YARBROUGH, D. B.; SHULHA, L. M.; HOPSON, R. K.; CARUTHERS, F. A. The Program Evaluation Standards: A Guide for Evaluators and Evaluation Users. 3. ed. Thousand Oaks: SAGE Publications, 2010.

KIRKPATRICK, D. L.; KIRKPATRICK, J. D. Evaluating Training Programs: The Four Levels. 3. ed. San Francisco: Berrett-Koehler, 2006.

OECD. Effective Teacher Policies: Insights from PISA. Paris: OECD Publishing, 2018. DOI: 10.1787/9789264301603-en.

PHILLIPS, J. J.; PHILLIPS, P. P. Handbook of Training Evaluation and Measurement Methods. 4. ed. London: Routledge, 2016. DOI: 10.4324/9781315757230.

PIANTA, R. C.; LA PARO, K. M.; HAMRE, B. K. Classroom Assessment Scoring System (CLASS) Manual, Pre-K. Baltimore, MD: Paul H. Brookes Publishing Co., 2008.

SOARES, M. Alfabetização: a questão dos métodos. São Paulo: Contexto, 2016.

WHAT WORKS CLEARINGHOUSE. What Works Clearinghouse Procedures and Standards Handbook, Version 5.0. Washington, DC: U.S. Department of Education, Institute of Education Sciences, National Center for Education Evaluation and Regional Assistance, 2022.

WORLD BANK. World Development Report 2018: Learning to Realize Education's Promise. Washington, DC: World Bank, 2018. DOI: 10.1596/978-1-4648-1096-1.

Mensuração rigorosa é padrão em todos os projetos do Instituto Olam, com KPIs definidos antes do início e avaliação de transferência aos 30, 60 e 90 dias.

Ver Serviços →