Using generalizability theory to investigate the variability and reliability of EFL composition scores by human raters and e-rater Sari, Elif Han, Turgay EFL writing assessment Generalizability theory Scoring variability Scoring reliability Automated writing evaluation (AWE) Evaluación de redacción de inglés como lengua extranjera Teoría de la generalización Variabilidad de puntuación Fiabilidad de puntuación Evaluación de escritura automatizada Using the generalizability theory (G-theory) as a theoretical framework, this study aimed at investigating the variability and reliability of holistic scores assigned by human raters and e-rater to the same EFL essays. Eighty argumentative essays written on two different topics by tertiary level Turkish EFL students were scored holistically by e-rater and eight human raters who received a detailed rater training. The results showed that e-rater and human raters assigned significantly different holistic scores to the same EFL essays. G-theory analyses revealed that human raters assigned considerably inconsistent scores to the same EFL essays although they were given a detailed rater training and more reliable ratings were attained when e-rater was integrated in the scoring procedure. Some implications are given for EFL writing assessment practices. Utilizando la teoría de la generalización (teoría G) como marco teórico, este estudio tuvo como objetivo investigar la variabilidad y confiabilidad de los puntajes holísticos asignados por evaluadores humanos y e-rater a los mismos ensayos de inglés como lengua extranjera. Ochenta ensayos argumentativos escritos sobre dos temas diferentes por estudiantes turcos de inglés como lengua extranjera de nivel terciario fueron calificados de manera integral por un evaluador electrónico y ocho evaluadores humanos que recibieron una capacitación detallada como evaluador. Los resultados mostraron que los evaluadores electrónicos y humanos asignaron puntajes holísticos significativamente diferentes a los mismos ensayos de inglés como lengua extranjera. Los análisis de la teoría G revelaron que los evaluadores humanos asignaron puntajes considerablemente inconsistentes a los mismos ensayos de inglés como lengua extranjera, aunque se les proporcionó una capacitación detallada para los evaluadores y se obtuvieron calificaciones más confiables cuando el evaluador electrónico se integró en el procedimiento de puntaje. Se dan algunas implicaciones para las prácticas de evaluación de escritura EFL. 2023-02-22T12:14:18Z 2023-02-22T12:14:18Z 2022-06-01 info:eu-repo/semantics/article SariE., & HanT. (2022). Using generalizability theory to investigate the variability and reliability of EFL composition scores by human raters and e-rater. Porta Linguarum Revista Interuniversitaria De Didáctica De Las Lenguas Extranjeras, (38), 27-45. [https://doi.org/10.30827/portalin.vi38.18056] https://hdl.handle.net/10481/80153 10.30827/portalin.vi38.18056 eng http://creativecommons.org/licenses/by/4.0/ info:eu-repo/semantics/openAccess Atribución 4.0 Internacional Universidad de Granada