Using generalizability theory to investigate the variability and reliability of EFL composition scores by human raters and e-rater
Metadatos
Mostrar el registro completo del ítemEditorial
Universidad de Granada
Materia
EFL writing assessment Generalizability theory Scoring variability Scoring reliability Automated writing evaluation (AWE) Evaluación de redacción de inglés como lengua extranjera Teoría de la generalización Variabilidad de puntuación Fiabilidad de puntuación Evaluación de escritura automatizada
Fecha
2022-06-01Referencia bibliográfica
SariE., & HanT. (2022). Using generalizability theory to investigate the variability and reliability of EFL composition scores by human raters and e-rater. Porta Linguarum Revista Interuniversitaria De Didáctica De Las Lenguas Extranjeras, (38), 27-45. [https://doi.org/10.30827/portalin.vi38.18056]
Patrocinador
TUBITAK 2211-National Graduate Scholarship ProgrammeResumen
Using the generalizability theory (G-theory) as a theoretical framework,
this study aimed at investigating the variability and reliability of holistic scores assigned
by human raters and e-rater to the same EFL essays. Eighty argumentative essays
written on two different topics by tertiary level Turkish EFL students were scored
holistically by e-rater and eight human raters who received a detailed rater training. The
results showed that e-rater and human raters assigned significantly different holistic
scores to the same EFL essays. G-theory analyses revealed that human raters assigned
considerably inconsistent scores to the same EFL essays although they were given a
detailed rater training and more reliable ratings were attained when e-rater was integrated
in the scoring procedure. Some implications are given for EFL writing assessment
practices. Utilizando la teoría de la generalización (teoría G) como marco teórico,
este estudio tuvo como objetivo investigar la variabilidad y confiabilidad de los
puntajes holísticos asignados por evaluadores humanos y e-rater a los mismos ensayos
de inglés como lengua extranjera. Ochenta ensayos argumentativos escritos sobre
dos temas diferentes por estudiantes turcos de inglés como lengua extranjera de nivel
terciario fueron calificados de manera integral por un evaluador electrónico y ocho
evaluadores humanos que recibieron una capacitación detallada como evaluador. Los
resultados mostraron que los evaluadores electrónicos y humanos asignaron puntajes
holísticos significativamente diferentes a los mismos ensayos de inglés como lengua
extranjera. Los análisis de la teoría G revelaron que los evaluadores humanos asignaron
puntajes considerablemente inconsistentes a los mismos ensayos de inglés como lengua extranjera, aunque se les proporcionó una capacitación detallada para los evaluadores y
se obtuvieron calificaciones más confiables cuando el evaluador electrónico se integró
en el procedimiento de puntaje. Se dan algunas implicaciones para las prácticas de
evaluación de escritura EFL.