Using generalizability theory to investigate the variability and reliability of EFL composition scores by human raters and e-rater

Sari, Elif; Han, Turgay

doi:10.30827/portalin.vi38.18056

No_2_18056_E Sarif_T Han_Using generalizability theory to investigate EFL composition_ProofOK 27-45.pdf (599.2Kb)

Identificadores

URI: https://hdl.handle.net/10481/80153

DOI: 10.30827/portalin.vi38.18056

Exportar

Editorial

Universidad de Granada

Materia

EFL writing assessment

Generalizability theory

Scoring variability

Scoring reliability

Automated writing evaluation (AWE)

Evaluación de redacción de inglés como lengua extranjera

Teoría de la generalización

Variabilidad de puntuación

Fiabilidad de puntuación

Evaluación de escritura automatizada

Fecha

2022-06-01

Referencia bibliográfica

SariE., & HanT. (2022). Using generalizability theory to investigate the variability and reliability of EFL composition scores by human raters and e-rater. Porta Linguarum Revista Interuniversitaria De Didáctica De Las Lenguas Extranjeras, (38), 27-45. [https://doi.org/10.30827/portalin.vi38.18056]

Patrocinador

TUBITAK 2211-National Graduate Scholarship Programme

Resumen

Using the generalizability theory (G-theory) as a theoretical framework, this study aimed at investigating the variability and reliability of holistic scores assigned by human raters and e-rater to the same EFL essays. Eighty argumentative essays written on two different topics by tertiary level Turkish EFL students were scored holistically by e-rater and eight human raters who received a detailed rater training. The results showed that e-rater and human raters assigned significantly different holistic scores to the same EFL essays. G-theory analyses revealed that human raters assigned considerably inconsistent scores to the same EFL essays although they were given a detailed rater training and more reliable ratings were attained when e-rater was integrated in the scoring procedure. Some implications are given for EFL writing assessment practices.

Utilizando la teoría de la generalización (teoría G) como marco teórico, este estudio tuvo como objetivo investigar la variabilidad y confiabilidad de los puntajes holísticos asignados por evaluadores humanos y e-rater a los mismos ensayos de inglés como lengua extranjera. Ochenta ensayos argumentativos escritos sobre dos temas diferentes por estudiantes turcos de inglés como lengua extranjera de nivel terciario fueron calificados de manera integral por un evaluador electrónico y ocho evaluadores humanos que recibieron una capacitación detallada como evaluador. Los resultados mostraron que los evaluadores electrónicos y humanos asignaron puntajes holísticos significativamente diferentes a los mismos ensayos de inglés como lengua extranjera. Los análisis de la teoría G revelaron que los evaluadores humanos asignaron puntajes considerablemente inconsistentes a los mismos ensayos de inglés como lengua extranjera, aunque se les proporcionó una capacitación detallada para los evaluadores y se obtuvieron calificaciones más confiables cuando el evaluador electrónico se integró en el procedimiento de puntaje. Se dan algunas implicaciones para las prácticas de evaluación de escritura EFL.

Colecciones

Porta Linguarum, Nº 38, junio 2022

Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución 4.0 Internacional