Paul Meara developed the LLAMA tests as a free, language-neutral, user-friendly suite of aptitude tests incorporating four separate elements: vocabulary learning (LLAMA_B), phonetic (implicit) memory (LLAMA_D), sound-symbol correspondence (LLAMA_E) and grammatical inferencing (LLAMA_F) based on the standardised MLAT tests (Carroll & Sapon, 1959). Recently, they have become increasingly popular in L2 acquisition research. However, Meara has expressed concern about the wide use of these tests without validity testing. We investigated several areas relating to the LLAMA tests. 1. What is the role of gender in LLAMA test performance? 2. Are the LLAMA tests language neutral? 3. What is the role of age? 4. What is the role of formal education qualifications? 5. Does playing logic puzzles affect LLAMA scores? 6. What difference would changing the test timings make to scores?229 participants from a range of language backgrounds, aged 10-75 with various education levels, typologically distinct L1s, and varying levels of multilingualism were tested. A subset of participants was also tested with varying timings for the tests. The results showed that the LLAMA tests are gender and language neutral. The younger learners (10-11s) performed significantly worse than the adults in the sound/symbol correspondence task (LLAMA_E). Formal education qualifications show a significant advantage in 3 of the LLAMA subcomponents (B, E, F) but not the implicit measure (LLAMA_D). Playing logic puzzles did not improve LLAMA test scores. The timings appear to be optimal apart from LLAMA_F, which could be shortened.

Este libro trata de resumir las ideas fundamentales que, según Richard E. Mayer, todo docente debería conocer para respaldar sus decisiones educativas con base en las evidencias científicas disponibles. De forma muy oportuna, Richard E. Mayer organiza el libro alrededor de los tres grandes temas en que puede dividirse el objeto de estudio de la psicología educativa: el aprendizaje, la enseñanza y la evaluación.

El libro está dirigido a las personas que buscan un enfoque científico en su objetivo de ayudar a aprender. La premisa subyacente es que, si deseamos ayudar a las personas a aprender, nos resultará de utilidad tener algún conocimiento sobre cómo se produce el aprendizaje. Pero la ciencia del aprendizaje estaría huérfana sin la ciencia de la enseñanza y la ciencia de la evaluación. Por eso, el libro hace un repaso a los principales hallazgos con que la investigación educativa en su conjunto puede contribuir a la mejora de la educación.

The Common European Framework of Reference for Languages: Learning, teaching, assessment (CEFR) is part of the Council of Europe’s continuing work to ensure quality inclusive education as a right of all citizens. This update to the CEFR, first published online in 2018 in English and French as the “CEFR Companion Volume with New Descriptors”, updates and extends the CEFR, which was published as a book in 2001 and which is available in 40 languages at the time of writing. With this new, user-friendly version, the Council of Europe responds to the many comments that the 2001 edition was a very complex document that many language professionals found difficult to access. The key aspects of the CEFR vision are therefore explained in Chapter 2, which elaborates the key notions of the CEFR as a vehicle for promoting quality in second/foreign language teaching and learning as well as in plurilingual and intercultural education. The updated and extended version of the CEFR illustrative descriptors contained in this publication replaces the 2001 version of them. 

This publication is the product of a project of the Education Policy Division of the Council of Europe. The focus in that project was to update the CEFR’s illustrative descriptors by:

  • highlighting certain innovative areas of the CEFR for which no descriptor scales had been provided in the set of descriptors published in 2001, but which have become increasingly relevant over the past 20 years, especially mediation and plurilingual/pluricultural competence;
  • building on the successful implementation and further development of the CEFR, for example by more fully defining “plus levels” and a new “Pre-A1” level;
  • responding to demands for more elaborate descriptions of listening and reading in existing scales, and for descriptors for other communicative activities such as online interaction, using telecommunications, and expressing reactions to creative texts (including literature);
  • enriching description at A1, and at the C levels, particularly C2;
  • adapting the descriptors to make them gender-neutral and “modality-inclusive” (and so applicable also to sign languages), sometimes by changing verbs and sometimes by offering the alternatives “speaker/signer”.

Versión en español

This study examines the development of speaker and listener assessments by second language (L2) learners of Spanish during a semester abroad in Spain. Assessments express the speaker’s judgment, attitude, or affect towards what is said and perform the crucial functions of closing a topic and displaying shared understanding with an interlocutor. The results indicate that learners increased their use of listener assessments, as well as their use of specific structures and lexical items in speaker assessments. Participation in everyday conversation as well as explicit instruction represented ways that students could learn to make assessments. The article concludes with suggestions for teaching assessments in the Spanish L2 classroom.


Este estudio analiza la adquisición de evaluaciones de hablante y oyente realizadas por estudiantes de español como segunda lengua durante un semestre en España. Mediante una evaluación, el hablante puede expresar su criterio, actitud o emociones hacia lo previamente dicho además de cerrar un tema y demostrar comprensión mutua con el interlocutor. El análisis muestra un aumento en el uso de evaluaciones de oyente y en el uso de construcciones y vocabulario específicos. La participación en la conversación cotidiana y la enseñanza explícita constituyeron maneras en las que los estudiantes aprendieron a realizar evaluaciones. Este artículo concluye con sugerencias para la enseñanza de las evaluaciones en el aula de español como L2.

This article lies within the field of applied cognitive linguistics (ACL) and presents empirical work that addresses overlooked effects of assessment typology in second language (L2) learning. It examines whether pairing a cognitive instructional approach with matching assessment design results in greater learning outcomes over the more pervasive notional-functional approaches. The last two decades have witnessed a proliferation of empirical research measuring the effectiveness of ACL-based teaching approaches, yet studies have only been partly fruitful in eliciting data that truly favors ACL. We argue that this is largely due to assessment design, which typically measures performance via correct vs. incorrect tasks. To overcome this caveat, two studies addressing the complex Spanish psych-verb construction (e.g. gustar ‘to like’) were conducted following a pretest/posttest/delayed-posttest design for three empirical conditions (control, cognitive, and traditional): a pilot study (n = 59) and a larger replication (n = 160). Data collection entailed ACL-based assessment for interpretation and production tasks. Results showed that after instruction, the cognitive group significantly outperformed the traditional counterpart in both tasks. These findings lend support to the effectiveness of pairing cognitive instruction and cognitive assessment for difficult grammatical constructions.

Each year in the United States, hundreds of thousands of undergraduate students enroll in introductory Spanish courses. For many students, passing these classes is a prerequisite for graduation. Consequently, it is imperative that the exams used in these courses are of the highest possible quality. For decades, the Rasch model (a special case of logistic regression) has been used to evaluate high-stakes language assessment, but has rarely been applied to exams used in classrooms. The current study employs the Rasch model to evaluate a midterm exam administered in the fourth week of an introductory Spanish class (n = 399 across 17 sections). This model identifies which questions best evaluate students at different proficiency levels and shows that the test reliably assigns scores near the pass-fail cutoff. The results of this study suggest that for this sample, items testing article-noun agreement were the most appropriate for the average student.


Cada año en EE.UU. cientos de miles de estudiantes universitarios se matriculan en clases de español LE/L2 de nivel elemental. Para muchos estudiantes aprobar estas clases es un requisito para la graduación. Por lo tanto, resulta imprescindible que los exámenes sean de la mejor calidad posible. Durante décadas, se ha usado el modelo de Rasch para evaluar exámenes estandarizados. No obstante, dicho modelo apenas se ha empleado con exámenes de clase. Este estudio toma como base el modelo de Rasch para evaluar un examen de una clase de español elemental (n = 399 en 17 secciones). El modelo indica qué preguntas sirven para evaluar mejor a los estudiantes con diferentes niveles de competencia y demuestra que este tipo de examen puede identificar de manera fiable a los estudiantes con el riesgo de suspender. Los resultados del estudio sugieren que, a partir de la muestra analizada, las preguntas sobre la concordancia entre artículo y sustantivo son las más apropiadas para el estudiante medio.

Examinar la confiabilidad y consistencia de los evaluadores de pruebas escritas de un examen de certificación de lenguas es indispensable para garantizar que los examinados son evaluados de forma justa y equitativa. En el caso del español, dado que no se cuenta aún con un examen de lengua con fines académicos administrado internacionalmente, resulta necesario llevar a cabo investigaciones en este sentido. El estudio que aquí se presenta tuvo como objetivo indagar qué tan confiables y consistentes son los resultados que otorgan los evaluadores de la prueba escrita de un examen de español con fines académicos diseñado por una universidad hispana. Seis evaluadores calificaron los textos producidos por 100 candidatos no hispanohablantes mediante una rúbrica analítica. Posteriormente, utilizando el programa Many-Facet Rasch Measurement (MFRM), se condujo un análisis estadístico para examinar la calidad de los evaluadores. Los resultados mostraron que cinco evaluadores fueron consistentes en sus evaluaciones y uno de ellos resultó asistemático. MFRM representa una valiosa herramienta de feedback para los evaluadores y para identificar textos que resultan atípicos o difíciles para evaluar.


Studying the reliability and consistency of examiners in the writing section of a language proficiency test is essential in order to ensure that students are assessed fairly and impartially. Given that a worldwide, language proficiency test to assess the use of Spanish for academic purposes does not yet exist, undertaking research in this regard is required. The present study aims to identify how reliable and consistent examiners are in the assessment of the written section of a Spanish language test for academic purposes developed by a Latin American university. Six examiners graded the scripts of 100 non-native Spanish speakers by means of an analytic rating scale. In order to investigate the quality of examiner’s marking, statistical analysis was conducted using Many-Facet Rasch Measurement (MFRM). The results showed that five examiners were consistent in their scores, whereas one examiner was less reliable. MFRM is a valuable tool that can be used to provide feedback to examiners, as well as to identify scripts that are atypical or difficult to assess.

Texto para profundizar y reflexionar sobre cómo evaluar las interacciones orales de los alumnos en clase. 

"La presente investigación, centrada en la evaluación interaccional, responde a tres preguntas esenciales en cuanto a la evaluación de la interacción oral en los cursos de español (A1-B2) de nivel colegial y universitario, a saber, para qué evaluar, qué evaluar y cómo evaluarlo. Se trata de un modelo de evaluación diferente, basado en una serie de herramientas que miden la conversación alumno-alumno en la clase de ELE."

El interés que aún hoy suscita la variación del español en el marco de la enseñanza de español como lengua extranjera se materializa tanto en la enorme cantidad de trabajos que se continúan publicando sobre este tema, como en la necesidad de contemplar las políticas panhispánicas que instituciones como la Real Academia Española o el Instituto Cervantes promueven, y que pretenden atender al pluralismo lingüístico mediante un modelo pluricéntrico en el que tengan cabida las distintas normas cultas que existen a lo largo de la vasta distribución geográfica del español. En este trabajo se intentará dar un paso más allá en la pregunta ¿qué español enseñar? –a la que, como ya se aludirá a lo largo de este texto, varios especialistas han dedicado numerosas obras y artículos–, para centrar el foco principal en la evaluación del español como lengua extranjera en los exámenes de certificación que distintas entidades ofrecen. La intención con ello es arrojar luz no solo sobre las disyuntivas derivadas de la atención que se ha de ofrecer a las variedades diatópicas del español en el ámbito del español como lengua extranjera de manera general, sino sobre las dificultades propias que encierra la evaluación de la competencia lingüística de los aprendientes a este respecto.

El Marco común europeo de referencia proporciona una base común para la elaboración de programas de lenguas, orientaciones curriculares, exámenes, manuales, etc., en toda Europa. Describe de forma integradora lo que tienen que aprender a hacer los estudiantes de lenguas con el fin de utilizar una lengua para comunicarse, así como los conocimientos y destrezas que tienen que desarrollar para poder actuar de manera eficaz. La descripción también comprende el contexto cultural donde se sitúa la lengua. El Marco de referencia define, asimismo, niveles de dominio de la lengua que permiten comprobar el progreso de los alumnos en cada fase del aprendizaje y a lo largo de su vida.
Se pretende que el Marco de referencia venza las barreras producidas por los distintos sistemas educativos europeos que limitan la comunicación entre los profesionales que trabajan en el campo de las lenguas modernas. El Marco proporciona a los administradores educativos, a los diseñadores de cursos, a los profesores, a los formadores de profesores, a las entidades examinadoras, etc., los medios adecuados para que reflexionen sobre su propia práctica, con el fin de ubicar y coordinar sus esfuerzos y asegurar que éstos satisfagan las necesidades de sus alumnos.
Al ofrecer una base común para la descripción explícita de los objetivos, los contenidos y la metodología, el Marco de referencia favorece la transparencia de los cursos, los programas y las titulaciones, fomentando de esta forma la cooperación internacional en el campo de las lenguas modernas. La presentación de criterios objetivos que describan el dominio de la lengua facilitará el reconocimiento mutuo de las titulaciones obtenidas en distintos contextos de aprendizaje y, consecuentemente, contribuirá a la movilidad en Europa.

El carácter taxonómico del Marco de referencia supone, inevitablemente, el intento de abarcar la gran complejidad del lenguaje humano, dividiendo la competencia comunicativa en componentes separados. Esto hace que nos enfrentemos a problemas psicológicos y pedagógicos de cierta envergadura. La comunicación apela al ser humano en su totalidad; las competencias separadas y clasificadas en esta obra interactúan de manera compleja en el desarrollo de la personalidad única de cada individuo. Como agente social, cada individuo establece relaciones con un amplio conjunto de grupos sociales superpuestos, que unidos definen la identidad. En un enfoque intercultural, uno de los objetivos fundamentales de la educación en la lengua es el impulso del desarrollo favorable de la personalidad del alumno y de su sentimiento de identidad, como respuesta a la enriquecedora experiencia que supone enfrentarse a lo diferente en los ámbitos de la lengua y de la cultura. Corresponde a los profesores y a los alumnos la tarea de reintegrar todas las partes en una totalidad que se desarrolle de manera fructífera.

El Marco de referencia comprende la descripción de cualificaciones «parciales», que son apropiadas sólo cuando se requiere un conocimiento más restringido de la lengua (por ejemplo, para la comprensión más que para la expresión oral), o cuando se dispone de una cantidad limitada de tiempo para el aprendizaje de una tercera o cuarta lengua y se pueden conseguir quizás unos resultados más útiles aspirando, por ejemplo, a las destrezas de reconocimiento más que a las de recuperación. El hecho de dar un reconocimiento formal a dichas capacidades contribuirá al fomento del plurilingüismo mediante el aprendizaje de una mayor variedad de lenguas europeas

VV. AA. (2019)
En Letras 79

Extracto de la presentación del monográfico:
"El presente volumen surge ante la inspiración de convocar a docentes e investigadores del área de la lingüística aplicada a la enseñanza de español como lengua segunda y extranjera (ELSE) en el seno de nuestra revista Letras. La idea consiste inaugurar un espacio dedicado a las lingüísticas en general y, dentro de ellas, a esta actividad tan específica que consiste en aplicar esos principios abstractos a situaciones concretas y problemas empíricos. 

A fin de organizar este conjunto de valiosos materiales, creí conveniente agrupar los artículos según las áreas que abarcan, algunas más teóricas que estas, otras más hundidas en la materia de la enseñanza cotidiana que aquellas. Los tres ejes en los cuales catalogué estos escritos son: Fonética, gramática y evaluación; Lenguas, migración e inclusión; y Didácticas.

Se sobreentiende que en todas ellas la didáctica es la que atraviesa las propuestas, pero a falta de otro mejor criterio, creí adecuado utilizar estas etiquetas.

Los ensayos aquí incluidos han sido elaborados por expertos que son representativos, a mi entender, de sus áreas respectivas. Entre ellos encontramos investigadores, docentes y gestores, personas dedicadas a los movimientos migratorios, a la inclusión de lenguas en el mapa educativo de nuestro país, profesores de lengua extranjera, técnicos de certificados de acreditación, expertos en didácticas, gramática pedagógica, fonética, evaluación. Esta diversidad es la que resulta enriquecedora y una muestra eficaz de la variedad que ofrece la profesión." 

Con esta obra los lectores podrán reflexionar acerca de qué significados comporta la actividad evaluadora desde diferentes perspectivas y desde la confección de diferentes instrumentos.
Incorpora dos vertientes relacionadas con la actividad docente: la elaboración de exámenes y otros procedimientos para la evaluación del aula. La experiencia acumulada por Neus Figueras y por Fuensanta Puig durante muchos años como formadoras en el campo de la evaluación aplicada a la enseñanza de lenguas es el mejor aval para garantizar la conexión entre la teoría y la práctica. 
Este manual pretende presentar al lector las cuestiones inherentes a cualquier actuación evaluativa, y haciendo especial hincapié en el rigor con el que deben incorporarse al proceso conceptos básicos como validez, fiabilidad o repercusión.

VV. AA. (2016)

This book spans the areas of assessment, second language acquisition (SLA) and pronunciation and examines topical issues and challenges that relate to formal and informal assessments of second language (L2) speech in classroom, research and real-world contexts. It showcases insights from assessing other skills (e.g. listening and writing) and highlights perspectives from research in speech sciences, SLA, psycholinguistics and sociolinguistics, including lingua franca communication, with concrete implications for pronunciation assessment. This collection will help to establish commonalities across research areas and facilitate greater consensus about key issues, terminology and best practice in L2 pronunciation research and assessment. Due to its interdisciplinary nature, this book will appeal to a mixed audience of researchers, graduate students, teacher-educators and exam board staff with varying levels of expertise in pronunciation and assessment and wide-ranging interests in applied linguistics.


VV. AA. (2021)

Spanish Vocabulary Learning in Meaning-Oriented Instruction is the first comprehensive overview of current research and instructional practices into Spanish vocabulary acquisition through the lens of Meaning-Oriented Instruction (MOI).


This classroom-based action research (CBAR) corroborated our belief in the valuable role rubrics play in a tertiary L2 writing context where English is the medium of instruction. The three-stage CBAR involved ongoing discussions between us, two writing teacher-researchers, as we adapted our teaching and assessment strategies to explore the potential of rubrics as formative tools. This study confirmed the proactive role rubrics could play in teaching writing and promoting successful partnerships between teachers and students during the assessment process. The multifaceted function of rubrics as driver of change in practitioners’ approaches to teaching and assessing writing as well as a tool that enables students to take ownership of the different stages of their writing was a major finding of our study.