Bibliografía - corpus

Pages

Texto completo

A pesar de todas las ventajas que ofrecen los corpus lingüísticos y de los avances tecnológicos que han mejorado su accesibilidad y manejo, su uso no se ha extendido entre alumnos y profesores de lenguas extranjeras. Aprendizaje basado en datos (ABD) es un enfoque centrado en el alumno que promueve el aprendizaje por descubrimiento mediante el análisis de datos provenientes de corpus lingüísticos. En el campo del español como lengua extranjera (ELE) este tipo de aprendizaje sigue siendo un gran desconocido. Este artículo quiere mostrar cómo los principios de ABD se pueden aplicar a exploraciones sobre datos provenientes de otras herramientas de consulta y de la propia Web. En este trabajo se presentan en un primer momento los principios teóricos que apuntalan este enfoque y los retos a los que se enfrenta. A continuación, se revisa el estado de la cuestión en ELE, con un ejemplo de aplicación del enfoque utilizando dos corpus lingüísticos: CORPES XXI y el Corpus del Español. Para finalizar, se examinan nuevos recursos híbridos (diccionario más listados de ejemplos) en español con datos que pueden ser investigados mediante este tipo de enfoque y se ejemplifica con una secuencia de búsqueda en la que se utilizan dos de estas herramientas: Linguee y WordAndPhrase.

VV. AA. (2024)

Los corpus, compilaciones de datos lingüísticos utilizados para conocer mejor un idioma, tienen una larga trayectoria en los estudios filológicos. En la actualidad, son más relevantes que nunca gracias a las oportunidades que brindan las herramientas informáticas. Este libro presenta una variedad de ejemplos de aplicaciones didácticas basadas en corpus lingüísticos. Dado el creciente interés por el aprendizaje del español en China, varios capítulos se centran en esta temática. 

Índice
Introducción
Maribel Serrano Zapata

El potencial inductivo de los corpus lingüísticos en la enseñanza de ELE
Marta Albelda Marco

Análisis de errores y etiquetado en los corpus de aprendices de ELE informatizados
Mª Ángeles Calero Fernández

TextAnnot, una herramienta Web para la gestión y anotación del corpus
Roberto García González, Albert Berga Gatius y Juan Manuel Gimeno Illa

Ausencia de metataxis en la producción escrita de estudiantes chinos de ELE
Francisco Javier Terrado Pablo, Zhang Peng y Zhang Bohua

¿Rábito o rápido? Análisis de errores en la producción escrita de sinohablantes de ELE
Demelsa Ortiz Cruz

Bases para la elaboración de un diccionario para aprendices sinohablantes
Maria Bargalló Escrivà

Los índices de disponibilidad léxica como criterio complementario para la selección del lemario de un diccionario de ELE
José Antonio Moreno Villanueva y Alicia Madrona Cao

Léxico disponible y redes semánticas en niños valencianos de 6 años. La construcción del Corpus léxico infantil
Mª Begoña Gómez Devís

Creación y análisis de un corpus para el estudio del español (L2) como lengua de instrucción utilizada en libros de texto
Ángela Mira Conejero

Despite the burgeoning field of Spanish second language acquisition (SLA) research, large Spanish learner corpora (LC) are not common practice yet. We present a general yet practical introduction to the multiple decisions Spanish as a second language (L2) researchers should consider before creating their own LC. We focus on (i) two freely available Spanish LC (CEDEL2 and COWS-L2H), (ii) their general design principles, (iii) crucial variables to collect (learner and task variables), (iv) ways of collecting and compiling LC data, and (v) the final product (the corpus interface). We explore different ways of interrogating the two corpora, illustrating them with specific (morpho)syntactic and lexical examples from L2 Spanish, as well as potential curricular and teaching applications of LC. We conclude with a recommendation for the triangulation of LC data with experimental research and a summary of future directions that the field of LC research may take. Our ultimate aim is to equip researchers with the basic theoretical and methodological tools to design, build and collect their own LC.

----

A pesar del reciente auge del campo de la investigación de la adquisición de español como segunda lengua (L2), el uso de corpus de aprendices (CA) sigue sin ser una práctica habitual. En este artículo presentamos, de manera general a la vez que práctica, las múltiples decisiones a las que se enfrentan los investigadores de español L2 a la hora de crear su propio corpus. Nos centramos en (i) dos CA de español de acceso gratuito (CEDEL2 and COWS-L2H), (ii) sus principios de diseño, (iii) las variables relativas a los aprendices y a las tareas, (iv) maneras de recoger y compilar los datos y (v) el producto final (interfaces de búsqueda). Exploramos diferentes maneras de interrogar los corpus, ilustrándolas con ejemplos lingüísticos, y describimos posibles usos de esos datos tanto en la investigación como en la enseñanza. Concluimos con una recomendación de triangular datos de CA y experimentos y un resumen de los próximos pasos en el campo de la investigación de CA. Nuestra finalidad es equipar a los investigadores con herramientas básicas para compilar exitosamente su propio CA.

The current article offers an overview of scholarship on additional-language (e.g., second-language, heritage-language) users of Spanish that has been carried out using learner corpora in the last decade. I focus the review of Spanish learner corpus research on investigations that have examined grammar (e.g., fluency, grammatical gender), vocabulary (e.g., lexical diversity), and pragmatics (e.g., discourse markers), and I highlight the contributions that this body of work has made to the understanding of the use and development of additional-language Spanish. I also discuss the pedagogical applications that this line of inquiry may have. I conclude by identifying specific avenues for future work pertaining to research on additional-language learning and the development of new corpora.

----

Este artículo ofrece una descripción general de las investigaciones en la última década sobre hablantes de español como lengua adicional (p. ej., como segunda lengua o lengua de herencia) que se han llevado a cabo utilizando corpus de aprendices. Más concretamente, se pone el foco de atención en la revisión de la investigación de corpus de aprendices de español que examina la gramática (p. ej., la fluidez, el género gramatical), el vocabulario (p. ej., la diversidad léxica) y la pragmática (p. ej., los marcadores discursivos), destacando estas contribuciones al uso y desarrollo del español como lengua adicional. También se abordan las implicaciones pedagógicas más notables. El artículo concluye con la identificación de vías específicas para el trabajo futuro relacionado con la investigación sobre el aprendizaje de idiomas adicionales y el desarrollo de nuevos corpus.

Texto completo

El desarrollo de los corpus de aprendientes ha permitido un avance significativo en los estudios de Adquisición de Segundas Lenguas (ASL) (Granger, 2012, 2015, 2017). El Corpus especializado de Aprendientes de Español como Lengua Extranjera (CAELE) es un inventario abierto que cuenta con 1217 textos producidos por 201 aprendientes de diferentes lenguas maternas y niveles de competencia en ELE A2 y B1. Los estudiantes provienen de universidades extranjeras en el contexto de programas de intercambio de nivel de pregrado y posgrado. La recolección de los textos se ha llevado a cabo a través de tareas de escritura bajo el enfoque metodológico basado en tareas. En este artículo se presenta el diseño e implementación del corpus acorde con los principios de Sinclair (2005). Los resultados evidencian el logro de un corpus representativo y homogéneo para realizar estudios tanto de análisis de errores como contrastivos de interlengua. 

VV. AA. (2021)

e-Research y español LE/L2: Investigar en la era digital es el primer volumen que aborda de manera conjunta las aportaciones al español LE/L2 de la lingüística de corpus, la biblioteconomía y la edición digital. Es excelente para mejorar las técnicas de investigación a la vez que se toma conciencia sobre el uso de las tecnologías en los estudios sobre el español LE/L2.

Contenidos

1. e-Research: fundamentos metodológicos y aplicaciones a la investigación sobre el español LE/L2
Mar Cruz Piñol

2. Investigar en el contexto de las Humanidades Digitales y del español LE/L2
Beatriz Trigo

Parte I
El Entorno Personal de Investigación (EPI)

3. Buscar referencias académicas de calidad sobre el español LE/L2
Francisco López-Hernández, Inmaculada Muro-Subías y Lola Santonja-Garriga

4. Gestionar la bibliografía sobre el español LE/L2
Montse Morante

5. Establecer e-redes para la investigación sobre el español LE/L2
Imma Marín Queral

Parte II
La investigación con muestras de lengua

6. Corpus textuales de nativos para investigar sobre la enseñanza/aprendizaje del español LE/L2
Kris Buyse

7. Corpus textuales de aprendices para investigar sobre la adquisición del español LE/L2
Cristóbal Lozano

8. Corpus para investigar sobre el componente fónico en español LE/L2
Joaquim Llisterri

Parte III
La visibilización y la visualización de la investigación
9. Visibilizar los resultados de la investigación sobre el español LE/L2
Joana Lloret Cantero, Carmen López Ferrero y Mar Cruz Piñol

10. Representar visualmente los resultados de la investigación sobre el español LE/L2
Benamí Barros García

Texto completo pdf icon

En este artículo se presenta el Corpus de ELE en Japón, CELEN (https://ske.li/qqr), una colección de textos escritos por hablantes de japonés (L1) con distintos grados de dominio del español como lengua extranjera, desde el nivel A1 hasta el nivel C2 del MCER. Los datos proceden de (1) universidades en Japón, donde el español se estudia como asignatura de lengua extranjera o como carrera, y (2) contextos de interacción real en Internet, como blogs electrónicos y foros. La versión 1.2, de abril de 2023, consta de 6.196 textos escritos por 1.035 aprendices, con un total de 658.467 palabras. En el apartado 1 se resume brevemente la situación del español en Japón y los corpus de aprendices existentes. En el apartado 2 se describen las características principales de CELEN, el proceso de recogida y anotación de los datos y la interfaz de consulta. En el apartado 3 se ilustra su uso con varios tipos de búsquedas (concordancias, colocaciones, listas de palabras y n-gramas), aplicadas a fenómenos lingüísticos relevantes en la docencia o la investigación en ELE: el uso de se, las preposiciones, la concordancia de género, el orden de palabras, las colocaciones verbales, la frecuencia léxica o las secuencias de categorías gramaticales más frecuentes. Se trata de un recurso abierto, que se actualiza periódicamente, y esperamos que otros profesores e investigadores puedan albergar sus textos en él para ofrecer a la comunidad científica una amplia muestra de aprendices japoneses de español. En la página web del proyecto (https://sites.google.com/view/celen) se puede consultar la guía de uso detallada y descargar íntegramente algunas partes del corpus bajo una licencia CC BY-NC 4.0.

Texto completo pdf icon

En este artículo se presenta el Corpus léxico del español de Colombia CorlexCo (https://clicc.caroycuervo.gov.co/corpus/CorlexCo) del Instituto Caro y Cuervo, herramienta que recopila combinaciones léxicas con criterio integral, es decir, las propias del país y también las compartidas con otros países hispanoamericanos y con el español general. No se limita a los colombianismos. Se trata de un macroproyecto iniciado en 2019 y desarrollado en fases anuales sucesivas. Por “combinaciones léxicas” nos referimos a todo tipo de unidades pluriverbales (compuestos, colocaciones, construcciones con verbo soporte, locuciones, paremias y fórmulas rutinarias). Los datos proceden de cinco fuentes de consulta: (1) diccionarios generales, escolares, dialectales, fraseológicos y combinatorios, (2) casi doscientos cincuenta repertorios léxicos del español de Colombia, (3) más de ciento cincuenta investigaciones académicas sobre el léxico de Colombia, (4) corpus lingüísticos y (5) el dominio http://www.google.com.co. Con respecto a la aplicación del CorlexCo, por una parte, puede usarse en planeación curricular, diseño de materiales didácticos y procesos de evaluación de español como lengua extranjera y segunda lengua (para indígenas y sordos); por otra, puede constituirse en obra de referencia de aprendientes, profesores, editores, traductores y, especialmente, de lingüistas que investiguen sobre el español LE y L2. En el apartado 1 se resume el estado actual de la lexicografía dialectal en Colombia. En el apartado 2 se describen las características principales del CorlexCo, la selección del tipo de unidades léxicas para cada fase anual, la selección de las entradas y la anotación, y se ilustra su uso con varios tipos de búsqueda. En el apartado 3 se muestra su aplicación a la investigación sobre español LE y L2. Este corpus es un recurso abierto que se actualiza periódicamente y que ofrece a la comunidad académica una descripción ampliada del léxico de Colombia.

El léxico-gramática del español ofrece una aproximación alternativa al estudio de la gramática avanzada del español.

Este libro brinda al estudiante un enfoque auténtico y contextualizado del uso del español, basándose en datos provenientes de corpus de español-L1 y L2 junto a la investigación lingüística a fin de describir las características léxico-gramaticales fundamentales de la lengua y su variación. Cada capítulo incluye actividades guiadas para que los estudiantes puedan realizar búsquedas en estos corpus con el propósito de llegar a conclusiones fundamentadas en evidencias empíricas sobre cómo los aprendices de varios niveles de competencia usan ciertos elementos léxico-gramaticales.

Este libro representa un recurso ideal para los estudiantes de la gramática avanzada del español a nivel de pregrado y posgrado.

Contenidos

PARTE I: LOS FUNDAMENTOS DEL ESTUDIO EMPÍRICO DE LA LENGUA

Capítulo 1: La lingüística como ciencia del lenguaje

Capítulo 2: La lingüística de corpus

Capítulo 3: Los corpus del español como L1 y como L2

PARTE II: El SINTAGMA NOMINAL

Capítulo 4: El léxico del español

Capítulo 5: El núcleo del sintagma nominal

Capítulo 6: Los modificadores del sintagma nominal

Capítulo 7: Los pronombres

PARTE III: EL SINTAGMA VERBAL

Capítulo 8: La concordancia verbal

Capítulo 9: El tiempo y el aspecto verbal

Capítulo 10: El modo verbal

Capítulo 11: Los verbos copulativos—Ser y Estar

Capítulo 12. La oración

Recientemente, una gran parte de la discusión entre especialistas en lingüística aplicada se ha centrado en el potencial de la enseñanza del vocabulario basada en corpus (también conocida como “aprendizaje basado en datos” [ABD]; Boulton 2010a). La investigación en esta área se sirve de la lingüística aplicada de corpus y es relevante para ella, así como para la adquisición y pedagogía de una segunda lengua (L2). Aun cuando ciertamente hay potencial para que el ABD guíe la práctica de vocabulario en la L2, como explicamos en detalle en este artículo, los estudios empíricos del ABD presentan limitaciones tanto teóricas como metodológicas. A pesar de estas limitaciones, vemos potencial en el ABD para orientar la pedagogía y contribuir a la teoría de adquisición de la L2. Por estas razones, este artículo también incluye una discusión de cómo y cuándo los profesores de español como L2 pueden considerar la adopción de técnicas del ABD en sus clases.

-----------------------

A great deal of discussion among applied linguists has centred in recent years on the potential of corpus-based vocabulary instruction (also referred to as data-driven learning or DDL; Boulton 2010a). Research in this area draws on and is relevant to applied corpus linguistics as well as second-language (L2) pedagogy and second language acquisition. Though there is certainly potential for DDL research to inform L2 vocabulary teaching practice, as described in detail in this article, the empirical studies of DDL have fallen short both theoretically and methodologically. Despite these limitations, we see potential in DDL to inform L2 pedagogy and to both draw from and contribute to SLA theory. For these reasons, this article also includes a discussion of how and when Spanish L2 teachers might consider adopting DDL techniques in their classrooms.

Texto completo pdf icon

En esta introducción, expondremos el objetivo fundamental de la investigación desarrollada en los artículos que integran este monográfico, a saber: analizar las relaciones que existen entre la teoría lingüística, por un lado, y la enseñanza-aprendizaje de ELE, por otra. Pretendemos demostrar la relevancia que tiene la formación teórica del profesorado de ELE, que repercute en la mejora del aprendizaje por parte del alumnado y, en particular, en el desarrollo de su competencia metalingüística. Para ello, nos basaremos en el análisis de un corpus constituido por 55 obras, 30 gramáticas y 25 manuales de los niveles B2 (15) y C1 (10). Los seis trabajos del monográfico se enmarcan en dos proyectos de investigación competitivos, de cuyo equipo forman parte los autores/as.

Texto completo pdf icon

En este trabajo se analiza el uso de tres herramientas digitales para la codificación, el análisis y la explotación de un corpus oral de aprendices de L2. En primer lugar, se presenta la creación, codificación y actualización del corpus, que se compiló con el objetivo de analizar los errores cometidos en el plano oral por parte de un grupo compuesto por 51 informantes franceses, estudiantes de segundo año de Lenguas Extranjeras Aplicadas de la Universidad François Rabelais de Tours (Francia). Una vez conseguido el material auditivo, se procedió a la transcripción y anotación textual codificada, siguiendo la normativa que marca Text Encoding Initiative.

Esta investigación se valió de ciertas herramientas digitales, como XML Formatter (https://jsonformatter.org/xml-formatter), XML Validator (https://codebeautify.org/xmlvalidator), VS Studio (https://code.visualstudio.com/), Git (https://git-scm.com/), GitHub (https://github.com/), SpaCy (https://SpaCy.io/), CATMA (https://catma.de/) y Google Colaboratory (https://colab.google/), que contribuyeron al desarrollo del análisis y la explotación del corpus oral, sirviendo para la configuración y validación de la cabecera del corpus (XML Formatter - Validator), para el etiquetado del corpus (VS Studio), para el control y almacenaje de las versiones (Git-GitHub) y para la actualización del corpus (SpaCy permite nuevos análisis, Google Colaboratory es un instalador de software usado junto a SpaCy, y con CATMA se desarrolla el nuevo etiquetado).

ntroducción a la lingüística de corpus en español es la primera obra concebida desde la óptica del español para investigar los corpus textuales existentes en la actualidad. Destinada a conjugar armónicamente la exposición de cuestiones teóricas y metodológicas, proporciona información detallada sobre las tareas necesarias en el diseño, construcción y explotación de un corpus a partir de numerosos ejemplos de obtención de datos sobre diferentes cuestiones léxicas y gramaticales.

Contenidos
1. La explotactión básica de los corpus

2. La lingüística de corpus y la metodología de la investigación lingüística

3. Diseño, construcción y explotación de corpus

4. Recuperación de información contenida en corpus textuales: el léxico

5. Recuperación de información contenida en corpus textuales: fenómenos gramaticales

6. Otras cuestiones centrales en lingüística de corpus

7. Herramientas de recuperación de datos: resumen y ampliación

Texto completo pdf icon

Este artículo muestra cómo se pueden examinar los datos compilados en los Corpus de Clases de L2 (CCL2). En concreto, se centra en cómo analizar, tanto manualmente como con la herramienta Sketch Engine (https://www.sketchengine.eu), la enseñanza de vocabulario en español a partir de este tipo de corpus. Para situar al lector, en la revisión de la literatura se presentan varios CCL1 y CCL2 disponibles a través de alguna interfaz específica o a través de Sketch Engine. Además, se describe cómo investigadores con distintos enfoques han utilizado los CCL2 y con qué propósitos. Asimismo, puesto que los ejemplos que se dan en el artículo se centran en investigaciones relacionadas con el léxico en la L2, se incluye una sección muy somera sobre esta cuestión. A continuación, al examinar las aplicaciones de Sketch Engine, se centra la atención en las funcionalidades Lista de palabras, Concordancia y Palabras clave. Para ejemplificar la utilidad de Sketch Engine combinado con los análisis de tipo manual, se describen tres CCL2 creados por la autora del artículo y se revisa la metodología de cuatro investigaciones sobre la enseñanza del vocabulario y de la morfología léxica en las que se usaron estos tres CCL2. Tras describir cómo se analizaron los datos en estos estudios, se proponen nuevas investigaciones posibles con Sketch Engine y se ofrecen algunas recomendaciones que pueden resultar útiles para quienes se adentren en el uso de esta herramienta aplicada al análisis de CCL2.

Texto completo PDF icon

La precisión en la escritura es de vital importancia en las audiencias académicas y profesionales, en las cuales los errores pueden estigmatizar a quienes escriben. El Feedback Correctivo Escrito (FCE) es un tema crucial en el ámbito de la Adquisición de una Segunda Lengua (ASL) dado que favorece el aprendizaje y contribuye cognitivamente al mejoramiento de los niveles de precisión en una segunda lengua. El objetivo de este artículo es aportar evidencia empírica en el área del  ELE para fines académicos. Para ello, se analiza un corpus de textos académicos de aprendientes africanos de nivel A2, cuyas L1 son portugués e inglés, con el objeto de determinar los errores más frecuentes. Los resultados arrojan que estos corresponden a las preposiciones y artículos. La determinación de dichos errores permite el tratamiento de ellos a través de estrategias de feedback correctivo escrito metalingüístico directo para mejorar la precisión de este tipo de palabras en los escritos académicos.

Pages

Revistas