Corpus del Español del Siglo XXI (CORPES XXI)

Enlace

https://www.rae.es/banco-de-datos/corpes-xxi

Etiquetas

Descripción

En el congreso celebrado en Medellín en marzo de 2007, las academias de la lengua española acordaron encomendar a la Real Academia Española la construcción del Corpus del Español del Siglo XXI (CORPES XXI), formado por textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial con una distribución de 25 millones de formas por cada uno de los años correspondientes al siglo XXI.

En enero de 2023 se publicó la versión 0.99, con más de 357 000 documentos y más de 381 millones de formas ortográficas. El 28 de marzo, en el IX Congreso de la Lengua Española, celebrado en Cádiz, se presentó la versión 1.0 del CORPES. El 2 de junio se publicó esta versión, que cuenta con más de 365 000 documentos que suman algo más de 395 millones de formas ortográficas, procedentes de textos escritos y de transcripciones orales. Con respecto a la versión anterior supone un incremento de más de 15 millones de formas; más de cuatro millones y medio de ellas proceden del parámetro oral y algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo de acuerdo con la procedencia del texto fuente.

Versión 1.0

Parámetros
Sistema de codificación

Versión 1.3

El pasado mes de julio, se publicó la nueva versión (la 1.3) del Corpus del Español del Siglo XXI (CORPES XXI). Consta de casi 440 millones de formas correspondientes a algo más de 400.000 documentos, producidos en todos los países hispánicos desde el año 2001 hasta la actualidad. La aplicación de consulta mantiene las características y utilidades incorporadas desde la versión 1.0.

Entre los materiales añadidos al corpus, a las ya habituales listas de frecuencias de formas ortográficas, elementos y lemas, se añade ahora el Diccionario de frecuencias léxicas, elaborado sobre los textos de prensa incluidos en la versión 1.0 del CORPES. Este módulo contiene tres documentos distintos:

Guía del Diccionario de frecuencias léxicas, en la que se explican las características del recurso y el procedimiento seguido para su elaboración.
Diccionario de frecuencias, que contiene los datos de frecuencia (general y normalizada) de los 116.000 lemas registrados en un corpus de unos 184 millones de elementos, su índice de dispersión y el número de países en que ha sido documentado.
Relación de lemas documentados ordenados por importancia decreciente de su índice de dispersión.

Los tres documentos son directamente descargables. Los dos últimos están en formato TSV, lo que permite su manejo directo y también su importación a una hoja de cálculo o una base de datos.