Publican nueva actualización del Corpus del Español del Siglo XXI

La Real Academia Española (RAE) y la Asociación de Academias de la Lengua Española (ASALE) publicaron una nueva actualización del Corpus del Español del Siglo XXI (Corpes XXI), la versión 0.91, disponible en internet en el portal académico de manera gratuita.

Dirigido por el académico Guillermo Rojo y hecho público con el apoyo del Banco Santander, el Corpes XXI cuenta con más de 285 mil documentos que suman alrededor de 286 millones de formas, procedentes de textos escritos y de transcripciones de textos orales.

Respecto a la versión anterior, publicada en julio de 2018, supone un incremento de 10 millones de formas. Casi cuatro millones están constituidos por textos orales y se ofrece, en una parte de ellos, el sonido alineado correspondiente a la transcripción.

Además, en decenas de casos es posible descargar el archivo de audio o la visualización del vídeo del documento fuente.

Los textos procedentes de libros suponen más de 140 millones de formas.

Respecto al bloque de ficción (novelas, guiones, relatos, obras de teatro) las formas del Corpes XXI sobrepasan los 81 millones, mientras que las contenidas en textos de libros de no ficción (ciencias sociales, salud, política, artes, tecnología, entre otros temas) se acercan a los 207 millones.

La prensa está representada con unos 142 millones de formas. Cinco millones más provienen de blogs, entrevistas digitales y miscelánea.

El Corpes XXI es un corpus de referencia. En lingüística, se llama corpus a un conjunto formado por miles o cientos de miles de textos (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de noticiarios radiofónicos o televisivos, transcripciones de conversaciones, discursos, entre otros) y cientos o miles de millones de formas.

Son empleados por lo general para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia.

En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

Para ello, los textos que integran el Corpes se seleccionan de acuerdo con una serie de parámetros y son tratados con un sistema de codificación especialmente diseñado para este corpus y para la recuperación de sus datos desde cualquiera de esos parámetros.

Para continuar y desarrollar las líneas seguidas anteriormente, en el congreso celebrado en Medellín en marzo de 2007, las academias de la lengua española acordaron encomendar a la Real Academia Española la construcción del Corpes XXI.

Está formado por textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial.

FUENTE: NOTIMEX, CANDELERO, 27-12-18.