Corpus: modelos de lenguaje
Nº de entradas: 1
RedPajama-Data-v2 es un corpus multilingüe de acceso abierto para el entrenamiento de modelos de lenguaje, que está formado por 30 billones de formas léxicas (tokens), repartidos en 20.000... Leer más
Etiquetas
- corpus sonoro (10)
- corpus oral (6)
- corpus de estudiantes (5)
- corpus escrito (5)
- corpus de vídeo (3)
- corpus general (3)
- corpus de referencia (2)
- corpus multilingüe (2)
- español para fines específicos (2)
- inmigrantes (2)
- variedades geográficas (2)
- variedades sociales (2)
- ámbito comercial (1)
- arquitectura (1)
- audio (1)