Inicio
todoELE
  • Inicio
  • Materiales
    • ๐Ÿ“‹ Actividades
    • ๐Ÿ“ Conjugación
    • ๐Ÿ“Š Corpus
    • ๐Ÿ“” Diccionarios
    • โœ… Evaluación
    • โš™๏ธ Gramática
    • ๐Ÿ“— Manuales
    • โœ๏ธ Ortografía
    • ๐Ÿ“… Programación
    • ๐Ÿ—ฃ๏ธ Pronunciación
    • ๐Ÿ“ Recursos
    • ๐Ÿ”ค Vocabulario
  • Formación
    • ๐Ÿ“š Bibliografía
    • ๐Ÿ‘ฅ Congresos
    • ๐ŸŽ“ Cursos
    • ๐Ÿซ Centros
    • ๐Ÿข Organizaciones
    • ๐Ÿ“ฐ Revistas
    • ๐ŸŒ Atlas de ELE
  • Trabajo
    • ๐Ÿ’ผ Ofertas de trabajo
    • โ„น๏ธ Trabajo - Recursos
  • En la red
    • ๐ŸŒ Sitios ELE
    • ๐Ÿ“ฐ Agregador
    • ๐Ÿ“ง Formespa
  • Tecnología
    • ๐Ÿ’ป Herramientas digitales
  • Comunidad
    • ๐Ÿ“ฐ Actualidad ELE
    • ๐Ÿ˜Š Anécdotas ELE
    • ๐Ÿ“ Blog
    • ๐Ÿ“ŒTablón de anuncios
  • Buscar

Ruta de navegación

  • Inicio
  • Corpus
  • RedPajama-Data-v2

RedPajama-Data-v2

https://github.com/togethercomputer/RedPajam…
modelos de lenguaje
corpus escrito

RedPajama-Data-v2 es un corpus multilingüe de acceso abierto para el entrenamiento de modelos de lenguaje, que está formado por 30 billones de formas léxicas (tokens), repartidos en 20.000 millones de documentos de texto. RedPajama incluye cinco subcorpus multilingües de textos, respectivamente, en alemán, español, francés, inglés e italiano.

El subcorpus del español tiene casi 3 billones de palabras (2.800.000.000.000). 

RedPajama está disponible en GitHub y también se puede descargar desde Hugging Face.

Más información sobre RedPajama-Data-v2: RedPajama-Data-v2: An open dataset with 30 trillion tokens for training large language models

Enviar corpus

Etiquetas

  • corpus sonoro (10)
  • corpus oral (8)
  • corpus escrito (7)
  • corpus de estudiantes (5)
  • corpus de vídeo (4)
  • corpus general (3)
  • humor (3)
  • corpus de referencia (2)
  • corpus diacrónico (2)
  • corpus multilingüe (2)
  • español para fines específicos (2)
  • inmigrantes (2)
  • interacciones conversacionales (2)
  • variedades dialectales (2)
  • variedades geográficas (2)
ver todas »
Sobre Todoele Índice Publica Contacto: todoele@gmail.com
Política de privacidad Créditos