Menú de cuenta de usuario

  • Iniciar sesión
Inicio
todoele
  • Inicio
  • Materiales
    • 📋 Actividades
    • 📝 Conjugación
    • 📊 Corpus
    • 📔 Diccionarios
    • ✅ Evaluación
    • ⚙️ Gramática
    • 📗 Manuales
    • ✍️ Ortografía
    • 📅 Programación
    • 🗣️ Pronunciación
    • 📁 Recursos
    • 🔤 Vocabulario
  • Formación
    • 👥 Congresos
    • 🎓 Cursos
    • 🏫 Centros
    • 🏢 Organizaciones
    • 📚 Bibliografía
    • 📰 Revistas
    • 🌍 Atlas de ELE
  • Trabajo
    • 💼 Ofertas de trabajo
    • ℹ️ Trabajo - Recursos
  • En la red
    • 🌐 Sitios ELE
  • Tecnología
    • 💻 Herramientas digitales

Ruta de navegación

  • Inicio
  • Corpus
  • RedPajama-Data-v2

RedPajama-Data-v2

https://github.com/togethercomputer/RedPajama-Data
modelos de lenguaje
corpus escrito

RedPajama-Data-v2 es un corpus multilingüe de acceso abierto para el entrenamiento de modelos de lenguaje, que está formado por 30 billones de formas léxicas (tokens), repartidos en 20.000 millones de documentos de texto. RedPajama incluye cinco subcorpus multilingües de textos, respectivamente, en alemán, español, francés, inglés e italiano.

El subcorpus del español tiene casi 3 billones de palabras (2.800.000.000.000). 

RedPajama está disponible en GitHub y también se puede descargar desde Hugging Face.

Más información sobre RedPajama-Data-v2: RedPajama-Data-v2: An open dataset with 30 trillion tokens for training large language models

  • 1 vista

Etiquetas

  • corpus sonoro (10)
  • corpus oral (6)
  • corpus de estudiantes (5)
  • corpus escrito (5)
  • corpus de vídeo (3)
  • corpus general (3)
  • corpus de referencia (2)
  • corpus multilingüe (2)
  • español para fines específicos (2)
  • inmigrantes (2)
  • variedades geográficas (2)
  • variedades sociales (2)
  • ámbito comercial (1)
  • arquitectura (1)
  • audio (1)
ver todas »
Sobre Todoele Índice Publica Contacto: todoele@gmail.com
Política de privacidad Créditos