Datos y herramientas para modelos de texto
Colecciones masivas de datos textuales
Idioma
Español-Valenciano
Número de frases
JSON: 283.979.280 palabras; 1.65GB.
PDF: 6.08GB (comprimido)
Origen de los datos
Diari Oficial de la Generalitat Valenciana (DOGV)
Disponible en
Nombre del corpus
VIVES.TEXT_dogv
Idioma
Español-Valenciano
Número de frases
JSON: 7.699.663 palabras; 81.4MB.
Origen de los datos
Boletín Oficial de la Universidad de Alicante (BOUA)
Disponible en
Nombre del corpus
VIVES.TEXT_boua
Idioma
Español-Valenciano (multilingüe)
Número de frases
HTML: 1.05GB.
Origen de los datos
Boletín Oficial de las Corts Valencianes
Disponible en
Nombre del corpus
VIVES.TEXT_Les_Corts
Colecciones de datos para tareas específicas
Idioma
Valenciano
Tarea
textual entailment
Número de ejemplos
test: 5.01k filas
Origen de los datos
Cross-lingual Natural Language Inference XNLI dataset
Disponible en
Nombre del corpus
VIVES.TEXT_xnli-va
Colecciones de datos para análisis de sesgos
Idioma
Valenciano
Tarea
text generation
Número de ejemplos
-
Origen de los datos
Desde cero
Disponible en
Privado (solicitar acceso)
Nombre del corpus
VIVES.TEXT_análisis_sesgos
Last updated