Datos y herramientas para modelos de texto
Last updated
Last updated
Idioma
Español-Valenciano
Número de frases
JSON: 283.979.280 palabras; 1.65GB.
PDF: 6.08GB (comprimido)
Origen de los datos
Diari Oficial de la Generalitat Valenciana (DOGV)
Disponible en
Privado (solicitar acceso)
Nombre del corpus
DOGV Crudo
Idioma
Español-Valenciano
Número de frases
JSON: 7.699.663 palabras; 81.4MB.
Origen de los datos
Boletín Oficial de la Universidad de Alicante (BOUA)
Disponible en
Privado (solicitar acceso)
Nombre del corpus
BOUA Crudo
Idioma
Español-Valenciano (multilingüe)
Número de frases
HTML: 1.05GB.
Origen de los datos
Boletín Oficial de las Corts Valencianes
Disponible en
Privado (solicitar acceso)
Nombre del corpus
Les Corts Crudo
Idioma
Valenciano
Número de frases
JSON: 30.622.242 palabras; 222MB.
Origen de los datos
Corpus de periódicos/blogs (repositorio AMIC)
Disponible en
Privado (solicitar acceso)
Nombre del corpus
AMIGOS
Idioma
Valenciano
Tarea
textual entailment
Número de ejemplos
test: 5.01k filas
Origen de los datos
Cross-lingual Natural Language Inference XNLI dataset
Disponible en
Nombre del corpus
XNLI-va
Idioma
Valenciano
Tarea
text generation
Número de ejemplos
-
Origen de los datos
Desde cero
Disponible en
Privado (solicitar acceso)
Nombre del corpus
-