Datos y herramientas para modelos de texto

Colecciones masivas de datos textuales

Idioma

Español-Valenciano

Número de frases

  • JSON: 283.979.280 palabras; 1.65GB.

  • PDF: 6.08GB (comprimido)

Origen de los datos

Diari Oficial de la Generalitat Valenciana (DOGV)

Disponible en

Nombre del corpus

VIVES.TEXT_dogv

Idioma

Español-Valenciano

Número de frases

  • JSON: 7.699.663 palabras; 81.4MB.

Origen de los datos

Boletín Oficial de la Universidad de Alicante (BOUA)

Disponible en

Nombre del corpus

VIVES.TEXT_boua

Idioma

Español-Valenciano (multilingüe)

Número de frases

  • HTML: 1.05GB.

Origen de los datos

Boletín Oficial de las Corts Valencianes

Disponible en

Nombre del corpus

VIVES.TEXT_Les_Corts

Idioma

Valenciano

Número de frases

  • JSON: 30.622.242 palabras; 222MB.

Origen de los datos

Corpus de periódicos/blogs (repositorio AMIC)

Disponible en

Nombre del corpus

AVIVES.TEXT_amics

Colecciones de datos para tareas específicas

Idioma

Valenciano

Tarea

textual entailment

Número de ejemplos

  • test: 5.01k filas

Origen de los datos

Cross-lingual Natural Language Inference XNLI dataset

Disponible en

Nombre del corpus

VIVES.TEXT_xnli-va

Colecciones de datos para análisis de sesgos

Idioma

Valenciano

Tarea

text generation

Número de ejemplos

-

Origen de los datos

Desde cero

Disponible en

Nombre del corpus

VIVES.TEXT_análisis_sesgos

Last updated