Datos y herramientas para modelos de texto

Colecciones masivas de datos textuales

Idioma

Español-Valenciano

Número de frases

JSON: 283.979.280 palabras; 1.65GB.
PDF: 6.08GB (comprimido)

Origen de los datos

Diari Oﬁcial de la Generalitat Valenciana (DOGV)

Disponible en

Enlace

Nombre del corpus

VIVES.TEXT_dogv

Idioma

Español-Valenciano

Número de frases

JSON: 7.699.663 palabras; 81.4MB.

Origen de los datos

Boletín Oficial de la Universidad de Alicante (BOUA)

Disponible en

Enlace

Nombre del corpus

VIVES.TEXT_boua

Idioma

Español-Valenciano (multilingüe)

Número de frases

HTML: 1.05GB.

Origen de los datos

Boletín Oficial de las Corts Valencianes

Disponible en

Enlace

Nombre del corpus

VIVES.TEXT_Les_Corts

Idioma

Valenciano

Número de frases

JSON: 30.622.242 palabras; 222MB.

Origen de los datos

Corpus de periódicos/blogs (repositorio AMIC)

Disponible en

Enlace

Nombre del corpus

AVIVES.TEXT_amics

Colecciones de datos para tareas específicas

Idioma

Valenciano

Tarea

textual entailment

Número de ejemplos

test: 5.01k filas

Origen de los datos

Cross-lingual Natural Language Inference XNLI dataset

Disponible en

gplsi/xnli_va

Nombre del corpus

VIVES.TEXT_xnli-va

Colecciones de datos para análisis de sesgos

Idioma

Valenciano

Tarea

text generation

Número de ejemplos

Origen de los datos

Desde cero

Disponible en

Github

Nombre del corpus

VIVES.TEXT_análisis_sesgos

PreviousModelos de voz NextDatos y herramientas para modelos de voz

Last updated 3 months ago

hashtagColecciones masivas de datos textuales

hashtagColecciones de datos para tareas específicas

hashtagColecciones de datos para análisis de sesgos

Colecciones masivas de datos textuales

Colecciones de datos para tareas específicas

Colecciones de datos para análisis de sesgos