Tareas

La ejecución del proyecto HEART-NLP está organizada en siete módulos de trabajo (M1 a M7), definidos en la Metodología, que abarcan desde la gestión y el análisis hasta la creación de recursos, el desarrollo de métodos, la evaluación de la fiabilidad y la difusión de resultados. A continuación se detallan las tareas correspondientes a cada módulo.

M1. Gestión y Coordinación

Este módulo se centra en la supervisión y la transparencia del proyecto coordinado, garantizando una colaboración fluida entre los equipos UJA y UA.

  • T1.1. Reuniones: Celebración de reuniones periódicas (incluida una inicial y una anual obligatoria) para planificar y revisar el avance.

  • T1.2. Comunicación Continua: Establecimiento de canales de comunicación constantes, como correo electrónico, videoconferencias y la web del proyecto.

  • T1.3. Control del Estado del Proyecto: Mecanismos de evaluación como revisiones, demostraciones y controles de calidad para cada tarea, incluyendo la participación en foros de evaluación externos.

  • T1.4. Garantía de los Principios FAIR: Asegurar que los datos y tecnologías científicas cumplan con ser Localizables, Accesibles, Interoperables y Reutilizables, utilizando plataformas como GitHub o Hugging Face.

M2. Análisis del Problema

Se enfoca en la descripción de los dominios de aplicación, la investigación del estado del arte y el diseño de métricas clave.

  • T2.1. Identificación de Casos de Uso: Definición de escenarios clave en dominios como noticias, medios sociales, biomedicina y turismo, enfocándose en combatir la desinformación y el discurso de odio, y en fomentar contenido beneficioso.

  • T2.2. Identificación de Técnicas y Algoritmos: Evaluación de herramientas avanzadas de machine learning y deep learning (como Transformers: BERT, GPT, T5) para clasificación de texto y reconocimiento de entidades.

  • T2.3. Determinación de Fuentes y Caracterización de Contenido: Definición de fuentes de datos (estructuradas y no estructuradas) en español y otros idiomas, enfocándose en la obtención de contenido verificado y no perjudicial.

  • T2.4. Diseño de Métricas de Calidad: Desarrollo de métricas para contenido digital y métodos de evaluación robustos para modelos de lenguaje, incluyendo métricas humanas como la coherencia, precisión factual y mitigación de sesgos.

  • T2.5. Diseño de Métricas Sostenibles: Identificación y diseño de marcos de evaluación para el impacto ambiental de modelos de lenguaje (consumo de energía, emisiones de carbono).

M3. Creación de Recursos

Este módulo se centra en la obtención, filtrado y enriquecimiento de datos de calidad que sigan los principios de confiabilidad del proyecto.

  • T3.1. Extracción y Compilación: Extracción de información de diversas fuentes (redes sociales, periódicos, informes médicos) asegurando la precisión de los datos recolectados.

  • T3.2. Curación de Datos: Filtrado de contenidos para eliminar información de baja calidad o que pueda corromper los modelos de lenguaje. Se incluirá la preservación de la privacidad y la integridad de la información sensible.

  • T.3.3. Anotación y Enriquecimiento: Construcción de datasets anotados con características semánticas avanzadas, utilizando pautas de anotación específicas para garantizar la calidad y explorando la generación semiautomática de datasets.

  • T3.4. Recursos Lingüísticos para Modelos de Lenguaje: Generación de bases de conocimiento curadas (relacionales y no relacionales), datasets de instrucción para alinear modelos con objetivos humanos y plantillas de prompt.

M4. Diseño de Métodos y Algoritmos

Se enfoca en la construcción y adaptación de Modelos de Lenguaje (LMs) y la integración de conocimiento.

  • T4.1. Métodos para la Generación de Conocimiento: Preparación y operacionalización del acceso y uso de datos enriquecidos (texto simple, ontologías, grafos de conocimiento) e integración de métodos de privacidad e integridad para la entrada de LMs.

  • T4.2. Métodos de Aprendizaje para el Desarrollo de LMs: Experimentación con técnicas como continual pre-training para adaptación a dominios específicos, fine-tuning, prompt engineering y instruction tuning, explorando también el uso de métodos clásicos de machine learning por su menor coste computacional.

  • T4.3. Diseño de Enfoques de Evaluación: Implementación de metodologías LLM-as-Judge para analizar los resultados de los modelos desarrollados, aplicando estándares comparables a los de un evaluador humano.

M5. Fiabilidad y Sostenibilidad de LMs

Dedicado a asegurar la robustez de la IA basada en PLN, la ética y la sostenibilidad.

  • T5.1. Fiabilidad de LMs basada en Mitigación de Sesgos y Explicabilidad: Diseño de nuevas métricas de evaluación para determinar el nivel de sesgo y trabajo en métodos de análisis local, global y de razonamiento (chain-of-thought) para mejorar la Explicabilidad (XAI).

  • T5.2. Seguridad y Privacidad de LMs: Integración de salvaguardas contra ataques adversarios (inyección de prompt y jailbreaking), detección de corrupción en LMs liberados e integración de métodos de preservación de la privacidad como la privacidad diferencial.

  • T5.3. Sostenibilidad e Impacto Ambiental: Desarrollo e implementación de una metodología para evaluar y analizar el impacto ambiental de los modelos de lenguaje generados en las fases de entrenamiento y despliegue.

  • T5.4. Calidad del Contenido: Evaluación de seis dimensiones de calidad de contenido (oportunidad, completitud, precisión, consistencia, validez y singularidad), interviniendo a nivel de contenido, contexto y conocimiento del mundo (fact-checking).

M6. Integración y Evaluación

Agrupa las actividades de integración de componentes y el desarrollo de demostradores tecnológicos.

  • T6.1. Desarrollo de Módulos: Integración de módulos a partir de librerías y recursos propios o externos, utilizando lenguajes de programación como Python y librerías especializadas (NLTK, Freeling). Se definirá un modelo de datos común y una capa de microservicios (API).

  • T6.2. Construcción de Demostradores para cada Escenario: Desarrollo de plataformas experimentales específicas (web, APIs, paquetes de software, tutoriales) para medir la usabilidad y transferir las soluciones a la sociedad.

  • T6.3. Experimentación y Análisis de Resultados: Ejecución de experimentos con métricas de evaluación intrínsecas y extrínsecas, con un enfoque particular en los métodos de evaluación LLM-as-Judge, para ajustar las configuraciones y obtener las propuestas más eficientes.

M7. Difusión

Enfocado en la promoción y diseminación de las líneas de investigación y resultados a la comunidad científica internacional y a la sociedad.

  • Publicación de resultados en congresos científicos internacionales y revistas de alto impacto.

  • Participación en competiciones científicas internacionales (TREC, TAC, CLEF, IberLEF, SemEval).

  • Presentación online de publicaciones, prototipos y recursos intermedios en la web del proyecto y redes sociales profesionales.

  • Difusión de recursos y herramientas mediante licencias libres para fines de investigación.

  • Promoción en empresas y foros de transferencia tecnológica (OTRI).

Agradecimientos

Este trabajo de investigación es parte del proyecto I+D+I <<PID2024-156263OB-C22>> financiado por MICIU /AEI /10.13039/501100011033 / FEDER, UE.

Last updated