Objetivos

El objetivo principal del proyecto es aprovechar tecnologías de Procesamiento del Lenguaje Natural centradas en el conocimiento y en las personas para crear un ecosistema digital confiable, garantizando la calidad, la integridad y la transparencia de los modelos de lenguaje y del contenido digital, al tiempo que se permite a los usuarios acceder a información fiable y ética.

Capas del ecosistema HEART. Leyenda –DL: DeepLearning; GNN: Graph Neural Networks; KD: Knowledge Discovery; KG: Knowledge Graphs; LM: Language Models; SLM: Small Language Models; LLM: Large Language Models–.

Objetivos Principales

  1. Modelos de lenguaje enriquecidos con conocimiento. Explorar modelos de lenguaje (LM), tanto pequeños (SLM) como grandes (LLM), que integren conocimiento y faciliten la construcción de bases de conocimiento mediante extracción y enriquecimiento semántico guiados por modelos de lenguaje.

  2. Contenido de calidad. Identificar y diseñar técnicas y métricas para garantizar la fiabilidad de contenidos de alta calidad que sean actuales, precisos, completos, coherentes y basados en información verificada.

  3. Modelos de lenguaje fiables. Desarrollar metodologías para asegurar la fiabilidad de los datos y de los modelos de lenguaje mediante la mejora de la transparencia, la seguridad, la calidad del contenido y la explicabilidad.

  4. PLN FAIR. Garantizar que las tecnologías y recursos de procesamiento del lenguaje natural cumplan con los principios FAIR (Localizables, Accesibles, Interoperables y Reutilizables).

  5. Green AI. Aprovechar modelos y prácticas de Green AI que optimicen la eficiencia energética y reduzcan el impacto ambiental sin comprometer el rendimiento.

Objetivos Específicos de la Universidad de Jaén

  1. Desarrollar una IA basada en PLN segura. Nuestro objetivo es garantizar altos niveles de seguridad en el desarrollo y uso de modelos de lenguaje mediante la investigación de enfoques defensivos frente a distintos escenarios de ataque.

  2. Garantizar una IA basada en PLN transparente y con datos de calidad. Nuestro objetivo es establecer metodologías y directrices para la generación de recursos lingüísticos siguiendo principios de transparencia. Para ello, trabajaremos con datos abiertos, publicando los parámetros de los modelos y los resultados de evaluación.

  3. Preservar la privacidad de los datos. Trabajaremos en el diseño y desarrollo de nuevas metodologías y métodos que preserven la privacidad de los datos en toda la cadena de suministro de los modelos de lenguaje, desde la recopilación de datos hasta la explotación del modelo.

  4. Establecer metodologías y modelos para una IA responsable basada en PLN. Trabajaremos en flujos avanzados de razonamiento con modelos de lenguaje basados en agentes y en métodos que faciliten la explicabilidad de todos los procesos de razonamiento. Estos flujos integrarán supervisión humana en el aprendizaje de los modelos de lenguaje (human-in-the-loop y human-on-the-loop) y en su uso (copiloto de IA).

  5. Aplicar en dominios de interés social. Desarrollaremos aplicaciones de modelos de lenguaje con alto impacto social siguiendo principios éticos humanistas. En consecuencia, trabajaremos en los ámbitos de la biomedicina y la salud mental, así como en la lucha contra el discurso de odio y en la facilitación del acceso a la información mediante lenguaje claro y sencillo.

  6. IA verde basada en PLN. Seguiremos buenas prácticas eficientes y sostenibles para limitar la huella de carbono del sistema derivada de los modelos de lenguaje del proyecto, con el fin de alcanzar una IA verde basada en PLN.

Objetivos Específicos de la Universidad de Alicante

  1. Extracción semántica de información y desarrollo de bases de conocimiento. Desarrollar técnicas de extracción semántica de información y crear bases de conocimiento utilizando grandes modelos de lenguaje (LLM).

  2. Mejora de los modelos de lenguaje mediante datos y semántica estructural. Mejorar los modelos de lenguaje incorporando datos y semántica estructural para lograr una mejor comprensión y un mayor rendimiento de las soluciones de PLN.

  3. Incorporación de conocimiento operativo en el PLN. Utilizar meta-aprendizaje y nuevas arquitecturas de aprendizaje profundo como estrategia para incorporar conocimiento operativo en la selección de modelos verdes.

  4. Diseño de técnicas de Generación Aumentada con Conocimiento Fundamentado (GKAG) en LLM. Diseñar nuevos flujos de trabajo basados en agentes que aprovechen información factual y contrafactual, así como la recuperación de información relevante, como base para técnicas de Generación Aumentada con Conocimiento Fundamentado en LLM.

  5. Diseño de métricas de calidad de contenido. Definir métricas y técnicas basadas en dimensiones de contenido, contexto y conocimiento para proporcionar a los usuarios herramientas que permitan evaluar la calidad de la información en un entorno digital más saludable.

  6. Desarrollo de estrategias de “LM como juez”. Desarrollar técnicas basadas en modelos de IA que actúen como jueces para mejorar la cooperación entre modelos de IA y expertos humanos en la evaluación de información de calidad.

Agradecimientos

Este trabajo de investigación es parte del proyecto I+D+I <<PID2024-156263OB-C22>> financiado por MICIU /AEI /10.13039/501100011033 / FEDER, UE.

Last updated