cs.AI artículos | Gist.Science

VFEFL: Privacy-Preserving Federated Learning against Malicious Clients via Verifiable Functional Encryption

Este artículo propone VFEFL, un marco de aprendizaje federado que utiliza un nuevo esquema de cifrado funcional verificable descentralizado (CC-DVFE) para proteger la privacidad de los datos y detectar clientes maliciosos sin depender de servidores duales no coludidos ni terceros de confianza.

Nina Cai, Jinguang Han, Weizhi Meng2026-03-05🤖 cs.AI

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

El paper presenta EgoWorld, un marco novedoso que supera las limitaciones de los métodos actuales al reconstruir vistas egocéntricas a partir de observaciones exocéntricas ricas (como nubes de puntos, poses de manos y descripciones textuales) mediante la reproyección de nubes de puntos y modelos de difusión, logrando un rendimiento de vanguardia y una generalización robusta en múltiples conjuntos de datos y escenarios del mundo real.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

El artículo presenta RLVER, un marco de aprendizaje por refuerzo que utiliza recompensas emocionales verificables de usuarios simulados para entrenar modelos de lenguaje grandes, logrando una mejora sustancial en su inteligencia emocional y empatía sin comprometer sus capacidades cognitivas.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

El documento presenta UQLM, un paquete de Python que utiliza técnicas avanzadas de cuantificación de incertidumbre para detectar alucinaciones en modelos de lenguaje grandes y mejorar la fiabilidad de sus respuestas mediante puntuaciones de confianza.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

Q-Guided Stein Variational Model Predictive Control via RL-informed Policy Prior

El artículo presenta Q-SVMPC, un método de control predictivo basado en modelos que utiliza inferencia posterior a nivel de trayectoria guiada por valores Q y un prior de política de aprendizaje por refuerzo para preservar soluciones diversas y mejorar la eficiencia, estabilidad y robustez en comparación con enfoques tradicionales.

Shizhe Cai, Zeya Yin, Jayadeep Jacob + 1 more2026-03-05🤖 cs.AI

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

Este estudio demuestra que la resolución de coreferencia mejora significativamente la eficacia de la recuperación y la calidad de las respuestas en los sistemas de Generación Aumentada por Recuperación (RAG), especialmente al aplicar estrategias de agrupación media y al beneficiar desproporcionadamente a los modelos más pequeños.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Este estudio utiliza técnicas de interpretabilidad para descubrir que los modelos de lenguaje generalizan tareas mediante un mecanismo de "inducción de funciones" reutilizable y compuesto por múltiples cabezas de atención, el cual permite aprender y aplicar reglas abstractas como la suma con un desplazamiento de uno.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

VITA: Vision-to-Action Flow Matching Policy

El artículo presenta VITA, un marco de aprendizaje de políticas de flujo de coincidencia libre de ruido y condicionamiento que mapea directamente representaciones visuales a acciones latentes mediante un autoencoder y una decodificación de flujo latente, logrando una inferencia significativamente más rápida y un rendimiento superior en diversas tareas robóticas.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

HAMLET: A Hierarchical and Adaptive Multi-Agent Framework for Live Embodied Theatrics

El artículo presenta HAMLET, un marco jerárquico y adaptativo de agentes múltiples que utiliza modelos de lenguaje grandes para generar y ejecutar obras de teatro inmersivas e interactivas en tiempo real, donde los actores autónomos improvisan diálogos y manipulan objetos físicos en un entorno escénico, todo ello evaluado mediante un modelo crítico especializado.

Shufan Jiang, Sizhou Chen, Chi Zhang + 2 more2026-03-05🤖 cs.AI

From Privacy to Trust in the Agentic Era: A Taxonomy of Challenges in Trustworthy Federated Learning Through the Lens of Trust Report 2.0

Este artículo propone un marco para la Aprendizaje Federado Confiable (TFL) que, a través del "Trust Report 2.0", trasciende la privacidad tradicional para abordar la confianza como una condición operativa dinámica en la era de la IA agéntica, ofreciendo una taxonomía de desafíos y un plan de coordinación validado en el ámbito de la oncología.

Nuria Rodríguez-Barroso, Mario García-Márquez, M. Victoria Luzón + 1 more2026-03-05🤖 cs.AI

Self-Supervised Inductive Logic Programming

Este artículo presenta Poker, un nuevo sistema de Programación Lógica Inductiva (ILP) auto-supervisada que, ante la ausencia de ejemplos negativos y teorías de fondo específicas, aprende programas lógicos recursivos mediante la generación automática de ejemplos y el uso de una forma normal de segundo orden para generalizar eficazmente desde solo ejemplos positivos.

Stassa Patsantzis2026-03-05🤖 cs.AI

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

El artículo presenta Text2VLM, un pipeline innovador que adapta conjuntos de datos de solo texto a formatos multimodales para evaluar la resistencia de los Modelos de Lenguaje Visual frente a ataques de inyección de prompts tipográficos, revelando vulnerabilidades críticas en los modelos de código abierto y proporcionando una herramienta escalable para mejorar su seguridad.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Serendipitous Recommendation

Este artículo presenta CoEA, un método de recomendación serendípica que supera las limitaciones de los sistemas tradicionales y de los marcos actuales basados en LLM mediante el módulo DSIE para modelar intereses grupales e individuales y el mecanismo PCO para lograr una optimización dinámica en bucle cerrado que equilibra relevancia y novedad.

Hongxiang Lin, Hao Guo, Zeshun Li + 6 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

El documento presenta WebDS, el primer benchmark integral para ciencia de datos basada en web que evalúa tareas de extremo a extremo en diversos sitios, revelando una brecha significativa entre el rendimiento de los agentes de IA actuales y el humano debido a nuevas modalidades de fallo como la falta de fundamentación de la información.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

Este trabajo presenta ToolVQA, un conjunto de datos multimodal a gran escala que utiliza el pipeline de generación ToolEngine para crear tareas de razonamiento en varios pasos con herramientas externas, permitiendo que modelos de lenguaje de 7B superen a GPT-3.5-turbo en escenarios de uso de herramientas del mundo real.

Shaofeng Yin, Ting Lei, Yang Liu2026-03-05🤖 cs.AI

ERDES: A Benchmark Video Dataset for Retinal Detachment and Macular Status Classification in Ocular Ultrasound

Este artículo presenta ERDES, el primer conjunto de datos de acceso abierto de videos de ultrasonido ocular etiquetados para la detección de desprendimiento de retina y la clasificación del estado macular, junto con benchmarks de referencia generados mediante el entrenamiento de múltiples arquitecturas de aprendizaje profundo.

Yasemin Ozkut, Pouyan Navard, Srikar Adhikari + 4 more2026-03-05🤖 cs.AI

Effective Sample Size and Generalization Bounds for Temporal Networks

Este trabajo propone una metodología de evaluación dependiente de la dependencia temporal que controla el tamaño de muestra efectivo en lugar de la longitud bruta, estableciendo garantías de generalización para redes convolucionales temporales y demostrando empíricamente que una mayor dependencia puede reducir la brecha de generalización cuando se compara bajo este marco, a diferencia de las evaluaciones estándar.

Barak Gahtan, Alex M. Bronstein2026-03-05🤖 cs.AI

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

El artículo presenta ObfusQAte, un marco innovador que evalúa la robustez de los modelos de lenguaje grandes mediante preguntas de respuesta factual obfuscadas en tres niveles (indirecta de entidades nombradas, distractores y sobrecarga contextual), revelando que estos modelos tienden a fallar o alucinar ante variaciones lingüísticas sutiles.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

Zono-Conformal Prediction: Zonotope-Based Uncertainty Quantification for Regression and Classification Tasks

Este artículo presenta la predicción zono-conformal, un método novedoso que utiliza zonotopos para cuantificar la incertidumbre en tareas de regresión y clasificación mediante un programa lineal eficiente, logrando garantías de cobertura estadística con menor conservadurismo que las técnicas existentes.

Laura Lützow, Michael Eichelbeck, Mykel J. Kochenderfer + 1 more2026-03-05🤖 cs.AI

Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

Este artículo de concepto propone el Sistema de Detección Adaptativa de Cráteres Planetarios Cuantizado (AQ-PCDSys), una arquitectura que integra redes neuronales cuantizadas y fusión sensorial adaptativa para superar las limitaciones de memoria y potencia de los sistemas de exploración espacial autónoma.

Aditri Paul, Archan Paul2026-03-05🤖 cs.AI

← Anterior Siguiente →