cs.AI artículos | Gist.Science

Facial Expression Recognition Using Residual Masking Network

Este artículo presenta una Red de Enmascaramiento Residual que combina redes residuales profundas con una arquitectura tipo Unet para mejorar el reconocimiento de expresiones faciales mediante un mecanismo de atención que refina los mapas de características, logrando así un rendimiento de vanguardia en los conjuntos de datos FER2013 y VEMO.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Este trabajo presenta un enfoque sistemático de IA explicable que transforma los registros de ejecución crudos de agentes de codificación en explicaciones estructuradas y visualmente intuitivas, permitiendo a los desarrolladores identificar la causa raíz de los fallos y proponer soluciones correctas de manera significativamente más rápida y precisa en comparación con los métodos actuales.

Arun Joshi2026-03-09🤖 cs.AI

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

El artículo presenta E-AdaPrune, un marco de poda adaptativa impulsado por la energía que optimiza la eficiencia de los modelos de visión y lenguaje al asignar dinámicamente la cantidad de tokens visuales según la densidad de información de cada imagen, logrando mejoras en el rendimiento sin añadir parámetros entrenables.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Este artículo presenta modelos interpretables que integran rasgos psicológicos individuales y características situacionales inferidas del lenguaje para predecir el bienestar mental, demostrando que un enfoque basado en teorías psicológicas ofrece un rendimiento competitivo y una mayor comprensión humana en comparación con las representaciones de modelos de lenguaje.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Domain-Adaptive Model Merging across Disconnected Modes

El artículo presenta DMM, un marco de fusión de modelos sin datos que aborda la divergencia entre modelos especializados mediante la síntesis de pseudo-datos y la destilación de conocimiento, logrando un rendimiento superior al estado del arte en benchmarks unimodales y multimodales.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Este artículo presenta Skeleton-to-Image Encoding (S2I), un método innovador que transforma secuencias de esqueletos 3D en representaciones similares a imágenes para aprovechar modelos de visión preentrenados en el aprendizaje auto-supervisado de esqueletos, logrando así un formato unificado que mejora el rendimiento y la generalización en tareas de reconocimiento de acciones.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

El artículo presenta ProCap, un marco innovador que mejora la generación de descripciones de cambios visuales al reformular el modelado estático de pares de imágenes en una representación dinámica de procedimientos mediante un diseño de dos etapas que aprende y codifica la evolución temporal implícita entre imágenes.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

Este estudio propone un sistema automatizado basado en un modelo de lenguaje grande y múltiples agentes virtuales especializados que, mediante la recuperación de información y el análisis deliberado, evalúan la viabilidad técnica y comercial de nuevos conceptos de productos con una precisión comparable a la de expertos humanos.

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

Este informe presenta un sistema de inspección óptica automatizada basado en arquitecturas de aprendizaje profundo (YOLOv8, ResNet-152 y EfficientNet-b4) para detectar defectos críticos en instrumentos quirúrgicos fabricados en Pakistán, utilizando un conjunto de datos de 4.414 imágenes y colaborando con líderes de la industria local para mejorar la seguridad del paciente y la calidad de fabricación.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

El artículo presenta TADPO, un nuevo sistema de aprendizaje por refuerzo basado en visión que permite la conducción autónoma de alta velocidad en terrenos off-road complejos, logrando por primera vez una transferencia cero-shot de simulación a la realidad en un vehículo a escala completa.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

El artículo presenta MM-ISTS, un marco multimodal que utiliza modelos de lenguaje grandes de visión y texto para mejorar la predicción de series temporales muestreadas irregularmente mediante la integración de representaciones temporales, visuales y textuales, un mecanismo de codificación en dos etapas y un módulo de alineación multimodal.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Este artículo presenta ICBench, un nuevo benchmark para diagnosticar la "ceguera lingüística" en modelos VLA que priorizan la visión sobre las instrucciones, y propone IGAR, un mecanismo de recalibración de atención sin entrenamiento que restaura la alineación lingüística y mejora la fiabilidad de los robots ante instrucciones contradictorias.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

El artículo presenta RepKAN, una arquitectura innovadora que combina la eficiencia de las CNN con el poder de representación no lineal de las KAN para lograr una clasificación de imágenes de teledetección interpretable y de alto rendimiento.

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

El artículo presenta MASFactory, un marco de trabajo centrado en grafos para orquestar sistemas multiagente basados en LLM que introduce la "Vibe Graphing" para convertir intenciones en lenguaje natural en flujos de trabajo ejecutables, facilitando la reutilización de componentes, la integración de contextos heterogéneos y la interacción humana.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Este artículo propone un marco de investigación en tres pasos para desarrollar agentes conversacionales de aclaración de intenciones aumentados por recuperación que protejan la información sensible en dominios críticos, definiendo modelos de ataque, diseñando defensas y evaluando el equilibrio entre protección y utilidad.

Maik Larooij2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudio analiza las activaciones intermedias de modelos visión-lenguaje ligeros para identificar que sus fallos en escenarios de conducción autónoma se deben tanto a la falta de codificación lineal de ciertos conceptos visuales (fallo perceptual) como a la incapacidad de alinear la información visual presente con la semántica lingüística (fallo cognitivo), revelando además que la distancia del objeto degrada rápidamente la separabilidad de estos conceptos.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

El artículo presenta TempoSyncDiff, un marco de difusión latente basado en destilación que genera cabezas parlantes impulsadas por audio con baja latencia y alta consistencia temporal, mitigando problemas como el parpadeo y la deriva de identidad mediante un enfoque maestro-alumno y condicionamiento basado en visemas.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

El estudio presenta PyPDDLEngine, un motor de simulación PDDL que permite a los LLMs actuar como políticas de búsqueda interactivas, demostrando que aunque este enfoque agente ofrece una ventaja marginal del 3% en la resolución de problemas de planificación frente a la planificación directa, su eficacia depende críticamente de la naturaleza de la retroalimentación ambiental, la cual resulta menos efectiva en dominios autoevaluados como PDDL en comparación con entornos con señales externas verificables.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Este estudio evalúa el uso de modelos de lenguaje grandes de código abierto para la calificación automática de ensayos alemanes de nivel A en Austria, concluyendo que, aunque pueden aplicar rúbricas estandarizadas, su baja concordancia con los evaluadores humanos (máximo 40,6% en subdimensiones y 32,8% en calificaciones finales) los hace inadecuados para su implementación en entornos reales de evaluación.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

Este artículo introduce una nueva familia de semánticas graduales para Marcos de Argumentación Bipolar Cuantitativos (QBAF) que, mediante un proceso de tres etapas que agrupa por separado a atacantes y defensores antes de combinarlos con el peso intrínseco, ofrece un enfoque más interpretable y parametrizable que las semánticas modulares existentes.

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot2026-03-09🤖 cs.AI

← Anterior Siguiente →