cs.AI artículos | Gist.Science

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

El artículo presenta DeepFact, un marco que introduce un método de evaluación evolutiva (AtS) para superar la fragilidad de los benchmarks estáticos y un agente de verificación (DeepFact-Eval) capaz de validar la factualidad de informes de investigación profundos generados por agentes LLM.

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Este artículo presenta un marco integrado que combina una arquitectura de transformador de nodos con análisis de sentimientos basado en BERT para predecir precios de acciones, logrando una mayor precisión y robustez en comparación con modelos tradicionales al capturar dependencias cruzadas y factores de mercado no cuantitativos.

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

El paper presenta BlackMirror, un marco de detección de backdoors en modelos de texto a imagen bajo configuración de caja negra que, mediante los componentes MirrorMatch y MirrorVerify, identifica manipulaciones semánticas parciales mediante el análisis de desviaciones entre instrucciones y respuestas, superando las limitaciones de los métodos basados únicamente en similitud visual.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

El artículo presenta el Rectified Flow Auto Coder (RAC), un modelo inspirado en Rectified Flow que reemplaza a los VAE tradicionales mediante un proceso de decodificación rectificado y bidireccional, logrando una mayor calidad de reconstrucción y generación con un costo computacional aproximadamente un 70% menor.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Addressing the Ecological Fallacy in Larger LMs with Human Context

Este trabajo demuestra que abordar la falacia ecológica al modelar el contexto lingüístico del autor, mediante técnicas como HuFT y HuLM en un modelo Llama de 8B, mejora significativamente su rendimiento en diversas tareas en comparación con el ajuste fino estándar.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Facial Expression Recognition Using Residual Masking Network

Este artículo presenta una Red de Enmascaramiento Residual que combina redes residuales profundas con una arquitectura tipo Unet para mejorar el reconocimiento de expresiones faciales mediante un mecanismo de atención que refina los mapas de características, logrando así un rendimiento de vanguardia en los conjuntos de datos FER2013 y VEMO.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Este trabajo presenta un enfoque sistemático de IA explicable que transforma los registros de ejecución crudos de agentes de codificación en explicaciones estructuradas y visualmente intuitivas, permitiendo a los desarrolladores identificar la causa raíz de los fallos y proponer soluciones correctas de manera significativamente más rápida y precisa en comparación con los métodos actuales.

Arun Joshi2026-03-09🤖 cs.AI

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

El artículo presenta E-AdaPrune, un marco de poda adaptativa impulsado por la energía que optimiza la eficiencia de los modelos de visión y lenguaje al asignar dinámicamente la cantidad de tokens visuales según la densidad de información de cada imagen, logrando mejoras en el rendimiento sin añadir parámetros entrenables.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Este artículo presenta modelos interpretables que integran rasgos psicológicos individuales y características situacionales inferidas del lenguaje para predecir el bienestar mental, demostrando que un enfoque basado en teorías psicológicas ofrece un rendimiento competitivo y una mayor comprensión humana en comparación con las representaciones de modelos de lenguaje.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Domain-Adaptive Model Merging across Disconnected Modes

El artículo presenta DMM, un marco de fusión de modelos sin datos que aborda la divergencia entre modelos especializados mediante la síntesis de pseudo-datos y la destilación de conocimiento, logrando un rendimiento superior al estado del arte en benchmarks unimodales y multimodales.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Este artículo presenta Skeleton-to-Image Encoding (S2I), un método innovador que transforma secuencias de esqueletos 3D en representaciones similares a imágenes para aprovechar modelos de visión preentrenados en el aprendizaje auto-supervisado de esqueletos, logrando así un formato unificado que mejora el rendimiento y la generalización en tareas de reconocimiento de acciones.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

El artículo presenta ProCap, un marco innovador que mejora la generación de descripciones de cambios visuales al reformular el modelado estático de pares de imágenes en una representación dinámica de procedimientos mediante un diseño de dos etapas que aprende y codifica la evolución temporal implícita entre imágenes.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

Este estudio propone un sistema automatizado basado en un modelo de lenguaje grande y múltiples agentes virtuales especializados que, mediante la recuperación de información y el análisis deliberado, evalúan la viabilidad técnica y comercial de nuevos conceptos de productos con una precisión comparable a la de expertos humanos.

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

Este informe presenta un sistema de inspección óptica automatizada basado en arquitecturas de aprendizaje profundo (YOLOv8, ResNet-152 y EfficientNet-b4) para detectar defectos críticos en instrumentos quirúrgicos fabricados en Pakistán, utilizando un conjunto de datos de 4.414 imágenes y colaborando con líderes de la industria local para mejorar la seguridad del paciente y la calidad de fabricación.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

El artículo presenta TADPO, un nuevo sistema de aprendizaje por refuerzo basado en visión que permite la conducción autónoma de alta velocidad en terrenos off-road complejos, logrando por primera vez una transferencia cero-shot de simulación a la realidad en un vehículo a escala completa.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

El artículo presenta MM-ISTS, un marco multimodal que utiliza modelos de lenguaje grandes de visión y texto para mejorar la predicción de series temporales muestreadas irregularmente mediante la integración de representaciones temporales, visuales y textuales, un mecanismo de codificación en dos etapas y un módulo de alineación multimodal.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Este artículo presenta ICBench, un nuevo benchmark para diagnosticar la "ceguera lingüística" en modelos VLA que priorizan la visión sobre las instrucciones, y propone IGAR, un mecanismo de recalibración de atención sin entrenamiento que restaura la alineación lingüística y mejora la fiabilidad de los robots ante instrucciones contradictorias.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

El artículo presenta RepKAN, una arquitectura innovadora que combina la eficiencia de las CNN con el poder de representación no lineal de las KAN para lograr una clasificación de imágenes de teledetección interpretable y de alto rendimiento.

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

El artículo presenta MASFactory, un marco de trabajo centrado en grafos para orquestar sistemas multiagente basados en LLM que introduce la "Vibe Graphing" para convertir intenciones en lenguaje natural en flujos de trabajo ejecutables, facilitando la reutilización de componentes, la integración de contextos heterogéneos y la interacción humana.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Este artículo propone un marco de investigación en tres pasos para desarrollar agentes conversacionales de aclaración de intenciones aumentados por recuperación que protejan la información sensible en dominios críticos, definiendo modelos de ataque, diseñando defensas y evaluando el equilibrio entre protección y utilidad.

Maik Larooij2026-03-09🤖 cs.AI

← Anterior Siguiente →