GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics

El artículo presenta GPT4o-Receipt, un conjunto de datos y estudio que revela la paradoja de que, aunque los humanos perciben mejor los artefactos visuales en recibos generados por IA, los modelos de lenguaje multimodal superan a los humanos en la detección de errores aritméticos, lo que demuestra que la verificación lógica es más efectiva que la inspección visual para la forense de documentos.

Yan Zhang, Simiao Ren, Ankit Raj, En Wei, Dennis Ng, Alex Shen, Jiayue Xu, Yuxin Zhang, Evelyn Marotta2026-03-13🤖 cs.AI

Verified Multi-Agent Orchestration: A Plan-Execute-Verify-Replan Framework for Complex Query Resolution

Este artículo presenta VMAO, un marco de orquestación multiagente que mejora la resolución de consultas complejas mediante la descomposición en un grafo acíclico dirigido, la ejecución paralela de agentes especializados y un bucle iterativo de verificación y replanificación que optimiza la completitud y la calidad de las fuentes.

Xing Zhang, Yanwei Cui, Guanghui Wang, Qucy Wei Qiu, Ziyuan Li, Fangwei Han, Yajing Huang, Hengzhi Qiu, Bin Zhu, Peiyang He2026-03-13🤖 cs.AI

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

Este trabajo presenta un marco neuro-simbólico basado en un Árbol de Lógica de Eventos (ELT) que permite a agentes de Modelos de Lenguaje Visuales (VLM) detectar eventos en series temporales multivariadas a partir de descripciones en lenguaje natural, logrando una mayor precisión y explicabilidad que los enfoques existentes al mitigar las alucinaciones mediante la estructuración de la lógica temporal.

Sky Chenwei Wan, Tianjun Hou, Yifei Wang, Xiqing Chang, Aymeric Jan2026-03-13🤖 cs.LG

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

El artículo presenta INFACT, un nuevo benchmark diagnóstico que evalúa la fiabilidad y los alucinaciones de los modelos de lenguaje grandes para video (Video-LLMs) mediante 9.800 preguntas sobre videos reales y sintéticos, revelando que una alta precisión en condiciones ideales no garantiza la estabilidad ante degradaciones visuales, corrupción de evidencia o intervenciones temporales.

Junqi Yang, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen2026-03-13🤖 cs.AI

SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation

El artículo presenta SPEGC, un método de adaptación continua en tiempo de prueba para la segmentación de imágenes médicas que supera la degradación del rendimiento mediante un mecanismo de mejora de características con prompts semánticos y un solucionador de agrupamiento gráfico diferenciable para refinar las representaciones estructurales y guiar la adaptación del modelo.

Xiaogang Du, Jiawei Zhang, Tongfei Liu, Tao Lei, Yingbo Wang2026-03-13🤖 cs.AI

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

El artículo presenta KEPo, un nuevo método de ataque de envenenamiento diseñado específicamente para sistemas de generación aumentada por recuperación basados en grafos (GraphRAG), el cual manipula la evolución del conocimiento dentro del grafo para engañar a los modelos de lenguaje y generar respuestas maliciosas, superando significativamente a las técnicas de ataque anteriores.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang2026-03-13🤖 cs.LG

Gen-Fab: A Variation-Aware Generative Model for Predicting Fabrication Variations in Nanophotonic Devices

Este artículo presenta Gen-Fab, un modelo generativo basado en cGAN que predice con alta precisión y modela la incertidumbre de las variaciones de fabricación en dispositivos nanofotónicos, superando a métodos deterministas y de ensamble en la generación de imágenes de resultados de fabricación a escala nanométrica.

Rambod Azimi, Yuri Grinberg, Dan-Xia Xu, Odile Liboiron-Ladouceur2026-03-13🤖 cs.AI

Multi-Agent Collaboration for Automated Design Exploration on High Performance Computing Systems

El artículo presenta MADA, un marco de trabajo multiagente potenciado por modelos de lenguaje grande que automatiza la exploración de diseños en sistemas de computación de alto rendimiento para optimizar la supresión de la inestabilidad de Richtmyer-Meshkov en la fusión por confinamiento inercial, reduciendo la intervención manual y acelerando el descubrimiento científico.

Harshitha Menon, Charles F. Jekel, Kevin Korner, Brian Gunnarson, Nathan K. Brown, Michael Stees, M. Giselle Fernandez-Godino, Walter Nissen, Meir H. Shachar, Dane M. Sterbentz, William J. Schill, Yue Hao, Robert Rieben, William Quadros, Steve Owen, Scott Mitchell, Ismael D. Boureima, Jonathan L. Belof2026-03-13🤖 cs.AI

FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval

Este artículo presenta FBCIR, un método de interpretación que identifica los desequilibrios de atención entre modalidades en la recuperación de imágenes compuestas, y propone un flujo de trabajo de aumento de datos con negativos difíciles para corregir estos desequilibrios y mejorar el rendimiento de los modelos en escenarios desafiantes.

Chenchen Zhao, Jianhuan Zhuo, Muxi Chen, Zhaohua Zhang, Wenyu Jiang, Tianwen Jiang, Qiuyong Xiao, Jihong Zhang, Qiang Xu2026-03-13🤖 cs.AI

EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection

El artículo presenta EReCu, un marco unificado para la detección de objetos camuflados no supervisada que mejora la fiabilidad de las etiquetas pseudo y la fidelidad de las características mediante módulos de percepción multi-pista, fusión evolutiva de etiquetas pseudo y refinamiento local, logrando un rendimiento superior en la alineación de bordes y la percepción de detalles.

Shuo Jiang, Gaojia Zhang, Min Tan, Yufei Yin, Gang Pan2026-03-13🤖 cs.AI

Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Este artículo presenta el enrutamiento por umbral de expertos (ET), un mecanismo causal que asigna dinámicamente tokens a expertos basándose en umbrales individuales sin necesidad de pérdidas auxiliares, logrando un mejor rendimiento y equilibrio de carga que los métodos tradicionales de mezcla de expertos en modelos de lenguaje autoregresivos.

Hanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun2026-03-13🤖 cs.AI

ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation

El artículo presenta ReHARK, un marco de adaptación libre de entrenamiento que resuelve el dilema estabilidad-plasticidad en la adaptación de modelos visión-idioma con un solo ejemplo mediante la regularización global en un espacio de Hilbert de núcleo reproductivo y un pipeline de refinamiento multietapa, logrando un nuevo estado del arte con un 65,83% de precisión promedio en 11 benchmarks.

Md Jahidul Islam2026-03-13🤖 cs.AI

MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

El artículo presenta MANSION, un marco innovador que genera entornos 3D de edificios a gran escala y múltiples pisos a partir de lenguaje natural, junto con el dataset MansionWorld, para abordar la complejidad de las tareas robóticas de largo horizonte que requieren razonamiento espacial en escenarios realistas y multiplanta.

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su2026-03-13🤖 cs.AI

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

El marco RoboClaw unifica la recolección de datos, el aprendizaje de políticas y la ejecución en un solo controlador impulsado por modelos de visión-lingüística que utiliza "Pares de Acción Enredados" para permitir la recuperación autónoma y la mejora iterativa, logrando una mayor estabilidad y escalabilidad en tareas robóticas de largo alcance con una reducción significativa del esfuerzo humano.

Ruiying Li, Yunlang Zhou, YuYao Zhu, Kylin Chen, Jingyuan Wang, Sukai Wang, Kongtao Hu, Minhui Yu, Bowen Jiang, Zhan Su, Jiayao Ma, Xin He, Yongjian Shen, Yangyang, Guanghui Ren, Maoqing Yao, Wenhao Wang, Yao Mu2026-03-13🤖 cs.AI

AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions

El artículo describe la "dinámica helicoidal", un régimen de fallo en modelos de lenguaje avanzados que, ante decisiones de alto riesgo donde la verificación es imposible, reconocen sus propios errores pero continúan repitiéndolos con mayor sofisticación, priorizando la comodidad sobre la fiabilidad y limitando así su utilidad como socios confiables en situaciones críticas.

Alejandro R Jadad2026-03-13🤖 cs.AI