cs artículos | Gist.Science

World2Act: Latent Action Post-Training via Skill-Compositional World Models

El artículo presenta World2Act, un marco de entrenamiento posterior que alinea las acciones de los modelos de visión-lenguaje-acción directamente con los latentes de dinámica de video de modelos del mundo mediante un objetivo de contraste, superando las limitaciones de los métodos basados en píxeles y mejorando la generalización mediante la descomposición automática de habilidades para modelos de mundo composicionales.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

Reconstructing Bounded Treelength Graphs with Linearithmic Shortest Path Distance Queries

El artículo presenta un algoritmo determinista que reconstruye grafos conexos con grado acotado y longitud arbórea acotada utilizando $O(n \log n)$ consultas de distancia, mejorando el estado del arte en un factor logarítmico y igualando la cota inferior conocida para grafos de acotada cordalidad.

Chirag Kaudan (Oregon State University), Amir Nayyeri (Oregon State University)2026-03-12💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

El artículo presenta COHORT, un marco de inferencia colaborativa de redes neuronales profundas para sistemas multi-robot que utiliza una estrategia híbrida de aprendizaje por refuerzo (offline y online) para optimizar dinámicamente la distribución de tareas, logrando una reducción del 15,4% en el consumo de batería y un aumento del 51,67% en la utilización de la GPU mientras cumple con las restricciones de tiempo real.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya Roy2026-03-12💻 cs

A Secure Splitting and Acceleration Strategy for TCP/QUIC in Interplanetary Networks

Este artículo propone PEPspace, una estrategia de transporte segura y acelerada para redes interplanetarias basada en la arquitectura de Proxy Seguro No Transparente (NTSP), que combina control de congestión basado en tasa, corrección de errores adaptativa y control de flujo por retroalimentación para superar los desafíos de latencia y pérdida en enlaces espaciales, logrando un rendimiento superior al de TCP y QUIC en escenarios Tierra-Luna.

Jianhao Yu, Ye Li, Qingfang Jiang, Shuai Liu, Wenfeng Li, Kanglian Zhao2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

El artículo presenta AsyncMDE, un sistema de estimación de profundidad monocular en tiempo real que utiliza un modelo fundacional asíncrono y un modelo ligero para reducir drásticamente el costo computacional y permitir su despliegue en dispositivos de borde sin sacrificar significativamente la precisión.

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

El artículo presenta KnowDiffuser, un marco de planificación de movimiento que integra el razonamiento semántico de los modelos de lenguaje con la capacidad generativa de los modelos de difusión para superar las limitaciones de cada uno y generar trayectorias continuas, físicamente viables y semánticamente alineadas en la conducción autónoma.

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo2026-03-12💻 cs

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

El paper presenta SignSparK, un marco de producción de lenguaje de señas multilingüe a gran escala que utiliza aprendizaje de fotogramas clave dispersos y un modelo de segmentación temporal eficiente (FAST) para generar secuencias de señas 3D fluidas y precisas, superando las limitaciones actuales mediante un enfoque de coincidencia de flujo condicional que permite edición espaciotemporal y renderizado fotorrealista.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

El artículo presenta DiT4DiT, un modelo de acción y video que acopla transformadores de difusión para extraer características de generación de video como condiciones temporales para el control robótico, logrando un rendimiento superior y una mayor eficiencia en el aprendizaje en comparación con los enfoques actuales.

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Machinagogy: Experiments in Staging Teaching Dramas with LLMs

Este artículo presenta "Machinagogy", un sistema de tutoría con IA fundamentado en la teoría psico-social que combina prompts de reconocimiento hegeliano y una arquitectura de agentes freudiana, validado mediante una metodología reflexiva de "investigación por atmósfera" que demuestra mejoras significativas en el rendimiento del tutor.

Liam Magee2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

El artículo presenta LCAMV, un método robusto de reconstrucción 3D que corrige la aberración cromática lateral y fusiona datos de fase multicanal mediante estimación de mínima varianza, logrando una precisión superior en objetos coloreados sin requerir hardware adicional ni múltiples exposiciones.

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

SUBTA: A Framework for Supported User-Guided Bimanual Teleoperation in Structured Assembly

El artículo presenta SUBTA, un marco de teleoperación bimanual asistida que combina estimación de intenciones, planificación de tareas y ayudas de movimiento contextuales para mejorar significativamente la precisión y reducir la carga mental en tareas de ensamblaje estructurado.

Xiao Liu, Prakash Baskaran, Songpo Li, Simon Manschitz, Wei Ma, Dirk Ruiken, Soshi Iba2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Este artículo presenta WanderBench, el primer benchmark global de geolocalización basado en escenarios navegables, y GeoAoT, un marco que mejora la capacidad de localización de los modelos multimodales grandes mediante la generación de planes de acción interactivos en lugar de cadenas de razonamiento puramente textuales.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

MoXaRt es un sistema de Realidad Extendida en tiempo real que utiliza una arquitectura en cascada con guías audiovisuales para separar fuentes sonoras concurrentes, mejorando significativamente la inteligibilidad del habla y reduciendo la carga cognitiva en entornos acústicos complejos.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

DepthCache es un marco de fusión de tokens visuales sin entrenamiento que utiliza la profundidad como prior estructural para reducir la latencia de inferencia en modelos Visión-Lenguaje-Acción, logrando una aceleración de hasta 1.28x en el benchmark LIBERO con menos del 1% de degradación en la tasa de éxito al preservar la información espacial crítica para el control robótico.

Yuquan Li, Lianjie Ma, Han Ding, Lijun Zhu2026-03-12💻 cs

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

El artículo presenta CIPHER, un método sin entrenamiento que suprime las alucinaciones visuales en modelos de lenguaje-vision grandes (LVLM) proyectando sus estados ocultos fuera de un subespacio de baja dimensión identificado mediante perturbaciones de imágenes contrafactuales generadas por difusión.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

From Verification to Herding: Exploiting Software's Sparsity of Influence

Este artículo propone un cambio de paradigma en la verificación de software hacia un enfoque de "pastoreo" basado en la "escasez de influencia", introduciendo el algoritmo EZR que logra el 90% de los resultados óptimos con solo 32 muestras al identificar variables críticas sin necesidad de modelos complejos.

Tim Menzies, Kishan Kumar Ganguly2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

El artículo presenta StructDamage, un nuevo conjunto de datos unificado y a gran escala que agrupa y reetiqueta más de 78.000 imágenes de nueve tipos de superficies para entrenar y evaluar modelos de aprendizaje profundo capaces de detectar y clasificar grietas y defectos estructurales con alta precisión y generalización.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Este artículo presenta un método de aprendizaje auto-supervisado espacial basado en autoencodificadores para la selección de picos en imágenes de espectrometría de masas, junto con una nueva evaluación basada en máscaras de segmentación experta, demostrando un rendimiento superior a los métodos actuales en la identificación de picos con estructura espacial en diversos conjuntos de datos.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

El artículo presenta IMTBench, un nuevo benchmark de 2.500 muestras que evalúa la traducción automática de texto en imágenes (IIMT) en múltiples escenarios y idiomas mediante métricas de calidad de traducción, preservación del fondo y alineación cruzada entre el texto generado y la imagen renderizada, revelando importantes brechas de rendimiento en los sistemas actuales.

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Efficiency vs Demand in AI Electricity: Implications for Post-AGI Scaling

Este estudio integra el sector de la computación de IA en el modelo GCAM para demostrar que el crecimiento futuro de la demanda eléctrica en EE. UU. no es lineal, sino que depende críticamente de la trayectoria de la eficiencia energética y del crecimiento de los ingresos, lo que sugiere que las políticas basadas únicamente en precios tienen un impacto limitado frente a la dinámica de la demanda impulsada por la renta.

Doyi Kim, Jiseok Ahn, Haewon McJeon, Changick Kim2026-03-12💻 cs

← Anterior Siguiente →