cs artículos | Gist.Science

A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition

Este trabajo propone un modelo de dos etapas y doble modalidad (audiovisual) basado en DINOv2 y Wav2Vec 2.0, que supera las líneas base oficiales en el reconocimiento de expresiones faciales del taller ABAW 10 mediante la extracción robusta de características visuales, la fusión de pistas acústicas y la suavización temporal.

Jiajun Sun, Zhe Gao2026-03-13💻 cs

Language Model Teams as Distributed Systems

Este artículo propone utilizar los principios de los sistemas distribuidos como un marco fundamental para diseñar y evaluar equipos de modelos de lenguaje grandes, abordando así desafíos clave como la estructura, el tamaño y la eficacia de dichos equipos de manera más rigurosa que el ensayo y error.

Elizabeth Mieczkowski, Katherine M. Collins, Ilia Sucholutsky + 2 more2026-03-13💻 cs

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

El artículo presenta SceneAssistant, un agente impulsado por retroalimentación visual que utiliza modelos de lenguaje visión-lenguaje y operaciones atómicas para generar y editar escenas 3D de alta calidad y vocabulario abierto a partir de instrucciones de texto natural.

Jun Luo, Jiaxiang Tang, Ruijie Lu + 1 more2026-03-13💻 cs

HandelBot: Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies

El artículo presenta HandelBot, un marco que combina una política entrenada en simulación con una adaptación rápida mediante dos etapas (refinamiento estructurado y aprendizaje por refuerzo residual), permitiendo a un robot dextro tocar el piano con precisión bimanual en solo 30 minutos de datos físicos y superando a la implementación directa en simulación en un factor de 1.8x.

Amber Xie, Haozhi Qi, Dorsa Sadigh2026-03-13💻 cs

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

El artículo presenta ELIT, un mecanismo compatible con los transformadores de difusión (DiT) que introduce una interfaz latente elástica para desacoplar el tamaño de la imagen de la carga computacional, permitiendo ajustar dinámicamente la calidad y la latencia mediante un número variable de tokens latentes sin modificar la arquitectura base ni la función de objetivo.

Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov + 6 more2026-03-13💻 cs

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

El artículo presenta FIRM, un marco integral que desarrolla modelos de recompensa robustos y estrategias de aprendizaje por refuerzo para mitigar las alucinaciones y mejorar la fidelidad y el seguimiento de instrucciones en la generación y edición de imágenes.

Xiangyu Zhao, Peiyuan Zhang, Junming Lin + 7 more2026-03-13💻 cs

DVD: Deterministic Video Depth Estimation with Generative Priors

DVD es un marco innovador que adapta determinísticamente modelos de difusión de video preentrenados para lograr estimación de profundidad de alta precisión en un solo paso, superando las limitaciones de los enfoques existentes mediante un diseño que equilibra estabilidad global y detalles finos, y que alcanza un rendimiento superior sin supervisión utilizando 163 veces menos datos específicos de la tarea.

Hongfei Zhang, Harold Haodong Chen, Chenfei Liao + 12 more2026-03-13💻 cs

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

El artículo presenta AutoGaze, un módulo ligero que elimina redundancias espaciotemporales en videos mediante la selección autoregresiva de parches críticos, logrando una reducción significativa de tokens visuales y acelerando el procesamiento de modelos de lenguaje multimodal para videos largos y de alta resolución, todo ello respaldado por el nuevo benchmark HLVid.

Baifeng Shi, Stephanie Fu, Long Lian + 10 more2026-03-13💻 cs

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

El artículo presenta DreamVideo-Omni, un marco unificado que utiliza un entrenamiento progresivo en dos etapas, combinando inyección jerárquica de movimiento y aprendizaje por refuerzo de identidad latente, para lograr una personalización de video de múltiples sujetos con control preciso sobre la identidad y el movimiento en todas sus escalas.

Yujie Wei, Xinyu Liu, Shiwei Zhang + 12 more2026-03-13💻 cs

HumDex:Humanoid Dexterous Manipulation Made Easy

El artículo presenta HumDex, un sistema de teleoperación portátil y de código abierto que supera las limitaciones de los métodos existentes mediante seguimiento IMU y un marco de aprendizaje por imitación de dos etapas, facilitando la recolección eficiente de datos y la ejecución precisa de tareas de manipulación hábil en humanoides.

Liang Heng, Yihe Tang, Jiajun Xu + 3 more2026-03-13💻 cs

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

El artículo presenta Video Streaming Thinking (VST), un nuevo paradigma para modelos de lenguaje de video en línea que permite el razonamiento simultáneo a la visualización mediante un pipeline de entrenamiento post-adaptado y datos sintetizados, logrando una comprensión coherente en tiempo real con una latencia significativamente reducida y un alto rendimiento en benchmarks de streaming y offline.

Yiran Guan, Liang Yin, Dingkang Liang + 5 more2026-03-13💻 cs

$Ψ_0$ : An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

El modelo de fundación abierto $\Psi_0$ logra un rendimiento superior en tareas de locomanipulación de humanoides mediante un paradigma de entrenamiento en dos etapas que decopla el aprendizaje, pre-entrenando en videos humanos egocéntricos de alta calidad y ajustando posteriormente con datos reales de robots, superando así a enfoques anteriores que utilizan volúmenes de datos mucho mayores.

Songlin Wei, Hongyi Jing, Boqian Li + 12 more2026-03-13💻 cs

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Este trabajo presenta GRADE, el primer benchmark que evalúa el razonamiento basado en disciplinas académicas en la edición de imágenes mediante un conjunto de datos diverso y un protocolo de evaluación multidimensional, revelando limitaciones significativas en los modelos multimodales actuales y estableciendo nuevas direcciones para su desarrollo.

Mingxin Liu, Ziqian Fan, Zhaokai Wang + 13 more2026-03-13💻 cs

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

El artículo presenta OmniStream, un modelo unificado de visión en streaming que integra percepción, reconstrucción y acción mediante atención espaciotemporal causal y alineación multitasca, demostrando una generalización superior en razonamiento semántico, espacial y temporal para agentes interactivos y encarnados.

Yibin Yan, Jilan Xu, Shangzhe Di + 2 more2026-03-13💻 cs

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Este artículo presenta MM-CondChain, un nuevo benchmark y una tubería de síntesis programáticamente verificable diseñados para evaluar el razonamiento composicional profundo y visualmente fundamentado en modelos de lenguaje multimodal, revelando que incluso los modelos más avanzados enfrentan dificultades significativas en tareas que requieren cadenas de condiciones complejas y ramificadas.

Haozhan Shen, Shilin Yan, Hongwei Xue + 5 more2026-03-13💻 cs

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

EVATok es un marco de tokenización de video adaptativo que asigna dinámicamente la longitud de los tokens según la complejidad de cada segmento, logrando una generación autoregresiva más eficiente y de mayor calidad con una reducción significativa en el uso de tokens en comparación con los métodos existentes.

Tianwei Xiong, Jun Hao Liew, Zilong Huang + 3 more2026-03-13💻 cs

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Este artículo demuestra que, en un modelo de toma de decisiones binarias por votación donde cada voto tiene el mismo peso, el aprendizaje social es inútil y la estrategia óptima para maximizar el rendimiento del equipo consiste en ignorar las decisiones previas y mantener los votos secretos.

Joong Bum Rhim, Vivek K. Goyal2026-03-12💻 cs

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

El artículo demuestra que, en procesos de aprendizaje social secuencial, es óptimo que los agentes bayesianos utilicen creencias iniciales inexactas y sistemáticamente sesgadas hacia la hipótesis menos probable para maximizar la precisión del último agente, priorizando así la informatividad de sus decisiones sobre la corrección inmediata de las mismas.

Joong Bum Rhim, Vivek K Goyal2026-03-12💻 cs

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Este artículo presenta un marco de optimización basado en trellis para la asignación adaptativa de ensayos en la estimación de parámetros de procesos Bernoulli, demostrando mediante simulaciones de imágenes activas que dicho enfoque reduce significativamente el error cuadrático medio en comparación con los métodos tradicionales.

Safa C. Medin, John Murray-Bruce, David Castañón + 1 more2026-03-12💻 cs

In Pursuit of Many: A Review of Modern Multiple Object Tracking Systems

Esta revisión sintetiza los avances recientes en el seguimiento de múltiples objetos (MOT), abarcando su evolución histórica, las principales arquitecturas modernas como los transformadores y modelos fundacionales, las tendencias en benchmarks y métricas, así como los desafíos prácticos y direcciones futuras para su implementación en el mundo real.

Mk Bashar, Samia Islam, Kashifa Kawaakib Hussain, Md. Bakhtiar Hasan, A. B. M. Ashikur Rahman, Md. Hasanul Kabir2026-03-12💻 cs

← Anterior Siguiente →

cs