cs artículos | Gist.Science

Learning to Think Fast and Slow for Visual Language Models

El artículo presenta DualMindVLM, un modelo de lenguaje visual que implementa un mecanismo de pensamiento dual (rápido y lento) adaptando el entrenamiento GRPO para asignar dinámicamente la longitud de la respuesta según la complejidad de la tarea, logrando así un rendimiento de razonamiento superior con una mayor eficiencia en el uso de tokens.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Este artículo presenta el Operador Neuronal Estructurado Radiativo (RSNO), un método de aprendizaje profundo que reconstruye imágenes hiperespectrales continuas a partir de observaciones multiespectrales mediante un mapeo continuo basado en principios físicos y proyecciones de consistencia angular para garantizar la coherencia espectral y eliminar distorsiones de color.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

El artículo presenta UnfoldLDM, un marco de red de despliegue profundo que integra un modelo de difusión latente para superar las limitaciones de dependencia del modelo de degradación y el sesgo de sobre-suavizado en la restauración ciega de imágenes, logrando resultados de vanguardia mediante módulos de estimación de degradación y corrección de texturas.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Privacy Concerns and ChatGPT: Exploring Online Discourse through the Lens of Information Practice on Reddit

Este estudio analiza cómo los usuarios de Reddit negocian colectivamente las preocupaciones sobre la privacidad de ChatGPT mediante prácticas de información como la señalización de riesgos, el establecimiento de normas y la búsqueda de alternativas, revelando un proceso de construcción de sentido colectivo que ofrece insights para el diseño de IA y la alfabetización en privacidad.

S M Mehedi Zaman, Saubhagya Joshi, Yiyi Wu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Este trabajo presenta un sistema de seguimiento GNSS estable y en tiempo real para robots marinos, que utiliza una flota de drones con detección visual, alineación de IDs cooperativa y un filtro de Kalman extendido ponderado por confianza para superar la pérdida de señal bajo el agua.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

El artículo presenta Yo'City, un marco agéntico innovador que utiliza modelos grandes y una estrategia de planificación jerárquica para generar ciudades 3D realistas, personalizadas y de escala infinita, superando a los métodos existentes mediante un ciclo de síntesis iterativo y un mecanismo de expansión guiado por relaciones espaciales y semánticas.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

El sistema DOPD mejora el rendimiento de la inferencia de modelos de lenguaje grandes (LLM) mediante una arquitectura dinámica que ajusta en tiempo real la proporción entre instancias de prellenado y decodificación para equilibrar la carga, logrando un aumento de hasta 1,5 veces en el buen rendimiento y reducciones significativas en los tiempos de respuesta en comparación con enfoques existentes.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

Sublinear Edge Fault Tolerant Spanners for Hypergraphs

Este trabajo inicia el estudio de los spanners tolerantes a fallos en hipergrafos, proponiendo un algoritmo basado en clustering que construye spanners de tamaño sublineal en el número de fallos y estableciendo un límite inferior que deja una brecha polinómica para futuras investigaciones.

Jialin He, Nicholas Popescu, Chunjiang Zhu2026-03-10💻 cs

An LLM-Assisted Multi-Agent Control Framework for Roll-to-Roll Manufacturing Systems

Este artículo presenta un marco de control multiagente asistido por modelos de lenguaje que automatiza el diseño y la adaptación de sistemas de fabricación en rollo a rollo, reduciendo el esfuerzo de ajuste manual y garantizando la seguridad mediante la identificación del sistema, la sintonización automática y la verificación de seguridad en la adaptación de simulación a realidad.

Jiachen Li, Shihao Li, Christopher Martin, Zijun Chen, Dongmei Chen, Wei Li2026-03-10💻 cs

RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding

El artículo presenta RadDiff, un nuevo método de plegamiento inverso de proteínas que combina un mecanismo de recuperación de conocimiento actualizado con un modelo de difusión denoising para superar las limitaciones de los enfoques existentes y lograr una tasa de recuperación de secuencias superior.

Jin Han, Tianfan Fu, Wu-Jun Li2026-03-10💻 cs

Integrating a Causal Foundation Model into a Prescriptive Maintenance Framework for Optimising Production-Line OEE

Este artículo propone un marco de mantenimiento prescriptivo que integra un modelo fundacional causal para simular intervenciones y optimizar la Eficacia Global del Equipo (OEE) mediante la identificación de causas raíz y la recomendación de acciones correctivas específicas.

Felix Saretzky, Lucas Andersen, Thomas Engel, Fazel Ansari2026-03-10💻 cs

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

El artículo presenta S2AM3D, un método innovador que combina priores de segmentación 2D con supervisión 3D consistente y un nuevo dataset masivo para lograr una segmentación de partes en nubes de puntos 3D que es robusta, generalizable y capaz de ajustar su granularidad en tiempo real.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

Confidential, Attestable, and Efficient Inter-CVM Communication with Arm CCA

Este artículo presenta CAEC, un sistema basado en la arquitectura de computación confidencial de Arm (CCA) que habilita el intercambio seguro y eficiente de memoria entre máquinas virtuales confidenciales sin intervención del hipervisor, logrando mejoras de rendimiento significativas y garantizando el aislamiento y la atestación de los datos compartidos.

Sina Abdollahi, Amir Al Sadi, Marios Kogias, David Kotz, Hamed Haddadi2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

El artículo presenta HiconAgent, un agente de interfaz gráfica que utiliza la Optimización de Políticas Consciente del Contexto Histórico (HCPO) para mejorar la eficiencia y precisión en tareas de navegación secuencial mediante el muestreo dinámico de contextos y una compresión de historial guiada por anclajes, logrando un rendimiento superior al de modelos más grandes con una reducción significativa en costos computacionales.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

El paper presenta MAViD, un marco multimodal innovador que utiliza una arquitectura Conductor-Creador con modelos autoregresivos y de difusión para superar las limitaciones de los sistemas existentes y generar diálogos interactivos de larga duración, coherentes y sincronizados en audio y video.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artículo identifica el fenómeno de "horizonte de información" en los Modelos de Lenguaje Grandes Visuales, donde los tokens visuales pierden su relevancia en capas profundas, demostrando que la poda aleatoria en estas etapas es tan efectiva como los métodos existentes y permite lograr un equilibrio óptimo entre eficiencia y rendimiento.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

IPPO Learns the Game, Not the Team: A Study on Generalization in Heterogeneous Agent Teams

Este estudio demuestra que, en entornos de agentes heterogéneos, la estrategia estándar de IPPO logra una generalización ante nuevos compañeros de equipo comparable a la obtenida mediante un entrenamiento con diversidad de políticas, sugiriendo que los agentes aprenden más las dinámicas subyacentes del juego que los comportamientos específicos de sus compañeros.

Ryan LeRoy, Jack Kolb2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Este trabajo aborda los desafíos de la extracción de redes viales en entornos no urbanos mediante el lanzamiento del conjunto de datos global WildRoad y la propuesta de MaGRoad, un marco de razonamiento centrado en el camino que supera las limitaciones de los métodos existentes al lograr un rendimiento superior y una inferencia más rápida.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

El artículo presenta ReMeDI-SAM3, una extensión sin entrenamiento de SAM3 que mejora la segmentación de instrumentos quirúrgicos mediante filtrado de memoria, interpolación y reidentificación para superar los desafíos de oclusión y movimiento, logrando mejoras significativas en métricas de precisión en comparación con enfoques anteriores.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Este estudio demuestra que, aunque la percepción subjetiva de la vegetación urbana no siempre coincide con las mediciones objetivas, las diferencias se explican principalmente por el lugar de residencia de las personas y no por su demografía o personalidad, lo que sugiere que factores culturales y experienciales moldean significativamente cómo se observa el verde en las ciudades.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

← Anterior Siguiente →