cs artículos | Gist.Science

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

El paper presenta SAGE, un enfoque zero-shot que genera transiciones de video coherentes y estructuradas entre clips diversos combinando guías estructurales con síntesis generativa, superando a los métodos existentes sin necesidad de datos de entrenamiento específicos.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

El estudio presenta MobiDock, un sistema móvil bimanual modular que permite a dos robots conectarse físicamente mediante un mecanismo de tornillo y visión por computadora para formar una plataforma unificada, logrando así una mayor estabilidad dinámica, precisión y eficiencia operativa en comparación con la cooperación independiente.

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs

Vectorized Online POMDP Planning

Este artículo presenta VOPP, un planificador en línea de POMDP vectorizado que aprovecha la paralelización masiva mediante computaciones totalmente vectorizadas para eliminar cuellos de botella de sincronización, logrando una eficiencia de cálculo 20 veces superior a los solvers paralelos existentes y superando a los solvers secuenciales con un presupuesto de planificación 1000 veces menor.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Este artículo presenta un método forense llamado "reconstrucción de retroceso de difusión" que detecta imágenes generadas por IA analizando cómo estas responden a perturbaciones y reconstrucciones mediante modelos de difusión, logrando una alta precisión (AUROC de 0.993) y robustez frente a distorsiones comunes.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

PhantomFetch: Obfuscating Loads against Prefetcher Side-Channel Attacks

El artículo presenta PhantomFetch, la primera defensa agnóstica al hardware que protege contra ataques de canal lateral mediante el prefetcher IP-stride sin sacrificar su rendimiento ni requerir modificaciones de hardware.

Xingzhi Zhang, Buyi Lv, Yimin Lu, Kai Bu2026-03-10💻 cs

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Este trabajo presenta MUGSQA, un nuevo método de evaluación de calidad, un conjunto de datos y dos puntos de referencia diseñados para abordar los desafíos en la evaluación perceptual de la reconstrucción 3D mediante Gaussian Splatting, considerando múltiples incertidumbres en los datos de entrada.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

El artículo presenta CountOCC, un marco de trabajo para el conteo amodal en entornos abiertos que supera las limitaciones de los métodos actuales al reconstruir las características de objetos oclidos mediante guía multimodal jerárquica y un objetivo de equivalencia visual, logrando así un rendimiento superior en conjuntos de datos de evaluación ocultos.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

El artículo presenta LAMP, un marco de aprendizaje por refuerzo multiagente que integra el razonamiento lingüístico en un flujo de trabajo de "pensar, hablar y decidir" para superar las limitaciones de los modelos actuales y lograr estrategias económicas más rentables, robustas e interpretables en entornos de simulación.

Heyang Ma, Qirui Mi, Qipeng Yang, Zijun Fan, Bo Li, Haifeng Zhang2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

El artículo presenta Video2Layout, un marco que reconstruye mapas cognitivos espaciales basados en métricas continuas a partir de videos para superar las limitaciones de los mapas de cuadrícula y mejorar el razonamiento espacial en modelos de lenguaje multimodal.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Este artículo presenta MOMNet, un marco de trabajo novedoso libre de alineación que utiliza un mecanismo de coincidencia de múltiples órdenes y una agregación adaptativa para lograr una super-resolución de profundidad robusta y de alta calidad en escenarios del mundo real donde las imágenes RGB y de profundidad no están estrictamente alineadas.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

El artículo presenta DualMindVLM, un modelo de lenguaje visual que implementa un mecanismo de pensamiento dual (rápido y lento) adaptando el entrenamiento GRPO para asignar dinámicamente la longitud de la respuesta según la complejidad de la tarea, logrando así un rendimiento de razonamiento superior con una mayor eficiencia en el uso de tokens.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Este artículo presenta el Operador Neuronal Estructurado Radiativo (RSNO), un método de aprendizaje profundo que reconstruye imágenes hiperespectrales continuas a partir de observaciones multiespectrales mediante un mapeo continuo basado en principios físicos y proyecciones de consistencia angular para garantizar la coherencia espectral y eliminar distorsiones de color.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

El artículo presenta UnfoldLDM, un marco de red de despliegue profundo que integra un modelo de difusión latente para superar las limitaciones de dependencia del modelo de degradación y el sesgo de sobre-suavizado en la restauración ciega de imágenes, logrando resultados de vanguardia mediante módulos de estimación de degradación y corrección de texturas.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Privacy Concerns and ChatGPT: Exploring Online Discourse through the Lens of Information Practice on Reddit

Este estudio analiza cómo los usuarios de Reddit negocian colectivamente las preocupaciones sobre la privacidad de ChatGPT mediante prácticas de información como la señalización de riesgos, el establecimiento de normas y la búsqueda de alternativas, revelando un proceso de construcción de sentido colectivo que ofrece insights para el diseño de IA y la alfabetización en privacidad.

S M Mehedi Zaman, Saubhagya Joshi, Yiyi Wu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Este trabajo presenta un sistema de seguimiento GNSS estable y en tiempo real para robots marinos, que utiliza una flota de drones con detección visual, alineación de IDs cooperativa y un filtro de Kalman extendido ponderado por confianza para superar la pérdida de señal bajo el agua.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

El artículo presenta Yo'City, un marco agéntico innovador que utiliza modelos grandes y una estrategia de planificación jerárquica para generar ciudades 3D realistas, personalizadas y de escala infinita, superando a los métodos existentes mediante un ciclo de síntesis iterativo y un mecanismo de expansión guiado por relaciones espaciales y semánticas.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

El sistema DOPD mejora el rendimiento de la inferencia de modelos de lenguaje grandes (LLM) mediante una arquitectura dinámica que ajusta en tiempo real la proporción entre instancias de prellenado y decodificación para equilibrar la carga, logrando un aumento de hasta 1,5 veces en el buen rendimiento y reducciones significativas en los tiempos de respuesta en comparación con enfoques existentes.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

Sublinear Edge Fault Tolerant Spanners for Hypergraphs

Este trabajo inicia el estudio de los spanners tolerantes a fallos en hipergrafos, proponiendo un algoritmo basado en clustering que construye spanners de tamaño sublineal en el número de fallos y estableciendo un límite inferior que deja una brecha polinómica para futuras investigaciones.

Jialin He, Nicholas Popescu, Chunjiang Zhu2026-03-10💻 cs

An LLM-Assisted Multi-Agent Control Framework for Roll-to-Roll Manufacturing Systems

Este artículo presenta un marco de control multiagente asistido por modelos de lenguaje que automatiza el diseño y la adaptación de sistemas de fabricación en rollo a rollo, reduciendo el esfuerzo de ajuste manual y garantizando la seguridad mediante la identificación del sistema, la sintonización automática y la verificación de seguridad en la adaptación de simulación a realidad.

Jiachen Li, Shihao Li, Christopher Martin, Zijun Chen, Dongmei Chen, Wei Li2026-03-10💻 cs

RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding

El artículo presenta RadDiff, un nuevo método de plegamiento inverso de proteínas que combina un mecanismo de recuperación de conocimiento actualizado con un modelo de difusión denoising para superar las limitaciones de los enfoques existentes y lograr una tasa de recuperación de secuencias superior.

Jin Han, Tianfan Fu, Wu-Jun Li2026-03-10💻 cs

← Anterior Siguiente →