cs artículos | Gist.Science

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Este artículo presenta MORLAX y MO-Playground, un algoritmo de aprendizaje por refuerzo multiobjetivo nativo de GPU y un entorno de simulación acelerado que permiten aproximar conjuntos de Pareto en minutos con una aceleración de 25 a 270 veces respecto a los enfoques tradicionales basados en CPU, facilitando así la resolución de problemas complejos de robótica multiobjetivo como la locomoción de un robot humanoide.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan Tucker2026-03-11💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

El artículo presenta RAE-NWM, un modelo de mundo para navegación que opera en un espacio de representación visual densa basado en características DINOv2 y utiliza un transformador de difusión condicional para mejorar la estabilidad estructural y la precisión de las acciones en comparación con los métodos latentes tradicionales.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Este artículo presenta Geometric Semantic Decoupling (GSD), un módulo sin parámetros que mejora la generalización de los detectores de imágenes generadas por IA al eliminar las dependencias de priores semánticos dominantes y forzar al modelo a centrarse en evidencia forense invariante.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

El artículo presenta Poly-DETR, un transformador de detección de polígonos que reformula la segmentación de instancias mediante regresión de vértices en representación polar para resolver el conflicto entre entradas de alta resolución y la inferencia en tiempo real, logrando mejoras significativas en precisión y eficiencia en comparación con los métodos basados en máscaras.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Este artículo presenta \tool{}, un marco automatizado que explota la capacidad de razonamiento composicional de los Modelos de Lenguaje y Visión Grandes (LVLM) mediante la "Programación Orientada al Razonamiento", una técnica análoga a la Programación Orientada a Retornos (ROP) que encadena "gadgets" semánticos benignos para evadir las alineaciones de seguridad y generar lógica dañina.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

El artículo presenta RF-Mem, un recuperador de memoria dual que imita los procesos cognitivos humanos de familiaridad y recuerdo para personalizar de manera escalable y eficiente los modelos de lenguaje grandes, superando las limitaciones de los métodos de recuperación actuales.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Este artículo presenta "Platooning as a Service" (PlaaS), un marco de soporte a la decisión basado en un juego de Stackelberg que optimiza la contratación de servicios de convoyes para vehículos autónomos conectados, determinando las políticas de precios y distancias óptimas para maximizar beneficios y reducir emisiones, mientras analiza el impacto de subvenciones gubernamentales y variables operativas como la velocidad y la urgencia.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

El artículo presenta DiP, un nuevo marco de aprendizaje de representaciones para grafos multimodales que utiliza nodos pseudo específicos de cada modalidad y rutas de información dinámicas para lograr una propagación de mensajes adaptativa, expresiva y eficiente con complejidad lineal, superando consistentemente a los métodos existentes en diversas tareas y benchmarks.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este trabajo introduce un marco de navegación visión-lenguaje a gran escala derivado de videos web que, mediante representaciones geométricas implícitas para extraer información espacial directamente de imágenes RGB sin reconstrucción 3D, supera las limitaciones de los datos simulados y establece nuevos récords de rendimiento en múltiples benchmarks.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Este estudio analiza cómo la latencia afecta la fluidez de la interacción y la presencia social en conferencias de realidad virtual mediante experimentos subjetivos comparativos con la videollamada tradicional, proporcionando insights para optimizar estos sistemas.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi Lin2026-03-11💻 cs

On the Online Weighted Non-Crossing Matching Problem

Este artículo estudia el problema de emparejamiento no cruzado ponderado en línea en el plano euclidiano, demostrando que aunque los algoritmos deterministas no logran una razón competitiva no trivial, es posible alcanzar una razón constante mediante aleatorización, además de analizar variantes con revocabilidad, puntos colineales y complejidad de asesoramiento.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis Pankratov2026-03-11💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

Este artículo presenta el TPIFM, un modelo consciente de la tarea que evalúa la fluidez de la interacción perceptiva en la colaboración remota de realidad aumentada clasificando las tareas según su diferencia apenas perceptible (JND) para predecir cómo los impedimentos de la red afectan la experiencia del usuario.

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi Lin2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

El artículo presenta ForgeDreamer, un marco innovador para la generación industrial de texto a 3D que supera las limitaciones actuales mediante un mecanismo de ensamblaje LoRA multiexperto para evitar interferencias de conocimiento y una mejora geométrica basada en hipergrafos de vistas cruzadas para garantizar consistencia estructural de nivel de fabricación.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

El artículo presenta *FungiSync*, una experiencia de realidad mixta que traduce la interdependencia de las redes micorrícicas en un ritual participativo donde el contacto físico entre usuarios entrelaza sus percepciones digitales individuales, fomentando una epistemología fúngica que cuestiona el individualismo acelerado de la era posthumana.

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu Lin2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Este trabajo propone nuevas estrategias de entrenamiento y funciones de pérdida que acortan las listas de gaussianas necesarias para el renderizado mediante la reducción de sus escalas y la aplicación de una restricción de entropía, logrando así acelerar significativamente el aprendizaje de los Gaussianos 3D sin sacrificar la calidad visual.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

El artículo presenta SVOR, un marco robusto que logra la eliminación estable de objetos en videos bajo condiciones imperfectas mediante tres diseños clave: MUSE para el manejo de movimientos abruptos, DA-Seg para la localización consciente del desruido y un entrenamiento curricular en dos etapas, superando así los límites de los modelos existentes y alcanzando resultados de vanguardia en escenarios del mundo real.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

Este trabajo presenta el primer modelo de aprendizaje profundo para la descomposición convexa en entornos abiertos, que aprende campos de características continuas mediante un objetivo auto-supervisado basado en la geometría para generar descomposiciones de alta calidad en una amplia variedad de representaciones 3D.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

El artículo presenta CogBlender, un marco que permite la intervención continua y multidimensional de propiedades cognitivas (como valencia, excitación, dominio y memorabilidad) en la generación de imágenes a partir de texto, logrando alinear el contenido visual con la intención psicológica mediante la interpolación de campos de velocidad en un espacio cognitivo.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

El artículo presenta MDTrack, un marco novedoso para el seguimiento de objetos multimodal que supera las limitaciones de las estrategias de fusión uniformes mediante una fusión adaptativa basada en expertos y una propagación temporal desacoplada utilizando modelos de espacio de estado, logrando así un rendimiento superior en cinco benchmarks.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

El artículo presenta ToolRosetta, un marco unificado que automatiza la conversión de repositorios de código de código abierto en herramientas estandarizadas compatibles con el Protocolo de Contexto de Modelo (MCP), permitiendo a los agentes de modelos de lenguaje grandes ejecutar tareas complejas de extremo a extremo con mínima intervención humana y garantizando la seguridad.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

← Anterior Siguiente →