cs artículos | Gist.Science

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

El artículo presenta InstantSfM, un sistema global de Fotogrametría desde el Movimiento (SfM) totalmente nativo de GPU y compatible con PyTorch que integra profundidades métricas como priores para resolver la ambigüedad de escala, logrando una aceleración de hasta 40 veces frente a COLMAP en escenas a gran escala sin sacrificar la precisión de reconstrucción.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

UltraGen: Efficient Ultra-High-Resolution Image Generation with Hierarchical Local Attention

UltraGen es un marco novedoso que permite la generación eficiente y escalable de imágenes ultra de alta resolución (superiores a 8K) mediante una atención local jerárquica con guía global de baja resolución, logrando una reducción de la complejidad computacional a casi lineal, un uso de memoria significativamente menor y una aceleración de más de 10 veces en comparación con los modelos de difusión actuales.

Yuyao Zhang, Yu-Wing Tai2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

El paper presenta REALM, un marco innovador basado en agentes MLLM que realiza segmentación y edición 3D en entornos abiertos sobre representaciones de Gaussian Splatting mediante una estrategia de anclaje espacial de global a local para interpretar instrucciones complejas sin necesidad de un entrenamiento específico extenso.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Opinion Maximization in Social Networks by Modifying Internal Opinions

Este artículo aborda la maximización de la opinión pública en redes sociales mediante la modificación estratégica de las opiniones internas de nodos clave, proponiendo algoritmos eficientes basados en muestreo y un método determinista asíncrono que supera a las técnicas tradicionales en velocidad y precisión, incluso en redes de gran escala.

Gengyu Wang, Runze Zhang, Zhongzhi Zhang2026-03-12💻 cs

Importance of Overlapping Network Nodes in Influence Spreading

Este estudio demuestra que los nodos superpuestos en estructuras de círculos dentro de redes complejas ejercen una influencia significativamente mayor que los nodos no superpuestos durante procesos de contagio simple y complejo, destacando su importancia estratégica en la dinámica de difusión.

Kosti Koistinen, Vesa Kuikka, Kimmo Kaski2026-03-12💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

El artículo presenta Compiler.next, un compilador basado en búsqueda diseñado para la era de la Ingeniería de Software 3.0 que transforma intenciones humanas en software funcional mediante la optimización dinámica de arquitecturas cognitivas y modelos de IA, democratizando así el desarrollo de software y permitiendo sistemas automatizados, escalables y adaptativos.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. Hassan2026-03-12💻 cs

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

El artículo presenta ADC-SID, un marco que mejora la generación de identificadores semánticos robustos en sistemas de recomendación mediante la descomposición adaptativa del ruido colaborativo y la ponderación dinámica de los identificadores conductuales para mitigar los sesgos de la cola larga.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang2026-03-12💻 cs

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

El artículo presenta EyeAgent, el primer marco de IA agéntica para el soporte de decisiones clínicas en oftalmología, que integra un modelo de lenguaje grande con 53 herramientas validadas para ofrecer diagnósticos interpretables y precisos, mejorando significativamente el rendimiento tanto de los sistemas automatizados como de los oftalmólogos, especialmente los menos experimentados.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs

Evaluation of Audio Compression Codecs

El artículo evalúa varios códecs de compresión de audio comunes mediante mediciones de rendimiento, visualizaciones y puntuaciones PEAQ para demostrar que, al elegir un códec, los usuarios deben considerar no solo la eficiencia de compresión sino también la calidad perceptual sónica.

Thien T. Duong, Jan P. Springer2026-03-12💻 cs

X-WIN: Building Chest Radiograph World Model via Predictive Sensing

El artículo presenta X-WIN, un modelo de mundo para radiografías de tórax que supera las limitaciones de las imágenes 2D al aprender a predecir proyecciones en un espacio latente distilando conocimiento volumétrico de tomografías computarizadas (CT), lo que permite una representación más rica del anatomía 3D y un rendimiento superior en diversas tareas de diagnóstico médico.

Zefan Yang, Ge Wang, James Hendler, Mannudeep K. Kalra, Pingkun Yan2026-03-12💻 cs

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

El artículo presenta MergeVLA, un modelo agente generalista de visión-lenguaje-acción que supera las limitaciones de fusión de expertos mediante una arquitectura diseñada para la fusión, que utiliza adaptadores LoRA activados de forma dispersa y bloques de atención cruzada para lograr un rendimiento robusto y generalizable en múltiples habilidades y entornos robóticos.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization

El artículo presenta COVec, un marco de vectorización consciente de la iluminación que, inspirado en el principio de claroscuro, introduce por primera vez la descomposición de imágenes intrínsecas en el dominio vectorial para lograr una mayor fidelidad visual y editabilidad en imágenes del mundo real.

Xingyue Lin, Shuai Peng, Xiangyu Xie, Jianhua Zhu, Yuxuan Zhou, Liangcai Gao2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

El artículo presenta AD-R1, un marco de aprendizaje por refuerzo en bucle cerrado que utiliza un Modelo Mundial Imparcial entrenado mediante síntesis contrafactual para predecir con honestidad los peligros y reducir las violaciones de seguridad en la conducción autónoma.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

El artículo presenta TEAR, un marco de red teaming automatizado y consciente del tiempo diseñado para identificar riesgos de seguridad en modelos de texto a video mediante la explotación de dinámicas temporales, logrando una tasa de éxito de ataque superior al 80% en diversos sistemas.

Jiaming He, Guanyu Hou, Hongwei Li, Zhicong Huang, Kangjie Chen, Yi Yu, Wenbo Jiang, Guowen Xu, Tianwei Zhang2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

Este artículo presenta algoritmos aleatorizados que mejoran los tiempos de ejecución existentes para calcular aproximaciones de la máxima clique en grafos de discos, logrando tiempos casi lineales para grafos de discos unitarios y esquemas de aproximación parametrizados para grafos con $t$ radios distintos.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder

Este trabajo presenta AEIC, un marco de compresión de imágenes asimétrico que utiliza un codificador ligero y un decodificador basado en difusión de un solo paso para lograr una alta fidelidad perceptual a tasas de bits ultra-bajas, superando a los métodos existentes en eficiencia de codificación y rendimiento.

Tianyu Zhang, Dong Liu, Chang Wen Chen2026-03-12💻 cs

Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

Este trabajo presenta un sistema de control basado en aprendizaje por refuerzo para un manipulador aéreo subactuado ligero, que logra un control preciso de la pose del efector final en seis grados de libertad y una operación robusta ante perturbaciones externas mediante la combinación de un agente PPO con controladores INDI y PID.

Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

SVBench es el primer benchmark diseñado para evaluar la capacidad de razonamiento social de los modelos de generación de video, demostrando mediante una evaluación a gran escala que, aunque estos sistemas han mejorado en realismo visual, aún carecen de la comprensión psicológica y causal necesaria para generar comportamientos socialmente coherentes.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Este trabajo presenta Cosmos-H-Surgical, un modelo de mundo que aprovecha videos quirúrgicos no etiquetados y un modelo de dinámica inversa para generar datos sintéticos de acción-observación, permitiendo entrenar políticas de robots quirúrgicos que superan a las basadas únicamente en demostraciones reales.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

El artículo presenta AFTER, un método que mitiga las alucinaciones de objetos en los modelos de lenguaje y visión grandes mediante la edición adaptativa de activaciones guiada por hechos, combinando la dirección de activación aumentada con hechos y la optimización de desplazamiento adaptativa a la consulta para corregir los sesgos lingüísticos y mejorar la precisión factual.

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

← Anterior Siguiente →