cs.CV artículos | Gist.Science

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Este estudio demuestra que la utilidad de la mezcla global de tokens en la restauración de imágenes por resonancia magnética depende de la tarea específica, ya que los modelos basados en CNN con puertas locales resultan competitivos en reconstrucción y superresolución donde la física impone restricciones globales, mientras que los modelos de mezcla global son superiores en tareas de eliminación de ruido heterocedástico que requieren estimar la fiabilidad espacial variable.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Este artículo presenta el Adaptador de Forense de Deepfake (DFA), un marco de red de doble flujo que combina modelos fundacionales visión-idioma con análisis forense específico para lograr una detección de deepfakes generalizable y de vanguardia sin modificar los parámetros del modelo CLIP preentrenado.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

El artículo presenta VidDoS, el primer marco universal de ataque de denegación de servicio energético-latencia diseñado específicamente para modelos de lenguaje grandes basados en video, el cual utiliza desencadenantes agnósticos a la instancia para inflar drásticamente la latencia de inferencia y provocar violaciones de seguridad críticas en aplicaciones como la conducción autónoma.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

El artículo presenta MM-Mem, una arquitectura de memoria multimodal piramidal inspirada en la teoría de la huella difusa que utiliza un cuello de botella de información semántica para distilar eficientemente recuerdos detallados en esquemas abstractos, mejorando así la comprensión de videos de larga duración mediante una recuperación jerárquica y dinámica.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

El artículo presenta UltraStar, un nuevo enfoque que mejora la navegación automatizada en ecocardiografía mediante un modelo de grafo estelar semánticamente consciente que reformula la tarea como una localización global basada en anclajes espaciales, superando así las limitaciones de los métodos existentes al manejar trayectorias históricas ruidosas y largas.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

El artículo presenta WildCross, un nuevo benchmark de gran escala que aborda la brecha en la percepción robótica para entornos naturales no estructurados mediante un conjunto de datos multimodal con más de 476.000 frames RGB, anotaciones de profundidad métrica y normales de superficie alineados con escaneos LiDAR y poses 6DoF para tareas de reconocimiento de lugares y estimación de profundidad.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

El artículo presenta SCATR, un modelo de seguimiento basado en LiDAR que mitiga la supresión de nuevas instancias mediante dos estrategias de entrenamiento innovadoras, asignación de segunda oportunidad y eliminación de consultas de seguimiento, logrando así un rendimiento superior que cierra la brecha histórica entre los métodos de seguimiento por atención y por detección.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

El artículo presenta ATA, un marco de inferencia libre de entrenamiento que mejora los modelos Visión-Lenguaje-Acción mediante un razonamiento implícito guiado por atención y acción, logrando mayor éxito en tareas y eficiencia sin necesidad de anotaciones adicionales.

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

El artículo presenta RadioGS, un marco de renderizado inverso que utiliza surfels gaussianos y trazado de rayos 2D para integrar consistencia radiométrica, logrando así una descomposición precisa de materiales y efectos de iluminación global con alta eficiencia computacional y capacidad de reiluminación.

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

El artículo presenta PhotoBench, el primer benchmark construido a partir de álbumes personales auténticos que supera las limitaciones de la coincidencia visual tradicional al evaluar la capacidad de los sistemas para realizar razonamiento multimodal basado en múltiples fuentes e intenciones personalizadas, revelando así la necesidad de arquitecturas de agentes robustas para la recuperación de fotos.

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

Este artículo introduce un marco teórico de tasa-distorsión que utiliza firmas geométricas (pendiente y curvatura) derivadas de matrices de confusión para cuantificar y comparar los compromisos entre precisión y robustez en la generalización visual, revelando que, aunque los sistemas biológicos y artificiales siguen principios comunes de compresión con pérdida, los humanos exhiben trade-offs más flexibles y menos frágiles que las redes neuronales profundas actuales.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

Este artículo presenta el marco DTI-UIE, un enfoque de mejora de imágenes submarinas inspirado en tareas posteriores que, mediante una red de dos ramas, una pérdida perceptual orientada a tareas y un conjunto de datos construido automáticamente, optimiza la calidad de las imágenes para mejorar el rendimiento en tareas de visión como la segmentación y la detección de objetos.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

Este artículo presenta NO-CTR, una representación de funciones tensoriales continuas fundamentada en operadores neuronales que supera las limitaciones de los productos modales discretos mediante operadores no lineales continuos, logrando una aproximación teóricamente universal y un rendimiento superior en la completación de datos multidimensionales tanto en mallas regulares como irregulares.

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

FireRed-OCR Technical Report

FireRed-OCR es un marco sistemático que transforma modelos VLM generales en expertos de OCR estructural mediante una fábrica de datos "Geometría + Semántica" y una estrategia de entrenamiento progresivo de tres etapas, logrando un rendimiento superior al estado del arte en el análisis de documentos complejos.

Hao Wu, Haoran Lou, Xinyue Li + 19 more2026-03-03⚡ eess

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

Este trabajo presenta Tiny-DroNeRF, un modelo de campos neuronales de radiación optimizado para microcontroladores de ultra bajo consumo en nano-drones que, combinado con un esquema de aprendizaje federado, permite la reconstrucción 3D densa en entornos con recursos extremadamente limitados reduciendo la huella de memoria en un 96% con una mínima pérdida de precisión.

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

Este trabajo presenta un método de predicción de trayectorias de drones basado exclusivamente en cámaras de eventos que extrae la velocidad de rotación de las hélices de los datos crudos y la integra en un filtro de Kalman consciente de las RPM, logrando una precisión superior a los enfoques basados en aprendizaje y a los filtros de Kalman convencionales sin necesidad de imágenes RGB ni datos de entrenamiento.

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Este trabajo propone un prior estructural tridimensional libre de entrenamiento llamado Campo de Uniones 3D (3D FoJ) que, al optimizar uniones de cuñas para representar volúmenes, logra una eliminación de ruido superior y la preservación de bordes nítidos en problemas inversos volumétricos de baja relación señal-ruido sin riesgo de alucinaciones.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Este artículo propone y evalúa una nueva metodología de aumento de datos llamada C2GMA, que utiliza CycleGANs para generar imágenes interpoladas de dominio no visible a partir de imágenes visibles, logrando una mejora significativa en la clasificación de imágenes de Radar de Apertura Sintética (SAR) al superar las estrategias tradicionales.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation

El artículo presenta Dite-HRNet, una red de alta resolución ligera y dinámica que incorpora convolución de división dinámica y modelado de contexto adaptativo para capturar eficientemente interacciones a larga distancia y dependencias espaciales, logrando un rendimiento superior en la estimación de la pose humana en los conjuntos de datos COCO y MPII.

Qun Li, Ziyi Zhang, Fu Xiao + 2 more2026-03-02💻 cs

CO^3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving

El artículo presenta CO^3, un método de aprendizaje no supervisado que combina el aprendizaje contrastivo cooperativo entre sensores LiDAR vehiculares e infraestructurales con la predicción del contexto de la forma para generar representaciones 3D superiores en escenarios de conducción autónoma al aire libre.

Runjian Chen, Yao Mu, Runsen Xu + 5 more2026-03-02💻 cs

← Anterior Siguiente →