cs.CV artículos | Gist.Science

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

El artículo presenta CountFormer, un marco basado en el modelo de visión auto-supervisado DINOv2 que mejora la consistencia estructural en el conteo de objetos sin ejemplos al aprovechar la repetición visual, logrando un rendimiento competitivo en el conjunto de datos FSC-147.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

El paper presenta SAGE, un enfoque zero-shot que genera transiciones de video coherentes y estructuradas entre clips diversos combinando guías estructurales con síntesis generativa, superando a los métodos existentes sin necesidad de datos de entrenamiento específicos.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Este artículo presenta un método forense llamado "reconstrucción de retroceso de difusión" que detecta imágenes generadas por IA analizando cómo estas responden a perturbaciones y reconstrucciones mediante modelos de difusión, logrando una alta precisión (AUROC de 0.993) y robustez frente a distorsiones comunes.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

El artículo presenta a Jr. AI Scientist, un sistema autónomo que imita el flujo de trabajo de un investigador novato para generar contribuciones científicas válidas a partir de artículos base, demostrando su superioridad sobre sistemas automatizados anteriores mientras identifica sus limitaciones actuales y los riesgos asociados para la integridad de la investigación académica.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Este trabajo presenta MUGSQA, un nuevo método de evaluación de calidad, un conjunto de datos y dos puntos de referencia diseñados para abordar los desafíos en la evaluación perceptual de la reconstrucción 3D mediante Gaussian Splatting, considerando múltiples incertidumbres en los datos de entrada.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

El artículo presenta CountOCC, un marco de trabajo para el conteo amodal en entornos abiertos que supera las limitaciones de los métodos actuales al reconstruir las características de objetos oclidos mediante guía multimodal jerárquica y un objetivo de equivalencia visual, logrando así un rendimiento superior en conjuntos de datos de evaluación ocultos.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Este trabajo propone un nuevo método de ataque adversarial para redes hiperbólicas que, al aplicar perturbaciones exclusivamente en la dirección angular del espacio tangente, logra tasas de engaño superiores y revela vulnerabilidades específicas de las representaciones jerárquicas en geometrías no euclidianas.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

El artículo presenta Video2Layout, un marco que reconstruye mapas cognitivos espaciales basados en métricas continuas a partir de videos para superar las limitaciones de los mapas de cuadrícula y mejorar el razonamiento espacial en modelos de lenguaje multimodal.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Este artículo presenta MOMNet, un marco de trabajo novedoso libre de alineación que utiliza un mecanismo de coincidencia de múltiples órdenes y una agregación adaptativa para lograr una super-resolución de profundidad robusta y de alta calidad en escenarios del mundo real donde las imágenes RGB y de profundidad no están estrictamente alineadas.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

El artículo presenta DualMindVLM, un modelo de lenguaje visual que implementa un mecanismo de pensamiento dual (rápido y lento) adaptando el entrenamiento GRPO para asignar dinámicamente la longitud de la respuesta según la complejidad de la tarea, logrando así un rendimiento de razonamiento superior con una mayor eficiencia en el uso de tokens.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Este artículo presenta el Operador Neuronal Estructurado Radiativo (RSNO), un método de aprendizaje profundo que reconstruye imágenes hiperespectrales continuas a partir de observaciones multiespectrales mediante un mapeo continuo basado en principios físicos y proyecciones de consistencia angular para garantizar la coherencia espectral y eliminar distorsiones de color.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

El artículo presenta UnfoldLDM, un marco de red de despliegue profundo que integra un modelo de difusión latente para superar las limitaciones de dependencia del modelo de degradación y el sesgo de sobre-suavizado en la restauración ciega de imágenes, logrando resultados de vanguardia mediante módulos de estimación de degradación y corrección de texturas.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Este trabajo presenta un sistema de seguimiento GNSS estable y en tiempo real para robots marinos, que utiliza una flota de drones con detección visual, alineación de IDs cooperativa y un filtro de Kalman extendido ponderado por confianza para superar la pérdida de señal bajo el agua.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

El artículo presenta Yo'City, un marco agéntico innovador que utiliza modelos grandes y una estrategia de planificación jerárquica para generar ciudades 3D realistas, personalizadas y de escala infinita, superando a los métodos existentes mediante un ciclo de síntesis iterativo y un mecanismo de expansión guiado por relaciones espaciales y semánticas.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space

Este artículo propone un método de regularización direccional en el espacio latente que mitiga el aprendizaje de atajos y mejora la generalización fuera de distribución al identificar ejes correlacionados con etiquetas y reducir la sensibilidad del clasificador hacia ellos mediante la inyección de ruido anisotrópico, sin requerir etiquetas de atajos ni ejemplos conflictivos.

Shivam Pal, Sakshi Varshney, Piyush Rai2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

Este estudio presenta ForamDeepSlice, un marco de aprendizaje profundo basado en un ensemble de redes neuronales convolucionales que logra una precisión del 95,64% en la clasificación automática de especies de foraminíferos a partir de rebanadas 2D de micro-TC, ofreciendo además una herramienta interactiva para su despliegue práctico en geociencias.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

El artículo presenta S2AM3D, un método innovador que combina priores de segmentación 2D con supervisión 3D consistente y un nuevo dataset masivo para lograr una segmentación de partes en nubes de puntos 3D que es robusta, generalizable y capaz de ajustar su granularidad en tiempo real.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

El artículo presenta HiconAgent, un agente de interfaz gráfica que utiliza la Optimización de Políticas Consciente del Contexto Histórico (HCPO) para mejorar la eficiencia y precisión en tareas de navegación secuencial mediante el muestreo dinámico de contextos y una compresión de historial guiada por anclajes, logrando un rendimiento superior al de modelos más grandes con una reducción significativa en costos computacionales.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

El paper presenta MAViD, un marco multimodal innovador que utiliza una arquitectura Conductor-Creador con modelos autoregresivos y de difusión para superar las limitaciones de los sistemas existentes y generar diálogos interactivos de larga duración, coherentes y sincronizados en audio y video.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artículo identifica el fenómeno de "horizonte de información" en los Modelos de Lenguaje Grandes Visuales, donde los tokens visuales pierden su relevancia en capas profundas, demostrando que la poda aleatoria en estas etapas es tan efectiva como los métodos existentes y permite lograr un equilibrio óptimo entre eficiencia y rendimiento.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

← Anterior Siguiente →