cs.CV artículos | Gist.Science

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

El artículo presenta MIRAGE, un marco eficiente para la restauración de imágenes agnóstico a la degradación que combina una descomposición funcional por canales y una regularización de variedad para lograr un equilibrio superior entre rendimiento y eficiencia en diversos escenarios de corrupción.

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

El artículo presenta OmniFall, un conjunto de datos unificado que combina grabaciones escenificadas, sintéticas y del mundo real con anotaciones densas para establecer un nuevo estándar en la detección de caídas robusta y que preserve la privacidad.

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

Cora: Correspondence-aware image editing using few step diffusion

Cora es un nuevo marco de edición de imágenes basado en difusión en pocos pasos que utiliza corrección de ruido consciente de la correspondencia y mapas de atención interpolados para lograr deformaciones no rígidas y modificaciones de objetos precisas, manteniendo la estructura, la textura y la identidad de la imagen original mejor que los métodos existentes.

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting

Este artículo presenta ECAM, un módulo basado en aprendizaje contrastivo que se integra en modelos de predicción de trayectorias para mejorar significativamente la evitación de colisiones con obstáculos ambientales, reduciendo la tasa de colisiones en un 40-50% en los conjuntos de datos ETH/UCY.

Giacomo Rosin, Muhammad Rameez Ur Rahman, Sebastiano Vascon2026-03-02💻 cs

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

El artículo presenta LLM-EMF, un enfoque novedoso que mejora la recomendación secuencial entre dominios mediante la fusión de datos multimodales enriquecidos con conocimiento de modelos de lenguaje grandes (LLM) y un mecanismo de atención múltiple, demostrando un rendimiento superior en cuatro conjuntos de datos de comercio electrónico.

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang + 5 more2026-03-02💻 cs

Distilling Balanced Knowledge from a Biased Teacher

El artículo presenta LTKD, un marco novedoso que reformula la destilación de conocimiento en componentes de pérdida entre y dentro de grupos para mitigar el sesgo inherente de los modelos maestros en distribuciones de cola larga y lograr una transferencia de conocimiento equilibrada.

Seonghak Kim2026-03-02💻 cs

Empowering Small VLMs to Think with Dynamic Memorization and Exploration

El artículo presenta DyME, un nuevo paradigma de entrenamiento que equilibra dinámicamente la memorización (mediante SFT) y la exploración (mediante RLVR), complementado con supervisión visual, para potenciar las capacidades de razonamiento de los modelos de visión-idioma a pequeña escala sin requerir una gran capacidad base.

Jiazhen Liu, Yuchuan Deng, Long Chen2026-03-02💻 cs

SelvaBox: A high-resolution dataset for tropical tree crown detection

El artículo presenta SelvaBox, el conjunto de datos abierto más grande para la detección de copas de árboles tropicales en imágenes de drones de alta resolución, el cual, al contener más de 83.000 etiquetas manuales, demuestra que los modelos entrenados con él logran un rendimiento competitivo y superior en la detección de copas tanto en datos no vistos como en entornos multirresolución.

Hugo Baudchon, Arthur Ouaknine, Martin Weiss + 5 more2026-03-02💻 cs

Concept-based Adversarial Attack: a Probabilistic Perspective

Este trabajo propone un marco de ataque adversarial basado en conceptos que, desde una perspectiva probabilística, genera ejemplos adversarios diversos y eficientes al operar sobre distribuciones de conceptos en lugar de modificar imágenes individuales, garantizando así la preservación de la identidad subyacente.

Andi Zhang, Xuan Ding, Steven McDonagh + 1 more2026-03-02🤖 cs.AI

Knowledge-Guided Machine Learning: Illustrating the use of Explainable Boosting Machines to Identify Overshooting Tops in Satellite Imagery

Este trabajo presenta el uso de Máquinas de Refuerzo Explicables (EBM) como un algoritmo de aprendizaje automático interpretable y guiado por el conocimiento humano para identificar cúspides sobresalientes en imágenes satelitales, demostrando que, aunque su precisión es inferior a la de modelos más complejos, ofrece una estrategia transparente y colaborativa crucial para aplicaciones meteorológicas de alto riesgo.

Nathan Mitchell, Lander Ver Hoef, Imme Ebert-Uphoff + 4 more2026-03-02🤖 cs.LG

pFedMMA: Personalized Federated Fine-Tuning with Multi-Modal Adapter for Vision-Language Models

El artículo presenta pFedMMA, un marco de aprendizaje federado personalizado que utiliza adaptadores multimodales para lograr un equilibrio óptimo entre la personalización local y la generalización global en modelos de visión y lenguaje, superando a los métodos existentes mediante una estrategia de comunicación eficiente que comparte únicamente proyecciones alineadas.

Sajjad Ghiasvand, Mahnoosh Alizadeh, Ramtin Pedarsani2026-03-02🤖 cs.LG

Conformal Prediction for Long-Tailed Classification

Este artículo propone nuevos métodos de predicción conformal que, mediante una función de puntuación ajustada a la prevalencia y una interpolación de umbrales, permiten equilibrar suavemente el tamaño de los conjuntos de predicción y la cobertura condicional por clase en problemas de clasificación con distribuciones de cola larga.

Tiffany Ding, Jean-Baptiste Fermanian, Joseph Salmon2026-03-02📊 stat

Animal behavioral analysis and neural encoding with transformer-based self-supervised pretraining

El artículo presenta BEAST, un marco escalable basado en transformers que utiliza aprendizaje auto-supervisado para analizar el comportamiento animal y la codificación neural sin depender de grandes cantidades de datos etiquetados, mejorando tareas como la estimación de postura y la segmentación de acciones en diversos contextos neuroconductuales.

Yanchen Wang, Han Yu, Ari Blau + 5 more2026-03-02🧬 q-bio

Fast Learning of Non-Cooperative Spacecraft 3D Models through Primitive Initialization

Este trabajo presenta un pipeline que utiliza una red neuronal convolucional para inicializar modelos 3DGS con primitivas a partir de imágenes monoculares y poses ruidosas, permitiendo un aprendizaje rápido y eficiente de modelos 3D de alta fidelidad para aplicaciones espaciales sin depender de poses precisas ni de un alto costo computacional.

Pol Francesch Huc, Emily Bates, Simone D'Amico2026-03-02🤖 cs.LG

DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving

El artículo presenta DA-Occ, un marco de predicción de ocupación 3D basado en convoluciones 2D conscientes de la dirección que mejora la precisión geométrica y la eficiencia computacional al combinar proyecciones de puntuación de altura con el paradigma Lift-Splat-Shoot, logrando un equilibrio óptimo entre velocidad y exactitud para la conducción autónoma.

Yuchen Zhou, Yan Luo, Xiaogang Wang + 3 more2026-03-02💻 cs

AutoDebias: Automated Framework for Debiasing Text-to-Image Models

AutoDebias es un marco automatizado que utiliza modelos de visión-idioma y guías de neutralización para identificar y mitigar eficazmente los sesgos maliciosos inyectados en modelos de texto-a-imagen, reduciendo drásticamente la tasa de éxito de los ataques de puerta trasera sin comprometer la calidad visual.

Hongyi Cai, Mohammad Mahdinur Rahman, Mingkang Dong + 7 more2026-03-02💻 cs

Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation

El artículo presenta AMBER-AFNO, un nuevo modelo de segmentación 3D de imágenes médicas que sustituye la atención multi-cabeza por operadores neuronales adaptativos de Fourier (AFNO) para lograr una complejidad computacional casi lineal y un tamaño de modelo compacto, obteniendo resultados competitivos o superiores en conjuntos de datos públicos.

Andrea Dosi, Semanto Mondal, Rajib Chandra Ghosh + 2 more2026-03-02⚡ eess

AnimateScene: Camera-controllable Animation in Any Scene

AnimateScene es un marco unificado que integra la reconstrucción de escenas 3D y la animación humana 4D mediante módulos de colocación precisa, alineación de estilo sin entrenamiento y reconstrucción conjunta de trayectorias de cámara para generar videos dinámicos con alta coherencia espacial y temporal.

Qingyang Liu, Bingjie Gao, Weiheng Huang + 10 more2026-03-02💻 cs

BeeNet: Reconstructing Flower Shapes from Electric Fields using Deep Learning

Este estudio presenta BeeNet, un modelo de aprendizaje profundo que reconstruye con precisión las formas geométricas de las flores a partir de sus campos eléctricos generados por la interacción con insectos cargados, demostrando que la electrorecepción puede proporcionar detalles espaciales ricos y resolviendo el problema de la imagen electrostática inversa.

Jake Turley, Ryan A. Palmer, Isaac V. Chenchiah + 1 more2026-03-02🧬 q-bio

Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

Este trabajo propone un nuevo paradigma de aprendizaje contrastivo estructuralmente consciente que, mediante el uso de muestras difíciles y funciones de pérdida especializadas, mejora significativamente la comprensión de diagramas en modelos de visión-linguaje, superando a los enfoques estándar en tareas de emparejamiento imagen-texto y respuesta a preguntas visuales.

Hiroshi Sasaki2026-03-02🤖 cs.AI

← Anterior Siguiente →