cs.CV artículos | Gist.Science

DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving

El artículo presenta DA-Occ, un marco de predicción de ocupación 3D basado en convoluciones 2D conscientes de la dirección que mejora la precisión geométrica y la eficiencia computacional al combinar proyecciones de puntuación de altura con el paradigma Lift-Splat-Shoot, logrando un equilibrio óptimo entre velocidad y exactitud para la conducción autónoma.

Yuchen Zhou, Yan Luo, Xiaogang Wang + 3 more2026-03-02💻 cs

AutoDebias: Automated Framework for Debiasing Text-to-Image Models

AutoDebias es un marco automatizado que utiliza modelos de visión-idioma y guías de neutralización para identificar y mitigar eficazmente los sesgos maliciosos inyectados en modelos de texto-a-imagen, reduciendo drásticamente la tasa de éxito de los ataques de puerta trasera sin comprometer la calidad visual.

Hongyi Cai, Mohammad Mahdinur Rahman, Mingkang Dong + 7 more2026-03-02💻 cs

Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation

El artículo presenta AMBER-AFNO, un nuevo modelo de segmentación 3D de imágenes médicas que sustituye la atención multi-cabeza por operadores neuronales adaptativos de Fourier (AFNO) para lograr una complejidad computacional casi lineal y un tamaño de modelo compacto, obteniendo resultados competitivos o superiores en conjuntos de datos públicos.

Andrea Dosi, Semanto Mondal, Rajib Chandra Ghosh + 2 more2026-03-02⚡ eess

AnimateScene: Camera-controllable Animation in Any Scene

AnimateScene es un marco unificado que integra la reconstrucción de escenas 3D y la animación humana 4D mediante módulos de colocación precisa, alineación de estilo sin entrenamiento y reconstrucción conjunta de trayectorias de cámara para generar videos dinámicos con alta coherencia espacial y temporal.

Qingyang Liu, Bingjie Gao, Weiheng Huang + 10 more2026-03-02💻 cs

BeeNet: Reconstructing Flower Shapes from Electric Fields using Deep Learning

Este estudio presenta BeeNet, un modelo de aprendizaje profundo que reconstruye con precisión las formas geométricas de las flores a partir de sus campos eléctricos generados por la interacción con insectos cargados, demostrando que la electrorecepción puede proporcionar detalles espaciales ricos y resolviendo el problema de la imagen electrostática inversa.

Jake Turley, Ryan A. Palmer, Isaac V. Chenchiah + 1 more2026-03-02🧬 q-bio

Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

Este trabajo propone un nuevo paradigma de aprendizaje contrastivo estructuralmente consciente que, mediante el uso de muestras difíciles y funciones de pérdida especializadas, mejora significativamente la comprensión de diagramas en modelos de visión-linguaje, superando a los enfoques estándar en tareas de emparejamiento imagen-texto y respuesta a preguntas visuales.

Hiroshi Sasaki2026-03-02🤖 cs.AI

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

El artículo presenta Draw-In-Mind (DIM), un enfoque que reequilibra las responsabilidades entre los módulos de comprensión y generación en modelos multimodales unificados mediante un nuevo dataset de instrucciones complejas y planos de diseño explícitos, logrando así un rendimiento superior en edición de imágenes a pesar de su escala paramétrica reducida.

Ziyun Zeng, David Junhao Zhang, Wei Li + 1 more2026-03-02🤖 cs.AI

MEGS $^{2}$ : Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning

El artículo presenta MEGS $^{2}$ , un marco innovador que reduce significativamente el consumo de memoria de la Splatting de Gaussiana 3D al reemplazar los armónicos esféricos por lóbulos gaussianos esféricos ligeros y aplicar un marco de poda unificado que optimiza simultáneamente el número de primitivas y sus parámetros, logrando una compresión de memoria sin precedentes sin sacrificar la calidad de renderizado.

Jiarui Chen, Yikeng Chen, Yingshuang Zou + 5 more2026-03-02🤖 cs.AI

Activation Function Design Sustains Plasticity in Continual Learning

Este artículo demuestra que el diseño de funciones de activación, específicamente mediante la introducción de nuevas no linealidades como Smooth-Leaky, es un mecanismo fundamental y ligero para mitigar la pérdida de plasticidad y mantener la capacidad de adaptación en el aprendizaje continuo sin requerir recursos adicionales.

Lute Lillo, Nick Cheney2026-03-02🤖 cs.AI

Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives

Este trabajo presenta un marco de aprendizaje no supervisado y diferenciable que automatiza la parametrización de mallas 3D mediante objetivos semánticos y de visibilidad, eliminando la necesidad de mapeo UV manual y reduciendo los artefactos perceptibles en la generación de texturas.

AmirHossein Zamani, Bruno Roy, Arianna Rampini2026-03-02💻 cs

Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

Este trabajo presenta Max-V1, un modelo de visión-idioma eficiente y potente que reformula la planificación de trayectorias en la conducción autónoma como una tarea de predicción de puntos de referencia secuenciales, logrando un rendimiento superior al estado del arte en el conjunto de datos nuScenes y una notable robustez en la generalización entre diferentes vehículos.

Sheng Yang, Tong Zhan, Guancheng Chen + 2 more2026-03-02🤖 cs.AI

Universal Beta Splatting

El artículo presenta Universal Beta Splatting (UBS), un marco unificado que generaliza el Splatting Gaussiano 3D mediante núcleos Beta anisotrópicos N-dimensionales para lograr una representación explícita y escalable de campos de radiación que modela dinámicamente efectos de transporte de luz, apariencia dependiente de la vista y movimiento sin necesidad de redes auxiliares, manteniendo compatibilidad con métodos anteriores y superándolos en rendimiento.

Rong Liu, Zhongpai Gao, Benjamin Planche + 8 more2026-03-02⚡ eess

CLEAR-IR: Clarity-Enhanced Active Reconstruction of Infrared Imagery

Este trabajo presenta CLEAR-IR, un enfoque novedoso basado en una arquitectura DeepMAO que reconstruye imágenes infrarrojas limpias eliminando patrones de emisores activos, lo que permite a los sistemas robóticos realizar tareas de percepción avanzadas en condiciones de oscuridad extrema sin necesidad de iluminación a bordo.

Nathan Shankar, Pawel Ladosz, Hujun Yin2026-03-02🤖 cs.LG

The False Promise of Zero-Shot Super-Resolution in Machine-Learned Operators

Este trabajo demuestra que los operadores aprendidos por máquina no pueden realizar inferencia de super-resolución cero-shot de manera fiable debido a su susceptibilidad al aliasing, y propone un protocolo de entrenamiento multi-resolución eficiente para lograr una generalización robusta.

Mansi Sakarvadia, Kareem Hegazy, Amin Totounferoush + 4 more2026-03-02🤖 cs.AI

Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

Este estudio utiliza SAEs para analizar DINOv2, revelando que sus representaciones visuales no son estrictamente dispersas sino que se organizan en espacios conceptales convexos definidos por arquetipos, lo que lleva a proponer la Hipótesis de Representación de Minkowski como un marco más preciso que la Hipótesis de Representación Lineal.

Thomas Fel, Binxu Wang, Michael A. Lepori + 8 more2026-03-02🤖 cs.AI

Uncertainty Matters in Dynamic Gaussian Splatting for Monocular 4D Reconstruction

El artículo presenta USplat4D, un marco de reconstrucción 4D dinámico que mejora la estabilidad geométrica y la síntesis de vistas nuevas al estimar la incertidumbre temporal por gaussiana y utilizarla para guiar la optimización mediante un gráfico espacio-temporal.

Fengzhi Guo, Chih-Chuan Hsu, Sihao Ding + 1 more2026-03-02🤖 cs.AI

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Este trabajo propone un marco novedoso para la detección de anomalías en video semi-supervisado que utiliza descripciones textuales generadas por Modelos de Lenguaje Grandes Multimodales (MLLM) sobre interacciones entre objetos para lograr un rendimiento superior y una explicabilidad inherente, superando las limitaciones de los métodos existentes en la identificación de anomalías complejas.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

From Volume Rendering to 3D Gaussian Splatting: Theory and Applications

Esta tutorial ofrece una visión general concisa y completa de la representación 3D Gaussian Splatting (3DGS), abarcando su formulación teórica, las estrategias para superar sus limitaciones actuales y sus diversas aplicaciones en reconstrucción de superficies, modelado de avatares y generación de contenido.

Vitor Pereira Matias, Daniel Perazzo, Vinicius Silva + 4 more2026-03-02💻 cs

Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation

El artículo presenta "Speculative Verdict" (SV), un marco sin entrenamiento que mejora el razonamiento visual en imágenes densamente informativas combinando múltiples modelos VLM ligeros para generar candidatos de localización y un modelo fuerte para sintetizar la respuesta final, logrando así mayor precisión y eficiencia en benchmarks de alta resolución.

Yuhan Liu, Lianhui Qin, Shengjie Wang2026-03-02💬 cs.CL

TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

TokenCLIP es un marco de aprendizaje de prompts token a token que mejora la detección de anomalías en ceros disparos mediante la alineación dinámica de tokens visuales con subespacios textuales ortogonales utilizando un problema de transporte óptimo para capturar semánticas de anomalías más precisas y granulares.

Qihang Zhou, Binbin Gao, Guansong Pang + 3 more2026-03-02💻 cs

← Anterior Siguiente →

cs.CV