DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving

El artículo presenta DA-Occ, un marco de predicción de ocupación 3D basado en convoluciones 2D conscientes de la dirección que mejora la precisión geométrica y la eficiencia computacional al combinar proyecciones de puntuación de altura con el paradigma Lift-Splat-Shoot, logrando un equilibrio óptimo entre velocidad y exactitud para la conducción autónoma.

Yuchen Zhou, Yan Luo, Xiaogang Wang + 3 more2026-03-02💻 cs

Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation

El artículo presenta AMBER-AFNO, un nuevo modelo de segmentación 3D de imágenes médicas que sustituye la atención multi-cabeza por operadores neuronales adaptativos de Fourier (AFNO) para lograr una complejidad computacional casi lineal y un tamaño de modelo compacto, obteniendo resultados competitivos o superiores en conjuntos de datos públicos.

Andrea Dosi, Semanto Mondal, Rajib Chandra Ghosh + 2 more2026-03-02⚡ eess

BeeNet: Reconstructing Flower Shapes from Electric Fields using Deep Learning

Este estudio presenta BeeNet, un modelo de aprendizaje profundo que reconstruye con precisión las formas geométricas de las flores a partir de sus campos eléctricos generados por la interacción con insectos cargados, demostrando que la electrorecepción puede proporcionar detalles espaciales ricos y resolviendo el problema de la imagen electrostática inversa.

Jake Turley, Ryan A. Palmer, Isaac V. Chenchiah + 1 more2026-03-02🧬 q-bio

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

El artículo presenta Draw-In-Mind (DIM), un enfoque que reequilibra las responsabilidades entre los módulos de comprensión y generación en modelos multimodales unificados mediante un nuevo dataset de instrucciones complejas y planos de diseño explícitos, logrando así un rendimiento superior en edición de imágenes a pesar de su escala paramétrica reducida.

Ziyun Zeng, David Junhao Zhang, Wei Li + 1 more2026-03-02🤖 cs.AI

MEGS2^{2}: Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning

El artículo presenta MEGS2^{2}, un marco innovador que reduce significativamente el consumo de memoria de la Splatting de Gaussiana 3D al reemplazar los armónicos esféricos por lóbulos gaussianos esféricos ligeros y aplicar un marco de poda unificado que optimiza simultáneamente el número de primitivas y sus parámetros, logrando una compresión de memoria sin precedentes sin sacrificar la calidad de renderizado.

Jiarui Chen, Yikeng Chen, Yingshuang Zou + 5 more2026-03-02🤖 cs.AI

Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

Este trabajo presenta Max-V1, un modelo de visión-idioma eficiente y potente que reformula la planificación de trayectorias en la conducción autónoma como una tarea de predicción de puntos de referencia secuenciales, logrando un rendimiento superior al estado del arte en el conjunto de datos nuScenes y una notable robustez en la generalización entre diferentes vehículos.

Sheng Yang, Tong Zhan, Guancheng Chen + 2 more2026-03-02🤖 cs.AI

Universal Beta Splatting

El artículo presenta Universal Beta Splatting (UBS), un marco unificado que generaliza el Splatting Gaussiano 3D mediante núcleos Beta anisotrópicos N-dimensionales para lograr una representación explícita y escalable de campos de radiación que modela dinámicamente efectos de transporte de luz, apariencia dependiente de la vista y movimiento sin necesidad de redes auxiliares, manteniendo compatibilidad con métodos anteriores y superándolos en rendimiento.

Rong Liu, Zhongpai Gao, Benjamin Planche + 8 more2026-03-02⚡ eess

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Este trabajo propone un marco novedoso para la detección de anomalías en video semi-supervisado que utiliza descripciones textuales generadas por Modelos de Lenguaje Grandes Multimodales (MLLM) sobre interacciones entre objetos para lograr un rendimiento superior y una explicabilidad inherente, superando las limitaciones de los métodos existentes en la identificación de anomalías complejas.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation

El artículo presenta "Speculative Verdict" (SV), un marco sin entrenamiento que mejora el razonamiento visual en imágenes densamente informativas combinando múltiples modelos VLM ligeros para generar candidatos de localización y un modelo fuerte para sintetizar la respuesta final, logrando así mayor precisión y eficiencia en benchmarks de alta resolución.

Yuhan Liu, Lianhui Qin, Shengjie Wang2026-03-02💬 cs.CL