MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

Este artículo presenta MFP3D, un nuevo marco que estima con precisión el tamaño de las porciones de comida y su contenido energético a partir de una única imagen monocromática mediante la reconstrucción de nubes de puntos 3D y la extracción combinada de características, superando las limitaciones de los métodos existentes que requieren objetos de referencia o múltiples vistas.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

AP-Loss for Accurate One-Stage Object Detection

Este artículo propone un marco novedoso para la detección de objetos en una sola etapa que reemplaza la tarea de clasificación por una de clasificación de ordenamiento utilizando la pérdida de Precisión Media (AP-loss), la cual se optimiza mediante un algoritmo híbrido que combina el aprendizaje del perceptrón y la retropropagación para mitigar el desequilibrio entre clases y lograr un rendimiento superior al estado del arte.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Este artículo demuestra que las funciones de activación basadas en bases ortonormales, como los polinomios de Hermite, la base trigonométrica de Fourier y una base tropicalizada, permiten entrenar modelos profundos de manera estable sin mecanismos de anclaje, ofreciendo además una interpretación polinómica de las redes y una aproximación precisa a activaciones clásicas para tareas de ajuste fino.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Towards Accurate One-Stage Object Detection with AP-Loss

Este artículo propone un nuevo marco para la detección de objetos en una sola etapa que reemplaza la tarea de clasificación por una de clasificación de ordenamiento utilizando la pérdida de precisión media (AP-loss), combinada con un algoritmo de optimización novedoso que supera las dificultades de no diferenciabilidad y no convexidad, logrando así mejoras significativas en el rendimiento sin alterar las arquitecturas de red existentes.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

El artículo presenta GTASR, un paradigma de entrenamiento ligero para la superresolución de imágenes en escenarios reales que supera las limitaciones de los modelos de consistencia existentes mediante una alineación de trayectoria y una rectificación estructural dual, logrando así una generación de alta calidad en un solo paso con baja latencia.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Este trabajo presenta un nuevo método que mejora la comprensión espacial en la generación de imágenes mediante la construcción del conjunto de datos SpatialReward-Dataset y el modelo de recompensa SpatialScore, los cuales permiten un aprendizaje por refuerzo en línea que supera a los modelos propietarios existentes en la evaluación y generación precisa de relaciones espaciales complejas.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

Este artículo presenta una jerarquía de superpíxeles para imágenes de alta dimensión que integra la información espacial y de atributos para permitir una exploración coherente tanto en el espacio de la imagen como en el de los atributos, superando las limitaciones de los métodos jerárquicos tradicionales que ignoran la disposición espacial de los píxeles.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este trabajo propone un marco unificado que combina patrones de costura implícitos con un modelo de difusión generativo para reconstruir con alta fidelidad la geometría de prendas de vestir en 3D a partir de imágenes monoculares y secuencias de video, logrando una consistencia temporal robusta y una generalización efectiva a escenas reales tanto para prendas ajustadas como holgadas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

SteerVAD es un marco novedoso que mejora la detección de anomalías en videos utilizando modelos multimodales grandes congelados mediante la identificación de expertos latentes y la aplicación de señales de rectificación dinámicas para orientar y corregir sus representaciones internas, logrando un rendimiento superior con datos de entrenamiento mínimos.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

El artículo presenta SR3R, un marco de aprendizaje profundo de alimentación directa que reformula la reconstrucción 3D de superresolución como un mapeo directo desde vistas escasas de baja resolución hacia representaciones 3DGS de alta resolución, logrando una generalización robusta y una fidelidad superior al aprender automáticamente geometrías y apariencias de alta frecuencia a partir de datos multiescena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs