cs.CV artículos | Gist.Science

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

Este artículo presenta MFP3D, un nuevo marco que estima con precisión el tamaño de las porciones de comida y su contenido energético a partir de una única imagen monocromática mediante la reconstrucción de nubes de puntos 3D y la extracción combinada de características, superando las limitaciones de los métodos existentes que requieren objetos de referencia o múltiples vistas.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

AP-Loss for Accurate One-Stage Object Detection

Este artículo propone un marco novedoso para la detección de objetos en una sola etapa que reemplaza la tarea de clasificación por una de clasificación de ordenamiento utilizando la pérdida de Precisión Media (AP-loss), la cual se optimiza mediante un algoritmo híbrido que combina el aprendizaje del perceptrón y la retropropagación para mitigar el desequilibrio entre clases y lograr un rendimiento superior al estado del arte.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

El artículo presenta OS-Det3D, un marco de entrenamiento de dos etapas que combina propuestas de objetos 3D agnósticas a la clase derivadas de LiDAR con un módulo de selección conjunta basado en características de cámara para mejorar la detección de objetos desconocidos y conocidos en escenarios de conducción autónoma.

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

Polynomial, trigonometric, and tropical activations

Este artículo demuestra que las funciones de activación basadas en bases ortonormales, como los polinomios de Hermite, la base trigonométrica de Fourier y una base tropicalizada, permiten entrenar modelos profundos de manera estable sin mecanismos de anclaje, ofreciendo además una interpretación polinómica de las redes y una aproximación precisa a activaciones clásicas para tareas de ajuste fino.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Towards Accurate One-Stage Object Detection with AP-Loss

Este artículo propone un nuevo marco para la detección de objetos en una sola etapa que reemplaza la tarea de clasificación por una de clasificación de ordenamiento utilizando la pérdida de precisión media (AP-loss), combinada con un algoritmo de optimización novedoso que supera las dificultades de no diferenciabilidad y no convexidad, logrando así mejoras significativas en el rendimiento sin alterar las arquitecturas de red existentes.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

Este trabajo presenta ZACAF, un marco automatizado que utiliza aprendizaje por transferencia y aumentación de datos para mejorar la precisión y generalización en la cuantificación de la función cardiovascular en cebrafish, demostrando su eficacia en el análisis de mutantes nrap.

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

El artículo propone el método TG-MIL, que incorpora sesgos inductivos topológicos para preservar la estructura de los datos en el aprendizaje múltiple de instancias, logrando mejoras significativas en la clasificación de enfermedades raras y otros escenarios con escasez de datos.

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Task-Driven Lens Design

El artículo presenta el diseño de lentes impulsado por tareas, un enfoque que optimiza la formación de imágenes específicamente para modelos de visión por computadora preentrenados, logrando un proceso de entrenamiento estable y superando a las lentes clásicas al preservar mejor las características estructurales preferidas por la red.

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

El modelo HAL propone un enfoque de aprendizaje jerárquico basado en la diferencia de tasas de evolución entre variables visuales y de acción latente para lograr una segmentación de acciones débilmente supervisada con variables estrictamente identificables y rendimiento superior.

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

El artículo presenta GTASR, un paradigma de entrenamiento ligero para la superresolución de imágenes en escenarios reales que supera las limitaciones de los modelos de consistencia existentes mediante una alineación de trayectoria y una rectificación estructural dual, logrando así una generación de alta calidad en un solo paso con baja latencia.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Este trabajo presenta un nuevo método que mejora la comprensión espacial en la generación de imágenes mediante la construcción del conjunto de datos SpatialReward-Dataset y el modelo de recompensa SpatialScore, los cuales permiten un aprendizaje por refuerzo en línea que supera a los modelos propietarios existentes en la evaluación y generación precisa de relaciones espaciales complejas.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

Este artículo presenta una jerarquía de superpíxeles para imágenes de alta dimensión que integra la información espacial y de atributos para permitir una exploración coherente tanto en el espacio de la imagen como en el de los atributos, superando las limitaciones de los métodos jerárquicos tradicionales que ignoran la disposición espacial de los píxeles.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

El artículo presenta HumanOrbit, un modelo de difusión de video que genera una orbita de 360° continua y consistente a partir de una sola imagen para reconstruir mallas 3D texturizadas de alta fidelidad de personas.

Keito Suzuki, Kunyao Chen, Lei Wang + 5 more2026-03-02💻 cs

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

Este trabajo propone un método compacto para la Splatting Gaussiana 3D que combina una estrategia de poda adaptativa basada en la calidad de reconstrucción y un nuevo primitivo de Diferencia de Gaussianas, logrando una reducción de hasta un 90% en el número de gaussianas sin sacrificar la calidad visual.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este trabajo propone un marco unificado que combina patrones de costura implícitos con un modelo de difusión generativo para reconstruir con alta fidelidad la geometría de prendas de vestir en 3D a partir de imágenes monoculares y secuencias de video, logrando una consistencia temporal robusta y una generalización efectiva a escenas reales tanto para prendas ajustadas como holgadas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

El artículo presenta AIR, un marco sin entrenamiento que mitiga las alucinaciones en modelos de lenguaje grandes multimodales mediante la reducción de tokens visuales y la integración selectiva de parches, mejorando así la fiabilidad del modelo sin incurrir en costes de supervisión ni latencia adicional.

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

El artículo presenta GuardAlign, un marco de defensa sin entrenamiento que mejora la alineación de seguridad en modelos de lenguaje multimodal grandes mediante la detección de riesgos optimizada con transporte óptimo y la calibración atenta cruzada, logrando reducir significativamente las respuestas inseguras sin comprometer la utilidad del modelo.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

SteerVAD es un marco novedoso que mejora la detección de anomalías en videos utilizando modelos multimodales grandes congelados mediante la identificación de expertos latentes y la aplicación de señales de rectificación dinámicas para orientar y corregir sus representaciones internas, logrando un rendimiento superior con datos de entrenamiento mínimos.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

El artículo presenta SR3R, un marco de aprendizaje profundo de alimentación directa que reformula la reconstrucción 3D de superresolución como un mapeo directo desde vistas escasas de baja resolución hacia representaciones 3DGS de alta resolución, logrando una generalización robusta y una fidelidad superior al aprender automáticamente geometrías y apariencias de alta frecuencia a partir de datos multiescena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Ordinal Diffusion Models for Color Fundus Images

Este trabajo propone un modelo de difusión latente ordinal para generar imágenes de fondo de ojo que incorpora explícitamente la estructura ordenada de la progresión de la retinopatía diabética, logrando una mayor realismo visual y consistencia clínica en comparación con los modelos condicionales estándar.

Gustav Schmidt, Philipp Berens, Sarah Müller2026-03-02💻 cs

← Anterior Siguiente →