cs.CV artículos | Gist.Science

Remote Sensing Image Classification Using Deep Ensemble Learning

Este trabajo propone un modelo de fusión basado en aprendizaje profundo por conjuntos que combina las fortalezas de las CNN y los Vision Transformers para la clasificación de imágenes de teledetección, superando los cuellos de botella de rendimiento mediante la integración de cuatro modelos independientes y logrando una alta precisión en múltiples conjuntos de datos.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation

El artículo presenta Cog2Gen3D, un marco de difusión guiado por cognición 3D que integra representaciones semánticas y geométricas absolutas mediante un grafo de cognición latente para generar objetos 3D físicamente plausibles y estructuralmente racionales, superando a los métodos existentes en fidelidad semántica y coherencia geométrica.

Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan2026-03-09💻 cs

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

El artículo presenta VS3R, un marco innovador que combina la reconstrucción 3D de frente con un modelo de difusión generativa para lograr una estabilización de video de todo el encuadre, robusta y de alta fidelidad, superando las limitaciones de los métodos existentes en escenarios de movimiento extremo.

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

El artículo presenta MACRO, un agente médico autoevolutivo que descubre y sintetiza herramientas compuestas a partir de experiencias previas para superar las limitaciones de los sistemas estáticos, mejorando así la precisión en la interpretación de imágenes médicas y la generalización entre dominios.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

El artículo presenta TumorChain, un marco de razonamiento multimodal intercalado respaldado por un nuevo conjunto de datos a gran escala llamado TumorCoT, diseñado para mejorar la trazabilidad, la precisión y la interpretabilidad en el análisis clínico de tumores mediante la integración de imágenes 3D y razonamiento paso a paso.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

El artículo presenta PatchCue, un nuevo paradigma que mejora el razonamiento de los modelos visuales-lingüísticos mediante el uso de pistas visuales a nivel de parche, las cuales se alinean mejor con la percepción humana y superan a los métodos basados en píxeles o puntos.

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

Este trabajo presenta MemSeg-Agent, un agente de segmentación médica que desplaza la adaptación del espacio de pesos al espacio de memoria mediante unidades de memoria estáticas, de pocos ejemplos y de tiempo de prueba, logrando un aprendizaje eficiente, una reducción significativa de la sobrecarga de comunicación en entornos federados y una robustez superior ante cambios de dominio sin necesidad de ajuste fino.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

Este artículo presenta una evaluación sistemática de la síntesis de nuevas vistas en el reconocimiento de lugares en video, demostrando que las vistas sintéticas mejoran las estadísticas de reconocimiento, especialmente cuando se añaden en gran número, independientemente de la magnitud del cambio de perspectiva.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

El artículo presenta CylinderSplat, un marco de trabajo feed-forward que utiliza una representación de triplanos cilíndricos y una arquitectura de doble rama para superar las limitaciones de distorsión y oclusión en la síntesis de nuevas vistas panorámicas mediante 3D Gaussian Splatting, logrando resultados de vanguardia tanto en escenarios de vista única como múltiple.

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

PixARMesh es un método autoregresivo que reconstruye escenas 3D completas a partir de una sola imagen RGB en una sola pasada, generando mallas coherentes y listas para uso artístico mediante la predicción conjunta de la disposición y la geometría de los objetos sin necesidad de optimización posterior.

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

El artículo presenta InnoAds-Composer, un marco de una sola etapa que mejora la generación de carteles de productos para el comercio electrónico mediante un control eficiente de tres condiciones (sujeto, texto y estilo), un módulo de mejora de características de texto para renderizar caracteres chinos con precisión y un nuevo conjunto de datos de referencia, superando a los métodos existentes sin aumentar significativamente la latencia de inferencia.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Este artículo propone tres técnicas de mitigación de sesgo —filtrado top-k, eliminación de conceptos sesgados y desviación adversaria— para mejorar la equidad en los Modelos de Embudo de Conceptos (CBM) sin sacrificar su interpretabilidad, logrando así un mejor equilibrio entre rendimiento y justicia en la clasificación de imágenes.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

El artículo presenta CollabOD, un marco de detección colaborativo ligero diseñado para mejorar la identificación de objetos pequeños en imágenes de vehículos aéreos no tripulados (UAV) mediante la preservación de detalles estructurales, la alineación de características de múltiples escalas y un diseño optimizado para recursos limitados.

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

El artículo presenta Art3D, un nuevo marco de síntesis de disparidad artística que supera las limitaciones geométricas de los métodos actuales de conversión 2D a 3D al priorizar la coherencia estética y la intención creativa mediante una arquitectura de doble vía aprendida de datos cinematográficos profesionales.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

El paper presenta Pano3DComposer, un marco eficiente de alimentación directa que genera escenas 3D composicionales de alta fidelidad a partir de una sola imagen panorámica mediante un predictor de transformación objeto-mundo y un mecanismo de alineación de lo grueso a lo fino, superando las limitaciones de optimización iterativa y campo de visión restringido de los métodos anteriores.

Zidian Qiu, Ancong Wu2026-03-09💻 cs

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

El artículo presenta CORE-Seg, un marco de aprendizaje por refuerzo que integra razonamiento cognitivo y segmentación mediante un adaptador de prompts guiado semánticamente, logrando resultados de vanguardia en la segmentación de lesiones complejas al superar las limitaciones de los modelos existentes en interpretabilidad lógica y precisión visual.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

El paper presenta BlackMirror, un marco de detección de backdoors en modelos de texto a imagen bajo configuración de caja negra que, mediante los componentes MirrorMatch y MirrorVerify, identifica manipulaciones semánticas parciales mediante el análisis de desviaciones entre instrucciones y respuestas, superando las limitaciones de los métodos basados únicamente en similitud visual.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

El artículo presenta el Rectified Flow Auto Coder (RAC), un modelo inspirado en Rectified Flow que reemplaza a los VAE tradicionales mediante un proceso de decodificación rectificado y bidireccional, logrando una mayor calidad de reconstrucción y generación con un costo computacional aproximadamente un 70% menor.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

Este trabajo presenta RAID, un gran conjunto de datos anotados para la percepción del riesgo en conducción, y propone un marco de identificación de objetos de riesgo débilmente supervisado que, al modelar la relación entre las maniobras y las respuestas del conductor, supera significativamente a los métodos anteriores en la detección de fuentes de riesgo.

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

El artículo presenta TAR-ViTPose, un transformador de visión temporal que mejora la estimación de pose humana en video mediante la agregación de información temporal y la restauración de características, logrando mayor precisión y velocidad que los métodos existentes.

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs

← Anterior Siguiente →