Remote Sensing Image Classification Using Deep Ensemble Learning

Este trabajo propone un modelo de fusión basado en aprendizaje profundo por conjuntos que combina las fortalezas de las CNN y los Vision Transformers para la clasificación de imágenes de teledetección, superando los cuellos de botella de rendimiento mediante la integración de cuatro modelos independientes y logrando una alta precisión en múltiples conjuntos de datos.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

El artículo presenta TumorChain, un marco de razonamiento multimodal intercalado respaldado por un nuevo conjunto de datos a gran escala llamado TumorCoT, diseñado para mejorar la trazabilidad, la precisión y la interpretabilidad en el análisis clínico de tumores mediante la integración de imágenes 3D y razonamiento paso a paso.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

Este trabajo presenta MemSeg-Agent, un agente de segmentación médica que desplaza la adaptación del espacio de pesos al espacio de memoria mediante unidades de memoria estáticas, de pocos ejemplos y de tiempo de prueba, logrando un aprendizaje eficiente, una reducción significativa de la sobrecarga de comunicación en entornos federados y una robustez superior ante cambios de dominio sin necesidad de ajuste fino.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

El artículo presenta CylinderSplat, un marco de trabajo feed-forward que utiliza una representación de triplanos cilíndricos y una arquitectura de doble rama para superar las limitaciones de distorsión y oclusión en la síntesis de nuevas vistas panorámicas mediante 3D Gaussian Splatting, logrando resultados de vanguardia tanto en escenarios de vista única como múltiple.

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

El artículo presenta InnoAds-Composer, un marco de una sola etapa que mejora la generación de carteles de productos para el comercio electrónico mediante un control eficiente de tres condiciones (sujeto, texto y estilo), un módulo de mejora de características de texto para renderizar caracteres chinos con precisión y un nuevo conjunto de datos de referencia, superando a los métodos existentes sin aumentar significativamente la latencia de inferencia.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Este artículo propone tres técnicas de mitigación de sesgo —filtrado top-k, eliminación de conceptos sesgados y desviación adversaria— para mejorar la equidad en los Modelos de Embudo de Conceptos (CBM) sin sacrificar su interpretabilidad, logrando así un mejor equilibrio entre rendimiento y justicia en la clasificación de imágenes.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

El artículo presenta CollabOD, un marco de detección colaborativo ligero diseñado para mejorar la identificación de objetos pequeños en imágenes de vehículos aéreos no tripulados (UAV) mediante la preservación de detalles estructurales, la alineación de características de múltiples escalas y un diseño optimizado para recursos limitados.

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

El artículo presenta Art3D, un nuevo marco de síntesis de disparidad artística que supera las limitaciones geométricas de los métodos actuales de conversión 2D a 3D al priorizar la coherencia estética y la intención creativa mediante una arquitectura de doble vía aprendida de datos cinematográficos profesionales.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

El paper presenta Pano3DComposer, un marco eficiente de alimentación directa que genera escenas 3D composicionales de alta fidelidad a partir de una sola imagen panorámica mediante un predictor de transformación objeto-mundo y un mecanismo de alineación de lo grueso a lo fino, superando las limitaciones de optimización iterativa y campo de visión restringido de los métodos anteriores.

Zidian Qiu, Ancong Wu2026-03-09💻 cs

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

El artículo presenta CORE-Seg, un marco de aprendizaje por refuerzo que integra razonamiento cognitivo y segmentación mediante un adaptador de prompts guiado semánticamente, logrando resultados de vanguardia en la segmentación de lesiones complejas al superar las limitaciones de los modelos existentes en interpretabilidad lógica y precisión visual.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

El paper presenta BlackMirror, un marco de detección de backdoors en modelos de texto a imagen bajo configuración de caja negra que, mediante los componentes MirrorMatch y MirrorVerify, identifica manipulaciones semánticas parciales mediante el análisis de desviaciones entre instrucciones y respuestas, superando las limitaciones de los métodos basados únicamente en similitud visual.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

Este trabajo presenta RAID, un gran conjunto de datos anotados para la percepción del riesgo en conducción, y propone un marco de identificación de objetos de riesgo débilmente supervisado que, al modelar la relación entre las maniobras y las respuestas del conductor, supera significativamente a los métodos anteriores en la detección de fuentes de riesgo.

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs