Remote Sensing Image Classification Using Deep Ensemble Learning

Diese Arbeit stellt eine Deep-Ensemble-Methode vor, die CNNs und Vision Transformers kombiniert, um durch das Ensembling vier unabhängiger Fusionsmodelle die Redundanz zu überwinden und bei der Klassifizierung von Fernerkundungsbildern auf mehreren Datensätzen hohe Genauigkeit mit effizienten Ressourcen zu erreichen.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

Die Arbeit stellt MACRO vor, einen sich selbst weiterentwickelnden medizinischen Agenten, der durch erfahrungsbasierte Entdeckung und Synthese wiederverwendbarer Werkzeugkombinationen die starre Tool-Nutzung überwindet und so die Genauigkeit sowie die domänenübergreifende Generalisierung bei der medizinischen Bildanalyse verbessert.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

Das Paper stellt TumorChain vor, ein multimodales Framework mit verflochtener Chain-of-Thought-Reasoning, das auf dem neuartigen 1,5-Millionen-Einträge umfassenden Datensatz TumorCoT trainiert wird, um die Nachvollziehbarkeit und Genauigkeit der klinischen Tumoranalyse durch die Verknüpfung von 3D-CT-Bildern, radiologischen Befunden und pathologischen Vorhersagen zu verbessern.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

Die Arbeit stellt MemSeg-Agent vor, einen memory-augmentierten Agenten für die medizinische Bildsegmentierung, der die Anpassung vom Gewichts- in den Speicherbereich verlagert, um Few-Shot-Learning, föderiertes Lernen und Testzeit-Anpassung in einer einheitlichen Architektur mit geringem Kommunikationsaufwand zu ermöglichen.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

Diese Studie führt eine systematische Evaluierung der synthetischen Neuansichtengenerierung für die Video-Ortserkennung durch und zeigt, dass bereits kleine Mengen zusätzlicher Ansichten die Erkennungsleistung verbessern, wobei bei größeren Datenmengen die Anzahl der hinzugefügten Ansichten und die Bildart wichtiger sind als die reine Blickwinkeländerung.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

Die Arbeit stellt CylinderSplat vor, ein Feed-forward-Framework für die panoramische 3D-Gaussian-Splatting, das mithilfe einer neuartigen zylindrischen Triplane-Darstellung und einer dualen Architektur die Verzerrungen herkömmlicher Methoden vermeidet und sowohl bei Einzel- als auch bei Mehransicht-Szenen überlegene Rekonstruktionsqualität und geometrische Genauigkeit erzielt.

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

Der Artikel stellt InnoAds-Composer vor, ein einstufiges Framework für die effiziente Erzeugung von E-Commerce-Plakaten, das durch eine optimierte Token-Routing-Strategie und ein Text-Feature-Enhancement-Modul gleichzeitig Subjekt, Text und Stil präzise kontrolliert und dabei bestehende Methoden in Bezug auf Qualität und Latenz übertrifft.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Die vorgestellte Arbeit verbessert die Fairness und Interpretierbarkeit von Concept Bottleneck Models durch den Einsatz von drei neuen Techniken zur Reduzierung von Informationslecks, dem Entfernen voreingenommener Konzepte und adversariellem Debiasing, wodurch signifikant bessere Ergebnisse im Kompromiss zwischen Fairness und Leistung erzielt werden.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

Die Arbeit stellt mit Art3D ein neues Paradigma der „Artistic Disparity Synthesis" vor, das durch eine Dual-Path-Architektur und indirektes Lernen aus professionellen 3D-Filmdaten den Fokus von der rein geometrischen Genauigkeit auf die künstlerisch kohärente Nachbildung immersiver Kinowirkungen verlagert.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Die Arbeit stellt BlackMirror vor, ein trainingsfreies Black-Box-Framework zur Erkennung von Backdoors in Text-zu-Bild-Modellen, das durch die Analyse von Abweichungen zwischen Bildinhalten und Anweisungen sowie deren Stabilität über verschiedene Prompts hinweg neue, visuell diverse Angriffe effektiv identifiziert.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

Die Autoren stellen den großen Datensatz RAID vor und eine schwach überwachte Methode zur Identifizierung von Risikquellen im Straßenverkehr, die durch die Modellierung des Zusammenhangs zwischen Fahrerabsicht und Reaktion sowie der Analyse von Fußgänger-Aufmerksamkeit zu signifikanten Leistungssteigerungen gegenüber dem aktuellen Stand der Technik führt.

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

Die Arbeit stellt TAR-ViTPose vor, einen neuartigen Vision Transformer, der durch eine joint-zentrische temporale Aggregation und globale Wiederherstellung von Aufmerksamkeit die zeitliche Kohärenz in Videos nutzt, um die Genauigkeit und Stabilität der 2D-Pose-Schätzung im Vergleich zu statischen Einzelbild-Methoden und bestehenden Video-Ansätzen signifikant zu verbessern.

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs