cs.CV Arbeiten | Gist.Science

Remote Sensing Image Classification Using Deep Ensemble Learning

Diese Arbeit stellt eine Deep-Ensemble-Methode vor, die CNNs und Vision Transformers kombiniert, um durch das Ensembling vier unabhängiger Fusionsmodelle die Redundanz zu überwinden und bei der Klassifizierung von Fernerkundungsbildern auf mehreren Datensätzen hohe Genauigkeit mit effizienten Ressourcen zu erreichen.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation

Das Paper stellt Cog2Gen3D vor, ein 3D-Generierungs-Framework, das semantische Informationen und absolute Geometrie durch kognitive Feature-Embeddings und einen 3D-Latenz-Kognitionsgraphen kombiniert, um physikalisch plausible und strukturell rationale 3D-Objekte zu erzeugen.

Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan2026-03-09💻 cs

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

Das Paper stellt VS3R vor, ein Framework, das durch die Synergie von feed-forward 3D-Rekonstruktion und generativen Video-Diffusionsmodellen robuste, vollformatige Video-Stabilisierung mit hoher visueller Qualität über verschiedene Szenarien hinweg ermöglicht.

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

Die Arbeit stellt MACRO vor, einen sich selbst weiterentwickelnden medizinischen Agenten, der durch erfahrungsbasierte Entdeckung und Synthese wiederverwendbarer Werkzeugkombinationen die starre Tool-Nutzung überwindet und so die Genauigkeit sowie die domänenübergreifende Generalisierung bei der medizinischen Bildanalyse verbessert.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

Das Paper stellt TumorChain vor, ein multimodales Framework mit verflochtener Chain-of-Thought-Reasoning, das auf dem neuartigen 1,5-Millionen-Einträge umfassenden Datensatz TumorCoT trainiert wird, um die Nachvollziehbarkeit und Genauigkeit der klinischen Tumoranalyse durch die Verknüpfung von 3D-CT-Bildern, radiologischen Befunden und pathologischen Vorhersagen zu verbessern.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

Die Arbeit stellt PatchCue vor, ein neuartiges Paradigma, das die visuellen Schlussfolgerungsfähigkeiten von Vision-Language-Modellen durch die Nutzung von Patches als visuelle Hinweise verbessert, die besser mit menschlichen Wahrnehmungsgewohnheiten übereinstimmen als pixelgenaue Bounding Boxes oder Punkte.

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

Die Arbeit stellt MemSeg-Agent vor, einen memory-augmentierten Agenten für die medizinische Bildsegmentierung, der die Anpassung vom Gewichts- in den Speicherbereich verlagert, um Few-Shot-Learning, föderiertes Lernen und Testzeit-Anpassung in einer einheitlichen Architektur mit geringem Kommunikationsaufwand zu ermöglichen.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

Diese Studie führt eine systematische Evaluierung der synthetischen Neuansichtengenerierung für die Video-Ortserkennung durch und zeigt, dass bereits kleine Mengen zusätzlicher Ansichten die Erkennungsleistung verbessern, wobei bei größeren Datenmengen die Anzahl der hinzugefügten Ansichten und die Bildart wichtiger sind als die reine Blickwinkeländerung.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

Die Arbeit stellt CylinderSplat vor, ein Feed-forward-Framework für die panoramische 3D-Gaussian-Splatting, das mithilfe einer neuartigen zylindrischen Triplane-Darstellung und einer dualen Architektur die Verzerrungen herkömmlicher Methoden vermeidet und sowohl bei Einzel- als auch bei Mehransicht-Szenen überlegene Rekonstruktionsqualität und geometrische Genauigkeit erzielt.

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

Die Arbeit stellt PixARMesh vor, eine Methode, die aus einem einzelnen RGB-Bild autoregressiv vollständige, kohärente und direkt anwendbare 3D-Innenszenen-Meshes in einem einzigen Vorwärtsschritt rekonstruiert, indem sie Objektplatzierung und Geometrie in einem einheitlichen Modell kombiniert.

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

Der Artikel stellt InnoAds-Composer vor, ein einstufiges Framework für die effiziente Erzeugung von E-Commerce-Plakaten, das durch eine optimierte Token-Routing-Strategie und ein Text-Feature-Enhancement-Modul gleichzeitig Subjekt, Text und Stil präzise kontrolliert und dabei bestehende Methoden in Bezug auf Qualität und Latenz übertrifft.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Die vorgestellte Arbeit verbessert die Fairness und Interpretierbarkeit von Concept Bottleneck Models durch den Einsatz von drei neuen Techniken zur Reduzierung von Informationslecks, dem Entfernen voreingenommener Konzepte und adversariellem Debiasing, wodurch signifikant bessere Ergebnisse im Kompromiss zwischen Fairness und Leistung erzielt werden.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

Die Arbeit stellt CollabOD vor, ein leichtgewichtiges kollaboratives Framework, das durch die Erhaltung struktureller Details und die Ausrichtung heterogener Merkmalsströme die robuste und effiziente Detektion kleiner Objekte in UAV-Bildern verbessert.

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

Die Arbeit stellt mit Art3D ein neues Paradigma der „Artistic Disparity Synthesis" vor, das durch eine Dual-Path-Architektur und indirektes Lernen aus professionellen 3D-Filmdaten den Fokus von der rein geometrischen Genauigkeit auf die künstlerisch kohärente Nachbildung immersiver Kinowirkungen verlagert.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

Der Paper stellt Pano3DComposer vor, einen effizienten Feed-Forward-Framework, der aus einzelnen Panoramabildern hochwertige 3D-Szenen in nur 20 Sekunden generiert, indem es durch einen neuartigen Objekt-Welt-Transformationsprädiktor und eine Grob-zu-Fein-Ausrichtungsmechanik die Grenzen bestehender iterativer oder eingeschränkter Methoden überwindet.

Zidian Qiu, Ancong Wu2026-03-09💻 cs

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

Die Arbeit stellt CORE-Seg vor, ein auf Verstärkungslernen basierendes Framework, das durch die Integration von Chain-of-Thought-Reasoning und einem semantisch geführten Prompt-Adapter die Segmentierung komplexer Läsionen in medizinischen Bildern signifikant verbessert.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Die Arbeit stellt BlackMirror vor, ein trainingsfreies Black-Box-Framework zur Erkennung von Backdoors in Text-zu-Bild-Modellen, das durch die Analyse von Abweichungen zwischen Bildinhalten und Anweisungen sowie deren Stabilität über verschiedene Prompts hinweg neue, visuell diverse Angriffe effektiv identifiziert.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

Das Paper stellt den Rectified Flow Auto Coder (RAC) vor, der durch die Nutzung von geraden Flusspfaden für mehrstufige Decodierung und bidirektionale Inferenz die Rekonstruktions- und Generierungsqualität von VAEs bei etwa 41 % weniger Parametern und 70 % geringerem Rechenaufwand signifikant verbessert.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

Die Autoren stellen den großen Datensatz RAID vor und eine schwach überwachte Methode zur Identifizierung von Risikquellen im Straßenverkehr, die durch die Modellierung des Zusammenhangs zwischen Fahrerabsicht und Reaktion sowie der Analyse von Fußgänger-Aufmerksamkeit zu signifikanten Leistungssteigerungen gegenüber dem aktuellen Stand der Technik führt.

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

Die Arbeit stellt TAR-ViTPose vor, einen neuartigen Vision Transformer, der durch eine joint-zentrische temporale Aggregation und globale Wiederherstellung von Aufmerksamkeit die zeitliche Kohärenz in Videos nutzt, um die Genauigkeit und Stabilität der 2D-Pose-Schätzung im Vergleich zu statischen Einzelbild-Methoden und bestehenden Video-Ansätzen signifikant zu verbessern.

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs

← Zurück Weiter →