cs.CV Arbeiten | Gist.Science

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

Diese Arbeit stellt mit UniDiffDA ein einheitliches Analyseframework für diffusionsbasierte Daten-Augmentierung vor, das durch eine systematische Zerlegung in Kernkomponenten und eine umfassende, faire Benchmark-Studie unter einheitlichen Bedingungen praktische Einblicke in die Stärken und Grenzen verschiedener Methoden liefert.

Zekun Li, Yinghuan Shi, Yang Gao, Dong Xu2026-03-10💻 cs

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

Die Arbeit stellt Adaptive Manifold Prototypes (AMP) vor, ein Framework, das durch die Nutzung der Riemannschen Optimierung auf der Stiefel-Mannigfaltigkeit das Problem des Prototyp-Kollapses bei interpretierbaren Netzwerkmodellen verhindert und gleichzeitig die Klassifikationsgenauigkeit sowie die kausale Zuverlässigkeit verbessert.

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng2026-03-10💻 cs

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Diese Studie stellt ein auf rectified flow basierendes KI-Modell vor, das aus prätherapeutischen MRT-Bildern und Bestrahlungsdosisplänen realistische posttherapeutische Hirn-MRTs von Gliom-Patienten in Echtzeit generiert, um die adaptive Behandlungsplanung und die personalisierte Vorhersage von Therapieergebnissen zu unterstützen.

Selena Huisman, Nordin Belkacemi, Vera Keil, Joost Verhoeff, Szabolcs David2026-03-10💻 cs

Real-Time Drone Detection in Event Cameras via Per-Pixel Frequency Analysis

Die Studie stellt DDHF vor, ein Echtzeit-Verfahren zur Detektion von Drohnen in Event-Kamera-Daten mittels nicht-uniformer diskreter Fourier-Transformation, das durch rein analytische Frequenzanalysen eine höhere Genauigkeit und geringere Latenz als herkömmliche Deep-Learning-Modelle wie YOLO erreicht.

Michael Bezick, Majid Sahin2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

Das Paper stellt AULLM++ vor, ein auf Large Language Models basierendes Framework für die Mikroexpressionserkennung, das durch eine mehrstufige strukturelle Argumentation, die Fusion von visuellen und semantischen Merkmalen sowie die Modellierung von AU-Beziehungen den aktuellen Stand der Technik erreicht.

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

Das Paper stellt StructBiHOI vor, ein hierarchisches Framework, das durch die Entkopplung langfristiger Gelenkplanung und feinkörniger Manipulationsverfeinerung sowie den Einsatz eines Mamba-basierten Diffusionsdenoisers stabile und physikalisch plausible bimanuelle Hand-Objekt-Interaktionen über lange Zeiträume generiert.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

Die Arbeit stellt SPIRAL vor, ein geschlossenes Regelkreissystem für selbstverbessernde Aktions-Weltmodelle, das durch reflektierende Planungsagenten und iterative Verfeinerung die semantische Ausrichtung und zeitliche Konsistenz bei der Erzeugung langfristiger Videos verbessert.

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

Die Arbeit stellt GRACE vor, einen adaptiven Rahmen für das inkrementelle Klasslernen, der durch einen zyklischen Prozess aus Wachstum, Bewertung und Kompression das Vergessen minimiert und gleichzeitig den Speicherbedarf im Vergleich zu reinen Expansionsmethoden um bis zu 73 % reduziert.

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

Information Maximization for Long-Tailed Semi-Supervised Domain Generalization

Die Arbeit stellt IMaX vor, eine auf dem InfoMax-Prinzip basierende Methode, die durch Maximierung der gegenseitigen Information zwischen Merkmalen und latenten Labels unter Einbeziehung eines α-entropischen Ziels die Leistung von semi-überwachtem Domain-Generalization bei langschwanzigen Klassenverteilungen verbessert.

Leo Fillioux, Omprakash Chakraborty, Quentin Gopée, Pierre Marza, Paul-Henry Cournède, Stergios Christodoulidis, Maria Vakalopoulou, Ismail Ben Ayed, Jose Dolz2026-03-10💻 cs

Can Vision-Language Models Solve the Shell Game?

Die Studie stellt VET-Bench vor, einen Benchmark, der zeigt, dass aktuelle Vision-Language-Modelle beim Verfolgen ununterscheidbarer Objekte scheitern, und schlägt mit SGCoT eine Methode vor, die durch explizite Trajektorien-Generierung die Genauigkeit auf über 90 % steigert.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

Alfa: Attentive Low-Rank Filter Adaptation for Structure-Aware Cross-Domain Personalized Gaze Estimation

Die Arbeit stellt Alfa vor, eine Methode zur testzeitlichen Personalisierung von Blickschätzungsmodellen, die durch eine aufmerksamkeitsgesteuerte, niedrigrangige Filteranpassung vortrainierte Strukturen neu gewichtet, um mit wenigen ungelabelten Proben präzise, nutzerspezifische Anpassungen zu ermöglichen und dabei den aktuellen Stand der Technik zu übertreffen.

He-Yen Hsieh, Wei-Te Mark Ting, H. T. Kung2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Die Arbeit stellt X-AVDT vor, einen robusten Deepfake-Detektor, der durch die Analyse interner Audio-Visual-Cross-Attention-Mechanismen und die Einführung des neuen Multimodal-Datensatzes MMDF eine überlegene Generalisierungsfähigkeit gegenüber zukünftigen Generatoren erreicht.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

Die vorgestellte Arbeit schlägt Visual Self-Fulfilling Alignment (VSFA) vor, eine label-freie Methode, die durch das Feinabstimmen von Multimodalen Sprachmodellen auf neutrale Fragen zu bedrohlichen Bildern implizit Sicherheitsbewusstsein und wachsame Persönlichkeiten fördert, ohne explizite Sicherheitslabels zu benötigen.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

Das Paper stellt Spherical-GOF vor, ein geometrieawarees Framework zur 3D-Szenenrekonstruktion aus omnidirektionalen Bildern, das durch direkte Kugelfeld-Ray-Sampling und angepasste Filterung im sphärischen Raum Verzerrungen vermeidet und im Vergleich zu bestehenden Methoden deutlich verbesserte geometrische Konsistenz sowie Photometrie auf Benchmark-Datensätzen und einem neu eingeführten realen Roboter-Dataset (OmniRob) erreicht.

Zhe Yang, Guoqiang Zhao, Sheng Wu, Kai Luo, Kailun Yang2026-03-10💻 cs

OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

Die Arbeit stellt OccTrack360, ein neues Benchmark-Dataset für die 4D-panoptische Occupancy-Verfolgung aus Fisheye-Umgebungskameras, sowie das Framework FoSOcc vor, das durch spezielle Module für sphärische Projektion und räumliche Lokalisierung die Verfolgungsqualität verbessert.

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

Die Arbeit stellt den „Interactive World Simulator" vor, ein Framework, das auf Konsistenzmodellen basiert, um aus moderaten Roboterdatensätzen schnelle und physikalisch konsistente Weltmodelle zu erstellen, die sowohl das skalierbare Training von Roboterkontrollpolitiken als auch eine zuverlässige Evaluierung in der realen Welt ermöglichen.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Online Sparse Synthetic Aperture Radar Imaging

Die vorgestellte Arbeit stellt einen Online-FISTA-Algorithmus vor, der durch inkrementelle rekonstruktive Sparse Coding-Verfahren und eine speichereffiziente rekursive Aktualisierung die Echtzeit-Bildgebung von Synthetic Aperture Radar (SAR) auf ressourcenbeschränkten autonomen Drohnen ermöglicht und so komplexe nachgelagerte Aufgaben wie die automatische Zielidentifikation (ATR) direkt während der Datenerfassung unterstützt.

Conor Flynn, Radoslav Ivanov, Birsen Yazici2026-03-10💻 cs

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

Die Arbeit stellt DualFlexKAN vor, eine flexible Architektur für Kolmogorov-Arnold-Netzwerke mit einem zweistufigen Mechanismus zur unabhängigen Steuerung von Transformationen und Aktivierungen, die durch den Einsatz hybrider Basisfunktionen und konfigurierbarer Regularisierung die Skalierbarkeit und Effizienz gegenüber herkömmlichen KANs und MLPs signifikant verbessert.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

Das Paper stellt PRISM vor, ein einheitliches Modell für die Streaming-Generierung menschlicher Bewegungen, das durch einen joint-faktorisierten latenten Raum und eine rauschfreie Bedingungsinjektion die Entanglement-Probleme bestehender Autoencoder löst und gleichzeitig Text-zu-Bewegung, pose-bedingte Generierung sowie autoregressive Sequenzsynthese in einem einzigen Framework vereint.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Diese Arbeit stellt einen schwach überwachten Lehrer-Schüler-Rahmen mit progressiver Verfeinerung von Pseudo-Masken vor, der mithilfe sparer pathologischer Annotationen und eines stabilisierten Lehrernetzwerks eine annotierungseffiziente und generalisierbare Segmentierung von Drüsenstrukturen in der kolorektalen Histopathologie ermöglicht.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

← Zurück Weiter →