cs.CV Arbeiten | Gist.Science

You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models

Die Studie stellt GUARD vor, ein neuartiges Framework zur präzisen Minderung von Memorization in Text-zu-Bild-Diffusionsmodellen, das durch eine dynamische, prompt-spezifische Abschwächung der Cross-Attention während der Inferenz die Wiedergabe von Trainingsdaten verhindert, ohne dabei die Bildqualität zu beeinträchtigen.

Kairan Zhao, Eleni Triantafillou, Peter Triantafillou2026-03-03🤖 cs.AI

TinyVLM: Zero-Shot Object Detection on Microcontrollers via Vision-Language Distillation with Matryoshka Embeddings

Die Arbeit stellt TinyVLM vor, ein Framework, das durch eine entkoppelte Architektur, Matryoshka-Distillation und quantisierte Embeddings erstmals eine Zero-Shot-Objekterkennung auf ressourcenbeschränkten Mikrocontrollern mit weniger als 1 MB Speicher ermöglicht.

Bibin Wilson2026-03-03🤖 cs.AI

Latent Replay Detection: Memory-Efficient Continual Object Detection on Microcontrollers via Task-Adaptive Compression

Die vorgestellte Arbeit stellt Latent Replay Detection (LRD) vor, ein bahnbrechendes Framework für das kontinuierliche Lernen von Objekterkennung auf Mikrocontrollern, das durch task-adaptive Kompression und räumlich diverse Exemplarauswahl die Speichereinschränkungen von nur 64 KB überwindet und so erstmals eine effiziente Nachtrainingsfähigkeit auf Edge-Geräten ermöglicht.

Bibin Wilson2026-03-03💻 cs

Towards Data-driven Nitrogen Estimation in Wheat Fields using Multispectral Images

Die Arbeit stellt TerrAI, ein neuronales Netzwerk zur datengestützten Schätzung des Stickstoffbedarfs in Weizenfeldern mittels multispektraler Bilder, vor, um eine präzise und nachhaltige Düngung zu ermöglichen.

Andreas Tritsarolis, Tomaž Bokan, Matej Brumen + 2 more2026-03-03💻 cs

Steering Away from Memorization: Reachability-Constrained Reinforcement Learning for Text-to-Image Diffusion

Die Arbeit stellt RADS vor, ein Inferenzzeit-Framework, das durch reachability-constrained Reinforcement Learning die Memorierung in Text-zu-Bild-Diffusionsmodellen verhindert, ohne dabei die Bildqualität oder Prompt-Übereinstimmung zu beeinträchtigen.

Sathwik Karnik, Juyeop Kim, Sanmi Koyejo + 2 more2026-03-03🤖 cs.AI

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

Die Arbeit stellt ADE-CoT vor, ein adaptives Testzeit-Scaling-Framework für die Bildbearbeitung, das durch difficulty-awaree Ressourcenverteilung, edit-spezifische Verifikation und opportunistisches Stoppen die Effizienz und Leistung bestehender Modelle im Vergleich zu Best-of-N-Methoden bei mehr als doppelter Geschwindigkeit signifikant verbessert.

Xiangyan Qu, Zhenlong Yuan, Jing Tang + 9 more2026-03-03⚡ eess

GrapHist: Graph Self-Supervised Learning for Histopathology

Das Paper stellt GrapHist vor, ein neuartiges selbstüberwachtes Graph-Lernframework für die Histopathologie, das Masked Autoencoder und heterophile Graph-Neuronale Netze nutzt, um biologisch fundierte Einbettungen zu erlernen, die bei gleichzeitiger Reduktion der Parameterzahl um das Vierfache eine überlegene Leistung in verschiedenen Aufgaben und eine hohe Übertragbarkeit auf neue Domänen bieten.

Sevda Öğüt, Cédric Vincent-Cuaz, Natalia Dubljevic + 4 more2026-03-03🤖 cs.LG

Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

Die Arbeit stellt DHVAE vor, einen entkoppelten hierarchischen VAE mit latentem Diffusionsprozess, der durch eine CoTransformer-Architektur und kontrastives Lernen realistische und physikalisch plausible 3D-Interaktionen zwischen Menschen generiert.

Zichen Geng, Zeeshan Hayder, Bo Miao + 3 more2026-03-03🤖 cs.AI

M-Gaussian: An Magnetic Gaussian Framework for Efficient Multi-Stack MRI Reconstruction

Das Papier stellt M-Gaussian vor, ein effizientes Framework, das 3D-Gaussian-Splatting anpasst, um aus multi-stack MRI-Daten hochwertige, isotrope Volumina mit deutlich verbesserter Rechengeschwindigkeit im Vergleich zu bisherigen Methoden zu rekonstruieren.

Kangyuan Zheng, Xuan Cai, Jiangqi Wang + 6 more2026-03-03🤖 cs.AI

Mechanistically Guided LoRA Improves Paraphrase Consistency in Medical Vision-Language Models

Die Studie zeigt, dass ein mechanistisch geleiteter LoRA-Ansatz, der Sparse Autoencoder auf MedGemma-4B anwendet und eine kombinierte Verlustfunktion nutzt, die Paraphrasen-Konsistenz medizinischer Bild-Sprach-Modelle signifikant verbessert, ohne deren Antwortgenauigkeit zu beeinträchtigen.

Binesh Sadanandan, Vahid Behzadan2026-03-03💻 cs

Physics-Consistent Diffusion for Efficient Fluid Super-Resolution via Multiscale Residual Correction

Das Paper stellt ReMD vor, ein physik-konsistentes Diffusionsframework, das durch Multigrid-Residuenkorrektur und eine Multi-Wavelet-Basis eine effiziente und physikalisch korrekte Super-Resolution von Fluiden mit hoher spektraler Treue und deutlich weniger Sampling-Schritten ermöglicht.

Zhihao Li, Shengwei Dong, Chuang Yi + 5 more2026-03-03🤖 cs.AI

Attention to Neural Plagiarism: Diffusion Models Can Plagiarize Your Copyrighted Images!

Diese Arbeit zeigt, dass Diffusionsmodelle urheberrechtlich geschützte Bilder durch eine rein gradientenbasierte Methode namens „Anker und Shim" replizieren können, die selbst fortschrittliche Wasserzeichen und andere Schutzmechanismen umgeht.

Zihang Zou, Boqing Gong, Liqiang Wang2026-03-03💻 cs

Multiview Progress Prediction of Robot Activities

Dieses Papier stellt eine Multi-View-Architektur zur Vorhersage des Fortschritts von Roboter-Manipulationsaufgaben vor, die das Problem der Selbstverdeckung durch den Einsatz mehrerer Kameras löst und auf dem Mobile ALOHA-Datensatz erfolgreich validiert wurde.

Elena Zoppellari, Federico Becattini, Marco Fiorucci + 1 more2026-03-03💻 cs

EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection

Der Artikel stellt EfficientPosterGen vor, ein effizientes End-zu-End-Framework zur automatischen Erstellung wissenschaftlicher Poster, das durch semantische Informationsreduktion, visuelle Kontextkomprimierung und einen agentenfreien Layout-Verifikationsalgorithmus die Token-Nutzung minimiert und gleichzeitig die Layout-Zuverlässigkeit sowie die Informationsdichte verbessert.

Wenxin Tang, Jingyu Xiao, Yanpei Gong + 6 more2026-03-03🤖 cs.AI

BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation

Das Paper stellt BiCLIP vor, ein bidirektionales und konsistentes Sprach-Bild-Verarbeitungsframework, das durch iterative Merkmalsverfeinerung und Augmentationskonsistenz die Robustheit der medizinischen Bildsegmentierung unter klinischen Bedingungen mit wenigen Annotationen und Bildartefakten signifikant verbessert.

Saivan Talaei, Fatemeh Daneshfar, Abdulhady Abas Abdullah + 1 more2026-03-03💻 cs

FujiView: Multimodal Late-Fusion for Predicting Scenic Visibility

Die Studie stellt FujiView vor, ein multimodales Late-Fusion-Framework, das Webcam-Bilder mit meteorologischen Daten kombiniert, um die Sichtbarkeit des Berges Fuji präzise vorherzusagen und dabei eine Genauigkeit von bis zu 89 % für Tagesprognosen erreicht.

Bryceton Bible, Shah Md Nehal Hasnaeen, Hairong Qi2026-03-03💻 cs

FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation

Der Artikel stellt FlowPortrait vor, ein Reinforcement-Learning-Framework, das mittels eines auf Multimodalen Large Language Models basierenden Bewertungssystems und Group Relative Policy Optimization realistische, lippen-synchrone Porträtvideos aus Audio generiert und dabei bestehende Probleme wie unnatürliche Bewegungen und unzureichende Evaluierungsmetriken überwindet.

Weiting Tan, Andy T. Liu, Ming Tu + 3 more2026-03-03🤖 cs.AI

DINOv3 Meets YOLO26 for Weed Detection in Vegetable Crops

Diese Studie stellt ein robustes Unkrauterkennungsmodell für Gemüseanbau vor, das durch die Feinabstimmung eines DINOv3-Vision-Transformers auf einem großen, kuratierten Datensatz und dessen Integration in die YOLO26-Architektur die Genauigkeit und Domänenübergreifende Generalisierung im Vergleich zu Standardmodellen signifikant verbessert, während es dennoch Echtzeit-Leistung beibehält.

Boyang Deng, Yuzhen Lu2026-03-03🤖 cs.AI

SKINOPATHY AI: Smartphone-Based Ophthalmic Screening and Longitudinal Tracking Using Lightweight Computer Vision

Der Artikel stellt SKINOPATHY AI vor, eine smartphonebasierte Webanwendung, die mithilfe von leichtgewichtiger Computervision fünf erklärbare Screening-Module für die Augenheilkunde in ressourcenarmen Umgebungen ohne Cloud-Inferenz bereitstellt und so eine datenschutzkonforme, nicht-diagnostische Früherkennung ermöglicht.

S. Kalaycioglu, C. Hong, M. Zhu + 1 more2026-03-03🤖 cs.LG

GazeXPErT: An Expert Eye-tracking Dataset for Interpretable and Explainable AI in Oncologic FDG-PET/CT Scans

Das Paper stellt GazeXPErT vor, ein einzigartiges 4D-Augenzug-Datenset von Experten für FDG-PET/CT-Scans, das durch die Integration von Blickbewegungsmustern in KI-Modelle die Genauigkeit der Tumorsegmentierung und die Erklärbarkeit medizinischer Diagnosen signifikant verbessert.

Joy T Wu, Daniel Beckmann, Sarah Miller + 15 more2026-03-03⚡ eess

← Zurück Weiter →