cs.CV Arbeiten | Gist.Science

A Patient-Specific Digital Twin for Adaptive Radiotherapy of Non-Small Cell Lung Cancer

Die Studie stellt COMPASS vor, ein auf künstlicher Intelligenz basierendes digitales Zwillingssystem, das durch die Analyse zeitlicher Verläufe von Bilddaten und Dosisparametern bei NSCLC-Patienten eine personalisierte, adaptive Strahlentherapie ermöglicht und eine frühzeitige Vorhersage von Nebenwirkungen erlaubt.

Anvi Sud, Jialu Huang, Gregory R. Hart + 4 more2026-02-24💻 cs

Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality

Die Studie stellt MARVUS vor, ein ressourceneffizientes mobiles Augmented-Reality-System, das die Genauigkeit und Reproduzierbarkeit der volumetrischen Ultraschallbildgebung für die Onkologie verbessert, indem es herkömmliche 2D-Geräte mit einem Fundamentmodell kombiniert und dabei auf teure Spezialhardware verzichtet.

Kian Wei Ng, Yujia Gao, Deborah Khoo + 7 more2026-02-24💻 cs

Mitigating Shortcut Learning via Feature Disentanglement in Medical Imaging: A Benchmark Study

Diese Benchmark-Studie zeigt, dass die Kombination datenzentrierter Neugewichtung mit modellzentrierter Feature-Disentanglement-Methodik in der medizinischen Bildgebung effektiver als einzelne Ansätze ist, um Shortcut-Learning zu mindern und die Robustheit von Deep-Learning-Modellen gegenüber störenden Faktoren zu erhöhen.

Sarah Müller, Philipp Berens2026-02-24🤖 cs.LG

A Computer Vision Framework for Multi-Class Detection and Tracking in Soccer Broadcast Footage

Diese Arbeit stellt ein kostengünstiges, auf einer einzigen Kamera basierendes Computer-Vision-Framework vor, das mit YOLO und ByteTrack Spieler, Schiedsrichter und den Ball in Fußballübertragungen erkennt und verfolgt, um auch Vereinen mit begrenztem Budget datengestützte Analysen zu ermöglichen, wobei die Ballerkennung weiterhin eine Herausforderung darstellt.

Daniel Tshiani2026-02-24🤖 cs.AI

Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Diese Arbeit stellt fest, dass die meisten bestehenden Methoden zum maschinellen Vergessen sensitive Informationen nur auf Entscheidungsebene unterdrücken, aber auf Repräsentationsebene erhalten bleiben, was durch ein neuartiges, auf Sparse Autoencodern basierendes Analyseframework nachgewiesen wird und die Notwendigkeit neuer Evaluierungsrichtlinien unterstreicht.

Yurim Jang, Jaeung Lee, Dohyun Kim + 2 more2026-02-24💻 cs

Wide Open Gazes: Quantifying Visual Exploratory Behavior in Soccer with Pose Enhanced Positional Data

Diese Studie stellt eine neue, auf Pose-Daten basierende Methode vor, die das visuelle Explorationsverhalten von Fußballspielern kontinuierlich quantifiziert und damit positionunabhängig sowie ohne manuelle Annotationen vorhersagbare Erkenntnisse über den zukünftigen Spielwert liefert.

Joris Bekkers2026-02-24🤖 cs.LG

Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

Die Arbeit stellt Sketch2Feedback vor, ein Grammar-in-the-Loop-Framework für STEM-Diagramme, das durch die Kombination von symbolischer Regelprüfung und multimodalen Modellen hallucinationsarmes, rubrikkonformes Feedback liefert, wobei die Evaluation auf synthetischen Daten zeigt, dass dieser Ansatz zwar die Halluzinationsraten senkt und die Handlungsfähigkeit des Feedbacks verbessert, jedoch eine komplexe Abwägung zwischen Genauigkeit und Robustheit bei verschiedenen Diagrammtypen erfordert.

Aayam Bansal2026-02-24🤖 cs.AI

Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity

Die Studie zeigt, dass generative Metriken die Leistung von YOLOv11 bei der Objekterkennung nur regimeabhängig vorhersagen können, wobei synthetische Daten in komplexen Szenarien deutliche Verbesserungen bringen, während globale Metriken wie FID oft keine zuverlässigen Korrelationen mit dem mAP aufweisen.

Vasile Marian, Yong-Bin Kang, Alexander Buddery2026-02-24🤖 cs.LG

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Die Arbeit stellt JAEGER vor, ein Framework, das Audio-Visual-Large-Language-Modelle durch die Integration von RGB-D-Daten und mehrkanaliger Ambisonics-Audio sowie einer neuartigen neuronalen Intensitätsvektor-Darstellung auf den 3D-Raum erweitert, um eine robuste räumliche Verankerung und Schlussfolgerung in physikalischen Umgebungen zu ermöglichen.

Zhan Liu, Changli Tang, Yuxin Wang + 7 more2026-02-24🤖 cs.AI

Image-Based Classification of Olive Varieties Native to Turkiye Using Multiple Deep Learning Architectures: Analysis of Performance, Complexity, and Generalization

Diese Studie vergleicht zehn Deep-Learning-Architekturen zur Bildklassifizierung von fünf türkischen Olivensorten und zeigt, dass unter begrenzten Datenbedingungen parametrische Effizienz entscheidender ist als reine Modelltiefe, wobei EfficientNetV2-S die höchste Genauigkeit und EfficientNetB0 den besten Kompromiss zwischen Leistung und Rechenaufwand bietet.

Hatice Karatas, Irfan Atabas2026-02-24💻 cs

VLANeXt: Recipes for Building Strong VLA Models

Das Paper stellt VLANeXt vor, ein effizientes Vision-Language-Action-Modell, das durch eine systematische Analyse und Vereinheitlichung von Designentscheidungen den aktuellen Forschungsstand auf Benchmarks wie LIBERO übertrifft und durch eine offene Codebasis die Reproduzierbarkeit sowie Weiterentwicklung in der Community fördert.

Xiao-Ming Wu, Bin Fan, Kang Liao + 6 more2026-02-24🤖 cs.AI

Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Die Studie zeigt, dass morphologische Strukturen – sei es durch deskriptive Merkmale oder phonesthemische Klangmuster in Prompts – in Text-zu-Bild-Diffusionsmodellen systematisch navigierbare Gradienten erzeugen, die es ermöglichen, spezifische Identitätsbasen ohne Referenzbilder zu formen und neue visuelle Konzepte zu generieren.

Andrew Fraser2026-02-24💻 cs

Triggering hallucinations in model-based MRI reconstruction via adversarial perturbations

Diese Studie zeigt, dass generative Modelle zur Rekonstruktion von Magnetresonanzbildern durch kleine, adversarische Störungen leicht zu Halluzinationen verleitet werden können, die herkömmliche Qualitätsmetriken nicht zuverlässig erkennen und somit ein Risiko für Fehldiagnosen darstellen.

Suna Buğday, Yvan Saeys, Jonathan Peck2026-02-24⚡ eess

Rodent-Bench

Die Studie stellt Rodent-Bench vor, einen neuen Benchmark zur Bewertung der Fähigkeiten von multimodalen Sprachmodellen bei der Annotation von Nagetier-Verhaltensvideos, und zeigt auf, dass aktuelle State-of-the-Art-Modelle für diese wissenschaftliche Aufgabe aufgrund erheblicher Schwierigkeiten bei der zeitlichen Segmentierung und der Unterscheidung subtiler Verhaltenszustände noch nicht einsatzfähig sind.

Thomas Heap, Laurence Aitchison, Emma Cahill + 1 more2026-02-24🤖 cs.AI

4D-UNet improves clutter rejection in human transcranial contrast enhanced ultrasound

Diese Studie stellt einen neuen 4D-U-Net-Ansatz vor, der durch die Integration von räumlichen und zeitlichen Informationen die Unterdrückung von Störsignalen in der transkraniellen Kontrastmittel-Ultraschallbildgebung beim Menschen verbessert und so die Visualisierung neurovaskulärer Strukturen ermöglicht.

Tristan Beruard, Armand Delbos, Arthur Chavignon + 2 more2026-02-24⚡ eess

GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry

Die Arbeit stellt GIST vor, eine Methode zur gezielten Datenselektion für das Instruction Tuning, die durch die Berücksichtigung der gekoppelten Optimierungsgeometrie bei Parameter-effizientem Fine-Tuning (PEFT) den State-of-the-art mit deutlich geringerem Speicher- und Rechenaufwand erreicht.

Guanghui Min, Tianhao Huang, Ke Wan + 1 more2026-02-24🤖 cs.LG

BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

Diese Studie stellt den neuen FloralSix-Datensatz vor und zeigt, dass YOLOv8m und YOLOv12n unter Verwendung des SGD-Optimierers je nach Annotierungsdichte (einzelne vs. mehrere Bounding-Boxen) und Umgebungsbedingungen (isoliert vs. dicht) unterschiedlich optimiert sind, um die präzise Blumenerkennung für landwirtschaftliche Anwendungen zu verbessern.

Safwat Nusrat, Prithwiraj Bhattacharjee2026-02-24🤖 cs.AI

DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Die Arbeit stellt DM4CT, ein umfassendes Benchmark-System vor, das die Leistungsfähigkeit und Grenzen von Diffusionsmodellen im Vergleich zu etablierten Rekonstruktionsmethoden bei der Computertomographie unter realen experimentellen Bedingungen systematisch evaluiert.

Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg2026-02-24⚡ eess

Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Diese Studie zeigt, dass das Fine-Tuning von Vision-Transformern mit kleineren Patch-Größen (1, 2 und 4) die Klassifizierungsleistung in medizinischen 2D- und 3D-Bilddatensätzen signifikant verbessert, wobei eine Ensemble-Methode diese Ergebnisse weiter steigert.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod2026-02-24💻 cs

Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

Die Arbeit stellt einen neuartigen Ansatz vor, der aus einem statischen Bild, einer Sprachprofil- und einem Zieltext realistische sprechende Gesichter und Stimmen erzeugt, indem ein multi-verflochtener latenter Raum genutzt wird, um die räumlich-zeitlichen, personenbezogenen Merkmale zwischen den Audio- und Videomodaliäten zu verknüpfen.

Aashish Chandra, Aashutosh A, Abhijit Das2026-02-24💻 cs

← Zurück Weiter →