cs.CV Arbeiten | Gist.Science

Cross-Resolution Distribution Matching for Diffusion Distillation

Die Arbeit stellt RMD vor, ein neues Distillations-Framework, das durch cross-auflösungsabhängige Verteilungsmatching und logSNR-basierte Abbildung die Lücke zwischen niedrigen und hohen Auflösungen schließt, um eine hochqualitative Bild- und Videogenerierung mit bis zu 33,4-facher Beschleunigung zu ermöglichen.

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Die Arbeit stellt Place-it-R1 vor, ein End-zu-End-Framework, das die Chain-of-Thought-Reasoning-Fähigkeiten von Multimodalen Large Language Models nutzt, um physikalisch konsistente und umweltbewusste Video-Objekteinfügungen durch einen iterativen „Denken-dann-Einfügen"-Prozess zu ermöglichen.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

Diese Studie zeigt, dass Vision-Language-Modelle bei räumlichen Farbmischungs-Verzerrungen signifikant schlechter abschneiden als Menschen und dass eine menschenähnliche Vorverarbeitung die Robustheit dieser Modelle verbessern kann.

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Diese Studie stellt einen virtuellen Behandlungsrahmen (VT) vor, der mithilfe von multimodalen, dosisbewussten generativen Modellen – insbesondere Diffusionsmodellen, die GANs übertreffen – realistische CT-Bilder zur Vorhersage der Tumorprogression bei NSCLC-Patienten während der Strahlentherapie synthetisiert, um die Überwachung und adaptive Therapie zu unterstützen.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Die Studie stellt VLM-RobustBench vor, einen umfassenden Benchmark, der zeigt, dass aktuelle Vision-Language-Modelle trotz starker semantischer Fähigkeiten gegenüber räumlichen Verzerrungen und Resampling-Problemen besonders anfällig sind, was neue Evaluierungs- und Trainingsansätze erfordert.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Die Arbeit stellt RF-Sampling vor, ein theoretisch fundiertes und training-freies Inferenz-Verfahren, das die Bildgenerierungsqualität und Prompt-Übereinstimmung von Flow-Matching-Modellen wie FLUX durch eine formale Herleitung der Gradientenanstiegs-Optimierung verbessert.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

Die Arbeit stellt FreeOcc vor, eine trainingsfreie Pipeline, die vortrainierte Fundamentmodelle nutzt, um aus Multi-View-Bildern semantische und panoptische 3D-Besetzungsdaten ohne domänenspezifisches Training zu rekonstruieren und dabei den Stand der Technik bei trainingsfreien und schwach überwachten Ansätzen erreicht.

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Die vorgestellte Arbeit stellt ein semi-überwachtes Framework zur Segmentierung von Brustultraschallbildern vor, das durch training-freie, auf visuellen Beschreibungen basierende Pseudo-Label-Generierung und eine adaptive Unsicherheitssteuerung selbst bei nur 2,5 % gelabelten Daten eine Leistung erzielt, die mit vollüberwachten Modellen vergleichbar ist.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Das Paper stellt JOPP-3D vor, ein Framework für die offene Vokabular-Semantiksegmentierung, das durch die gemeinsame Nutzung und Ausrichtung von 3D-Punktwolken und Panorama-Bildern eine sprachgesteuerte Szeneninterpretation ermöglicht und dabei den aktuellen Stand der Technik in 2D- und 3D-Segmentierungsaufgaben deutlich übertrifft.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Diese Arbeit stellt ein Verfahren vor, das 3D-Diffusionsmodelle für die medizinische Bildgebung durch Feinabstimmung mit Bestärkendem Lernen und einem neuartigen Multi-Scale-Belohnungssystem optimiert, wodurch sowohl die Bildqualität als auch die Leistung bei nachgelagerten Klassifizierungsaufgaben signifikant verbessert werden.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

Die Arbeit stellt zwei neue Techniken vor, die die Skalierbarkeit von training-freien Diffusions-Segmentatoren verbessern, indem sie die Diskrepanz zwischen einzelnen Aufmerksamkeitskarten und einer globalen Repräsentation sowie Ungleichgewichte in den Text-Token-Scores überbrücken, um so die generative Kraft moderner Modelle effektiv für die semantische Segmentierung nutzbar zu machen.

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Die vorgestellte Arbeit schlägt ein zweistufiges Framework vor, das durch den Übergang von kontrastivem Lernen auf künstlichen Alphabeten zu selbstüberwachtem Wissenstransfer auf historische Schriften eine robuste Ähnlichkeitsmessung für Glyphen ermöglicht, ohne dass ground-truth evolutionäre Beziehungen erforderlich sind.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Die Autoren stellen den „Motion Turing Test" und das dazugehörige HHMotion-Dataset vor, um die menschliche Ähnlichkeit von Humanoid-Robotern ausschließlich anhand kinematischer Daten zu bewerten und zeigen dabei, dass aktuelle multimodale Large Language Models für diese Aufgabe ungeeignet sind, während ein einfacher Baseline-Ansatz überlegene Ergebnisse liefert.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Das Paper stellt CRIMSON vor, ein klinisch fundiertes Evaluierungsframework für die Generierung von Röntgenbefunden, das mithilfe einer detaillierten Fehler-Taxonomie und gewichteten klinischen Bedeutungen eine genauere Bewertung der diagnostischen Korrektheit und Patientensicherheit im Vergleich zu bestehenden Metriken ermöglicht.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

Das Paper stellt SpaCRD vor, eine Transfer-Learning-Methode, die Histologiebilder und räumliche Transkriptomikdaten durch ein bidirektionales Cross-Attention-Fusionsnetzwerk integriert, um die Erkennung von Krebsregionen über verschiedene Proben, Plattformen und Chargen hinweg präziser und robuster zu gestalten als bisherige Verfahren.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Adaptive Language-Aware Image Reflection Removal Network

Das Paper stellt ALANet vor, ein adaptives sprachbewusstes Netzwerk, das durch Filter- und Optimierungsstrategien auch bei ungenauen Sprachbeschreibungen komplexe Bildreflexionen effektiv entfernt, und führt zudem den CRLAV-Datensatz zur Evaluierung ein.

Siyan Fang, Yuntao Wang, Jinpu Zhang, Ziwen Li, Yuehuan Wang2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

Diese Arbeit stellt einen neuartigen, punkt-supervidierten Rahmen für die skelettbasierte menschliche Aktionssegmentierung vor, der durch die Nutzung multimodaler Daten und fortschrittlicher Pseudo-Label-Methoden eine wettbewerbsfähige Leistung erzielt und dabei den Annotationsaufwand im Vergleich zu vollüberwachten Ansätzen erheblich reduziert.

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

Die Arbeit stellt VG3S vor, ein Framework, das durch die Integration geometrischer Vorwissen aus Vision Foundation Models die Genauigkeit der semantischen 3D-Besetzungsprognose für autonomes Fahren signifikant verbessert.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

Die Arbeit stellt CoE vor, ein trainingsfreies multimodales Zusammenfassungsframework, das mithilfe eines hierarchischen Ereignisgraphen und einer Chain-of-Events-Strategie die Grenzen bestehender Ansätze überwindet und durch strukturierte zeitliche sowie kausale Reasoning-Verfahren state-of-the-art Ergebnisse auf acht Datensätzen erzielt.

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

Die Arbeit stellt EntON vor, eine neuartige Strategie zur eigenentropieoptimierten Nachbarschaftsdichteverdichtung in 3D-Gaussian-Splatting, die durch einen geometriebewussten, alternierenden Optimierungsansatz die geometrische Genauigkeit und Renderqualität verbessert, gleichzeitig die Anzahl der Gauss-Funktionen und die Trainingszeit reduziert.

Miriam Jäger, Boris Jutzi2026-03-09💻 cs

← Zurück Weiter →