Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Die Arbeit stellt Place-it-R1 vor, ein End-zu-End-Framework, das die Chain-of-Thought-Reasoning-Fähigkeiten von Multimodalen Large Language Models nutzt, um physikalisch konsistente und umweltbewusste Video-Objekteinfügungen durch einen iterativen „Denken-dann-Einfügen"-Prozess zu ermöglichen.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Diese Studie stellt einen virtuellen Behandlungsrahmen (VT) vor, der mithilfe von multimodalen, dosisbewussten generativen Modellen – insbesondere Diffusionsmodellen, die GANs übertreffen – realistische CT-Bilder zur Vorhersage der Tumorprogression bei NSCLC-Patienten während der Strahlentherapie synthetisiert, um die Überwachung und adaptive Therapie zu unterstützen.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Die vorgestellte Arbeit stellt ein semi-überwachtes Framework zur Segmentierung von Brustultraschallbildern vor, das durch training-freie, auf visuellen Beschreibungen basierende Pseudo-Label-Generierung und eine adaptive Unsicherheitssteuerung selbst bei nur 2,5 % gelabelten Daten eine Leistung erzielt, die mit vollüberwachten Modellen vergleichbar ist.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Das Paper stellt JOPP-3D vor, ein Framework für die offene Vokabular-Semantiksegmentierung, das durch die gemeinsame Nutzung und Ausrichtung von 3D-Punktwolken und Panorama-Bildern eine sprachgesteuerte Szeneninterpretation ermöglicht und dabei den aktuellen Stand der Technik in 2D- und 3D-Segmentierungsaufgaben deutlich übertrifft.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Diese Arbeit stellt ein Verfahren vor, das 3D-Diffusionsmodelle für die medizinische Bildgebung durch Feinabstimmung mit Bestärkendem Lernen und einem neuartigen Multi-Scale-Belohnungssystem optimiert, wodurch sowohl die Bildqualität als auch die Leistung bei nachgelagerten Klassifizierungsaufgaben signifikant verbessert werden.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

Die Arbeit stellt zwei neue Techniken vor, die die Skalierbarkeit von training-freien Diffusions-Segmentatoren verbessern, indem sie die Diskrepanz zwischen einzelnen Aufmerksamkeitskarten und einer globalen Repräsentation sowie Ungleichgewichte in den Text-Token-Scores überbrücken, um so die generative Kraft moderner Modelle effektiv für die semantische Segmentierung nutzbar zu machen.

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Die Autoren stellen den „Motion Turing Test" und das dazugehörige HHMotion-Dataset vor, um die menschliche Ähnlichkeit von Humanoid-Robotern ausschließlich anhand kinematischer Daten zu bewerten und zeigen dabei, dass aktuelle multimodale Large Language Models für diese Aufgabe ungeeignet sind, während ein einfacher Baseline-Ansatz überlegene Ergebnisse liefert.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Das Paper stellt CRIMSON vor, ein klinisch fundiertes Evaluierungsframework für die Generierung von Röntgenbefunden, das mithilfe einer detaillierten Fehler-Taxonomie und gewichteten klinischen Bedeutungen eine genauere Bewertung der diagnostischen Korrektheit und Patientensicherheit im Vergleich zu bestehenden Metriken ermöglicht.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

Das Paper stellt SpaCRD vor, eine Transfer-Learning-Methode, die Histologiebilder und räumliche Transkriptomikdaten durch ein bidirektionales Cross-Attention-Fusionsnetzwerk integriert, um die Erkennung von Krebsregionen über verschiedene Proben, Plattformen und Chargen hinweg präziser und robuster zu gestalten als bisherige Verfahren.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs