CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Die Studie stellt CLoPA vor, eine kontinuierliche Anpassungsstrategie, die durch das Feinabstimmen eines kleinen Teils der Parameter des nnInteractive-Modells auf annotierten Daten die Segmentierungsleistung in der medizinischen Bildgebung schnell auf Expertenniveau hebt, ohne neue Parameter oder Änderungen am Inferenzprozess zu erfordern.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Das Paper stellt Pinterest Canvas vor, ein groß angelegtes Bildgenerierungssystem, das auf einem vielseitigen Basis-Modell aufbaut und durch schnelle, aufgabenspezifische Feinabstimmungen spezialisierte Modelle für Bildbearbeitung und -verbesserung erstellt, die in A/B-Tests signifikant höhere Nutzerinteraktionen und eine bessere Leistung als Drittanbietermodelle erzielen.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

GreenRFM: Toward a resource-efficient radiology foundation model

Die Studie stellt GreenRFM vor, ein ressourceneffizientes Vorab-Trainingsframework für radiologische Fundamentmodelle, das durch eine optimierte „MUST"-Supervision statt reiner Skalierung State-of-the-Art-Ergebnisse auf verschiedenen Modalitäten mit deutlich reduziertem Rechenaufwand erzielt und damit die Abhängigkeit von massiven Rechenressourcen in Frage stellt.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

Das Paper stellt Match4Annotate vor, ein leichtgewichtiges Framework, das durch testzeitoptimierte, implizite neuronale Feature-Matching-Verfahren sowohl innerhalb als auch zwischen Videos spärliche Punkt- und Maskenannotationen in medizinischen Ultraschalldatensätzen effizient propagiert und dabei den aktuellen Stand der Technik übertrifft.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

Die Arbeit stellt Self-Flow vor, ein selbstüberwachtes Flow-Matching-Verfahren, das durch einen Dual-Timestep-Scheduling-Mechanismus die Lernung starker semantischer Repräsentationen direkt in den generativen Rahmen integriert und so eine skalierbare, multimodale Synthese ohne externe Modelle ermöglicht.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed 💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Diese Studie präsentiert ein KI-System, das auf über 45.000 Ultraschallbildern trainiert wurde, um fetale Gesichtsfehlbildungen mit einer Genauigkeit zu erkennen, die der von erfahrenen Radiologen entspricht und die von weniger erfahrenen Fachkräften deutlich übertrifft, während es gleichzeitig als effektives Lernwerkzeug zur Beschleunigung der Ausbildung in diesem seltenen medizinischen Bereich dient.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

Die Arbeit stellt SurgFormer vor, einen skalierbaren multiresolutiven Gated-Transformer, der auf XFEM-simulierten Daten trainiert wurde, um sowohl die Verformung als auch die Resektion von Weichgewebe in volumetrischen Netzen mit hoher Genauigkeit und Echtzeit-Geschwindigkeit vorherzusagen.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

Die Arbeit stellt EgoReasoner vor, ein zweistufiges Framework, das durch aufgabenadaptive Denkvorlagen und belohnungsgesteuertes Feinabstimmen strukturiertes 4D-Reasoning für Egocentric-Videos ermöglicht und damit auf dem HD-EPIC-Benchmark signifikant bessere Ergebnisse erzielt als größere Modelle.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Die Arbeit stellt Penguin-VL vor, ein effizientes Vision-Language-Modell, das durch den Einsatz eines auf einem reinen Text-LLM initialisierten Vision-Encoders statt traditioneller kontrastiver Vortrainings feinere visuelle Details bewahrt und damit auf ressourcenbeschränkten Geräten überlegene Leistungen in Aufgaben wie Dokumentenverständnis und komplexem Schlussfolgern erzielt.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Das Paper stellt SUREON vor, einen umfassenden Video-QA-Datensatz und ein darauf trainiertes Vision-Language-Modell, das durch die Extraktion von Experten-Narrationen aus chirurgischen Lehrvideos die Fähigkeit zur chirurgischen Reasoning (Schlussfolgerung) entwickelt und dabei bestehende Modelle in Sicherheitsbewertungen, Entscheidungsanalysen und Prognosen deutlich übertrifft.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI