cs.CV Arbeiten | Gist.Science

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Die Studie stellt CLoPA vor, eine kontinuierliche Anpassungsstrategie, die durch das Feinabstimmen eines kleinen Teils der Parameter des nnInteractive-Modells auf annotierten Daten die Segmentierungsleistung in der medizinischen Bildgebung schnell auf Expertenniveau hebt, ohne neue Parameter oder Änderungen am Inferenzprozess zu erfordern.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

Die Arbeit stellt WanderDream vor, den ersten groß angelegten Datensatz für die mentale Simulation von Erkundungsbewegungen, der es KI-Modellen ermöglicht, räumliche „Was-wäre-wenn"-Fragen zu beantworten, ohne physisch aktiv erkunden zu müssen.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Das Paper stellt CaTok vor, einen eindimensionalen kausalen Bild-Tokenizer mit einem MeanFlow-Decodierer und einer neuen Regularisierungsmethode REPA-A, der durch die Vermeidung nicht-kausaler Sequenzen und die Nutzung von Vision Foundation Models state-of-the-art-Ergebnisse bei der Bildrekonstruktion und der nächsten-Token-Vorhersage erzielt.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Das Paper stellt Pinterest Canvas vor, ein groß angelegtes Bildgenerierungssystem, das auf einem vielseitigen Basis-Modell aufbaut und durch schnelle, aufgabenspezifische Feinabstimmungen spezialisierte Modelle für Bildbearbeitung und -verbesserung erstellt, die in A/B-Tests signifikant höhere Nutzerinteraktionen und eine bessere Leistung als Drittanbietermodelle erzielen.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

Diese Arbeit analysiert systematisch den Einfluss von Gewichtung und Parametrisierung auf das Training von Flow-Matching-Modellen, um praktische Designempfehlungen basierend auf Datenmanifold-Dimension, Architektur und Datensatzgröße zu geben.

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Die Studie zeigt, dass eingefrorene Vision-Language-Modelle kontinuierliche geometrische Informationen enthalten, die durch leichte lineare Proben präziser abgerufen werden können als durch Textgenerierung, was auf ein Defizit im Trainingspfad und nicht in der Repräsentation selbst hinweist.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

Die Studie stellt GreenRFM vor, ein ressourceneffizientes Vorab-Trainingsframework für radiologische Fundamentmodelle, das durch eine optimierte „MUST"-Supervision statt reiner Skalierung State-of-the-Art-Ergebnisse auf verschiedenen Modalitäten mit deutlich reduziertem Rechenaufwand erzielt und damit die Abhängigkeit von massiven Rechenressourcen in Frage stellt.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

Das Paper stellt Match4Annotate vor, ein leichtgewichtiges Framework, das durch testzeitoptimierte, implizite neuronale Feature-Matching-Verfahren sowohl innerhalb als auch zwischen Videos spärliche Punkt- und Maskenannotationen in medizinischen Ultraschalldatensätzen effizient propagiert und dabei den aktuellen Stand der Technik übertrifft.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

Die Arbeit stellt Self-Flow vor, ein selbstüberwachtes Flow-Matching-Verfahren, das durch einen Dual-Timestep-Scheduling-Mechanismus die Lernung starker semantischer Repräsentationen direkt in den generativen Rahmen integriert und so eine skalierbare, multimodale Synthese ohne externe Modelle ermöglicht.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed ⓘ💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

Die Arbeit stellt SG-DOR vor, ein relationaler Rahmen, der mittels eines richtungsabhängigen Graph-Neural-Netzwerks Verdeckungen und Anbindungen in Paprikapflanzen analysiert, um die robotische Ernte in dichten Beständen zu optimieren.

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Diese Studie präsentiert ein KI-System, das auf über 45.000 Ultraschallbildern trainiert wurde, um fetale Gesichtsfehlbildungen mit einer Genauigkeit zu erkennen, die der von erfahrenen Radiologen entspricht und die von weniger erfahrenen Fachkräften deutlich übertrifft, während es gleichzeitig als effektives Lernwerkzeug zur Beschleunigung der Ausbildung in diesem seltenen medizinischen Bereich dient.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SCAN: Visual Explanations with Self-Confidence and Analysis Networks

Die Arbeit stellt SCAN vor, ein universelles Framework für erklärbare KI, das mithilfe eines AutoEncoder-Ansatzes und des Informationsflaschenhals-Prinzips hochauflösende, objektzentrierte Visualisierungen für sowohl CNN- als auch Transformer-Architekturen erzeugt und dabei die Lücke zwischen hoher Genauigkeit und breiter Anwendbarkeit schließt.

Gwanghee Lee, Sungyoon Jeong, Kyoungson Jhang2026-03-09💻 cs

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

Das Paper stellt AV-Unified vor, ein einheitliches Framework, das durch die Umwandlung verschiedener Audio-Visuell-Aufgaben in diskrete Token-Sequenzen und den Einsatz multimodaler Wahrnehmungsnetzwerke eine gemeinsame Lernbasis für das umfassende Verständnis komplexer Szenen schafft.

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

Spatial Calibration of Diffuse LiDARs

Der Artikel stellt ein einfaches Kalibrierverfahren vor, das für diffuse LiDAR-Sensoren wie den TMF8828 mittels eines gescannten retroreflektierenden Flecks und Hintergrundsubtraktion pixelgenaue Fußabdrücke und relative räumliche Empfindlichkeiten in einem RGB-Bild schätzt, um eine präzise räumliche Ausrichtung und Fusion der Modalitäten zu ermöglichen.

Nikhil Behari, Ramesh Raskar2026-03-09💻 cs

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

Die Arbeit stellt NEGATE vor, eine trainingsfreie Methode, die linguistische Verneinung in Text-zu-Video-Diffusionsmodellen durch die Projektion semantischer Updates auf eine konvexe Restriktionsmenge als strukturierte Machbarkeitsbedingung modelliert und so robuste Verneinung ohne Nachtraining ermöglicht.

Taewon Kang, Ming C. Lin2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

Die Arbeit stellt SurgFormer vor, einen skalierbaren multiresolutiven Gated-Transformer, der auf XFEM-simulierten Daten trainiert wurde, um sowohl die Verformung als auch die Resektion von Weichgewebe in volumetrischen Netzen mit hoher Genauigkeit und Echtzeit-Geschwindigkeit vorherzusagen.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving

Diese Studie modelliert und misst Redundanz in multisensorischen und multimodalen Daten für autonomes Fahren, wobei experimentelle Ergebnisse zeigen, dass das gezielte Entfernen redundanter Objektkennzeichnungen die Objekterkennungsleistung verbessert und damit die Bedeutung von Datenqualität für die AV-Perzeption unterstreicht.

Yuhan Zhou, Mehri Sattari, Haihua Chen, Kewei Sha2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

Die Arbeit stellt EgoReasoner vor, ein zweistufiges Framework, das durch aufgabenadaptive Denkvorlagen und belohnungsgesteuertes Feinabstimmen strukturiertes 4D-Reasoning für Egocentric-Videos ermöglicht und damit auf dem HD-EPIC-Benchmark signifikant bessere Ergebnisse erzielt als größere Modelle.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Die Arbeit stellt Penguin-VL vor, ein effizientes Vision-Language-Modell, das durch den Einsatz eines auf einem reinen Text-LLM initialisierten Vision-Encoders statt traditioneller kontrastiver Vortrainings feinere visuelle Details bewahrt und damit auf ressourcenbeschränkten Geräten überlegene Leistungen in Aufgaben wie Dokumentenverständnis und komplexem Schlussfolgern erzielt.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Das Paper stellt SUREON vor, einen umfassenden Video-QA-Datensatz und ein darauf trainiertes Vision-Language-Modell, das durch die Extraktion von Experten-Narrationen aus chirurgischen Lehrvideos die Fähigkeit zur chirurgischen Reasoning (Schlussfolgerung) entwickelt und dabei bestehende Modelle in Sicherheitsbewertungen, Entscheidungsanalysen und Prognosen deutlich übertrifft.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

← Zurück Weiter →