DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Diese Arbeit untersucht die Eignung des visuellen Basismodells DINOv3 als eingefrorener Backbone für die robotische Blaubeerenernte und zeigt, dass es zwar die Segmentierung durch stabile Repräsentationen verbessert, jedoch bei der Detektion von Früchten und Clustern aufgrund von Skalierungsvariationen und räumlichen Aggregationsmustern an Grenzen stößt.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Die Arbeit zeigt auf, dass pruning-basiertes Unlearning bei Diffusionsmodellen keine echte Sicherheit bietet, da die Positionen der auf Null gesetzten Gewichte als Seitenkanal dienen und das Entfernen von Konzepten durch einen rein daten- und trainingsfreien Angriff vollständig rückgängig gemacht werden kann.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Die Studie stellt einen neuen Rahmen zur margin-konsistenten Deep Subtyping von invasivem Lungenadenokarzinom vor, der durch die Einführung einer Störungs-Verlässlichkeitsbewertung (Perturbation Fidelity) und attention-basierter Aggregation die Robustheit und Genauigkeit bei der Klassifizierung von Ganzschnittbildern signifikant verbessert und dabei hohe AUC-Werte sowie eine bemerkenswerte Generalisierbarkeit über verschiedene Institutionen hinweg demonstriert.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Das Paper stellt PaLMR vor, ein Framework, das durch eine wahrnehmungsorientierte Datenschicht und eine prozessbewusste Optimierungsstrategie die visuelle Glaubwürdigkeit von Multimodal Large Language Models verbessert, indem es nicht nur das Endergebnis, sondern auch den gesamten Denkprozess an die visuellen Beweise anpasst.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

Die Studie stellt FCBNet vor, einen parameter-effizienten Faltungsansatz mit einem eingefrorenen ConvNeXt-Rückgrat und einem Feature-Correction-Block, der bei der Unkrautsegmentierung in multispektralen Luftbildern sowohl eine hohe Genauigkeit (über 85 % mIoU) als auch eine deutliche Reduktion der trainierbaren Parameter und des Rechenaufwands im Vergleich zu bestehenden Modellen erreicht.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Die Arbeit stellt ASMIL vor, ein einheitliches Framework für das multiple Instanzlernen in der Ganzschliffbildanalyse, das durch einen Anker-Modellansatz, eine normalisierte Sigmoid-Funktion und zufälliges Token-Dropping Instabilitäten, Überanpassung und übermäßige Konzentration der Aufmerksamkeit überwindet und damit die Leistungsfähigkeit bestehender Methoden signifikant steigert.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

Die Arbeit stellt EnsAug vor, eine neuartige Trainingsstrategie für ein Ensemble von Spezialmodellen, die jeweils auf unterschiedlichen geometrischen Datenaugmentierungen basieren, um die Robustheit und Genauigkeit bei der Analyse menschlicher Bewegungssequenzen signifikant zu verbessern und dabei den Grenzen herkömmlicher, gemischter Augmentierungsansätze zu überwinden.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Die Arbeit stellt Graph-of-Mark (GoM) vor, eine neuartige pixelbasierte visuelle Prompting-Technik, die durch das Überlagern von Szenengraphen auf Eingabebilder die räumliche Schlussfolgerung multimodaler Sprachmodelle signifikant verbessert und dabei die Genauigkeit bei Null-Shot-Aufgaben um bis zu 11 Prozentpunkte steigert.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Diese Arbeit stellt ein systemweites Inferenz-Optimierungskonzept für DiT-basierte Videogenerierungsmodelle vor, das durch die Einführung einer sequenzparallelen Variante der kausalen Rotary-Positional-Embeddings (Causal-RoPE SP) sowie durch Operator-Fusion und Vorberechnung den Speicherbedarf und die Latenz drastisch reduziert und damit Echtzeit-Anwendungen ermöglicht.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Die Studie zeigt, dass Chain-of-Thought-Prompting bei medizinischen visuellen Fragestellungen häufig schlechter abschneidet als direkte Antworten, da ein medizinischer Wahrnehmungsengpass die visuelle Verankerung schwächt, was durch trainingsfreie Eingriffe wie „Perception Anchoring" und „Description Grounding" effektiv behoben werden kann.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs