A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Die vorgestellte Arbeit stellt eine rechen-effiziente, detektionsgesteuerte Pipeline vor, die durch die Kombination eines Lokalisators und eines Segmentierers robuste Glottalflächen-Wellenformen aus Hochgeschwindigkeits-Videoendoskopien extrahiert, um zuverlässige klinische Biomarker für die pathologische Stimmbewertung über verschiedene Datensätze hinweg zu ermöglichen.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Diese Arbeit untersucht die Eignung des visuellen Basismodells DINOv3 als eingefrorener Backbone für die robotische Blaubeerenernte und zeigt, dass es zwar die Segmentierung durch stabile Repräsentationen verbessert, jedoch bei der Detektion von Früchten und Clustern aufgrund von Skalierungsvariationen und räumlichen Aggregationsmustern an Grenzen stößt.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Die Arbeit zeigt auf, dass pruning-basiertes Unlearning bei Diffusionsmodellen keine echte Sicherheit bietet, da die Positionen der auf Null gesetzten Gewichte als Seitenkanal dienen und das Entfernen von Konzepten durch einen rein daten- und trainingsfreien Angriff vollständig rückgängig gemacht werden kann.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Die Studie stellt einen neuen Rahmen zur margin-konsistenten Deep Subtyping von invasivem Lungenadenokarzinom vor, der durch die Einführung einer Störungs-Verlässlichkeitsbewertung (Perturbation Fidelity) und attention-basierter Aggregation die Robustheit und Genauigkeit bei der Klassifizierung von Ganzschnittbildern signifikant verbessert und dabei hohe AUC-Werte sowie eine bemerkenswerte Generalisierbarkeit über verschiedene Institutionen hinweg demonstriert.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Das Paper stellt PaLMR vor, ein Framework, das durch eine wahrnehmungsorientierte Datenschicht und eine prozessbewusste Optimierungsstrategie die visuelle Glaubwürdigkeit von Multimodal Large Language Models verbessert, indem es nicht nur das Endergebnis, sondern auch den gesamten Denkprozess an die visuellen Beweise anpasst.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

Die Studie stellt FCBNet vor, einen parameter-effizienten Faltungsansatz mit einem eingefrorenen ConvNeXt-Rückgrat und einem Feature-Correction-Block, der bei der Unkrautsegmentierung in multispektralen Luftbildern sowohl eine hohe Genauigkeit (über 85 % mIoU) als auch eine deutliche Reduktion der trainierbaren Parameter und des Rechenaufwands im Vergleich zu bestehenden Modellen erreicht.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Die Arbeit stellt ASMIL vor, ein einheitliches Framework für das multiple Instanzlernen in der Ganzschliffbildanalyse, das durch einen Anker-Modellansatz, eine normalisierte Sigmoid-Funktion und zufälliges Token-Dropping Instabilitäten, Überanpassung und übermäßige Konzentration der Aufmerksamkeit überwindet und damit die Leistungsfähigkeit bestehender Methoden signifikant steigert.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

Die Arbeit stellt EnsAug vor, eine neuartige Trainingsstrategie für ein Ensemble von Spezialmodellen, die jeweils auf unterschiedlichen geometrischen Datenaugmentierungen basieren, um die Robustheit und Genauigkeit bei der Analyse menschlicher Bewegungssequenzen signifikant zu verbessern und dabei den Grenzen herkömmlicher, gemischter Augmentierungsansätze zu überwinden.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG