DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Dit onderzoek evalueert DINOv3 als een bevroren visuele ruggengraat voor blauwe bessen-oogsttaken en concludeert dat het model, hoewel zeer effectief voor segmentatie, beperkingen vertoont bij detectie en clusterherkenning vanwege schaalvariatie en ruimtelijke aggregatie, waardoor het vooral waardevol is als semantische basis die moet worden aangevuld met specifieke ruimtelijke modellering.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Dit paper introduceert CGL, een continu leerframework voor GUI-agenten dat Supervised Fine-Tuning en Reinforcement Learning dynamisch combineert via een entropie-gestuurde aanpassing en een gradiëntchirurgie-strategie om aanpassing aan nieuwe taken te bevorderen zonder oude kennis te vergeten, wat wordt gevalideerd op het nieuwe AndroidControl-CL-benchmark.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Deze studie introduceert een nieuw randconsistentie-framework met 'Perturbation Fidelity'-scoring voor het robuust subtyperen van invasieve longadenocarcinoom op basis van hele-slice-beelden, wat aanzienlijke verbeteringen in nauwkeurigheid en generalisatie oplevert ondanks beeldvervormingen en domeinverschuivingen.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Het paper introduceert PaLMR, een framework dat de redeneerprocessen van multimodale modellen verbetert door hallucinaties te verminderen en visuele trouw te waarborgen via een combinatie van perceptie-uitgelijnde data en een hiërarchische beloningsfunctie, wat leidt tot state-of-the-art resultaten op benchmarks zoals HallusionBench.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Deze paper introduceert ASMIL, een nieuw raamwerk voor multiple instance learning dat door het gebruik van een ankermodel, een genormaliseerde sigmoid-functie en willekeurige token-dropping de instabiele attentiedynamiek, overfitting en te geconcentreerde verdelingen in de diagnose van hele slide-afbeeldingen effectief aanpakt en aanzienlijk betere prestaties levert dan bestaande methoden.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs