cs.CV Arbeiten | Gist.Science

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Diese Arbeit untersucht die Eignung des visuellen Basismodells DINOv3 als eingefrorener Backbone für die robotische Blaubeerenernte und zeigt, dass es zwar die Segmentierung durch stabile Repräsentationen verbessert, jedoch bei der Detektion von Früchten und Clustern aufgrund von Skalierungsvariationen und räumlichen Aggregationsmustern an Grenzen stößt.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Diese Arbeit stellt eine neue Methode vor, die mit GramCol und einem Motion-Feature-Selection-Algorithmus ohne Gradientenberechnung interpretierbare, räumlich-zeitliche Saliency-Karten für Bewegungs- und Objektkonzepte in Video-Diffusion-Transformern erzeugt.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Das Paper stellt CGL vor, ein Framework für das kontinuierliche Lernen von GUI-Agenten, das durch eine dynamische Balance zwischen überwachtem Feinabstimmung und Bestärkendem Lernen sowie eine spezielle Gradienten-Chirurgie-Strategie das Vergessen alter Aufgaben bei der Anpassung an neue GUIs verhindert.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Die Arbeit stellt LDP-Slicing vor, ein effizientes, trainingsfreies Framework, das durch die Zerlegung von Bildern in Bit-Ebenen und eine optimierte Budgetverteilung den Einsatz von lokaler Differentialprivatsphäre für Bilddaten ermöglicht und dabei die Nutzbarkeit für nachgelagerte Aufgaben im Vergleich zu bestehenden Methoden erheblich verbessert.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Die Studie stellt DeepScope vor, ein auf Deep Learning basiertes System, das mikroskopische Bilder von nicht inkubierten Wasserproben analysiert, um Fäkalverunreinigungen in Sekunden mit einer Genauigkeit von 93 % und extrem niedrigen Kosten nachzuweisen und damit herkömmliche, zeitaufwändige Testverfahren zu ersetzen.

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Die Arbeit stellt OptiRoulette vor, einen stochastischen Meta-Optimierer, der durch dynamische Auswahl von Update-Regeln aus einem Pool und speziellen Anpassungsmechanismen die Konvergenzgeschwindigkeit und -zuverlässigkeit im Vergleich zu AdamW auf mehreren Bilddatensätzen signifikant verbessert.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Diese Arbeit schlägt eine einheitliche Darstellung von Diffusionsmodellen und Flow Matching vor und zeigt theoretisch auf, dass die oft schwache Korrelation zwischen verrauschten Daten und dem vorhergesagten Ziel den Lernprozess beeinträchtigen kann.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

Die Arbeit stellt RECAP vor, eine bioinspirierte Lernstrategie, die untrainierte Reservoir-Dynamiken mit einem selbstorganisierenden, hebbischen Prototypen-Lesemechanismus kombiniert, um robuste Bildklassifizierung ohne Fehler-Backpropagation zu ermöglichen.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Die Arbeit zeigt auf, dass pruning-basiertes Unlearning bei Diffusionsmodellen keine echte Sicherheit bietet, da die Positionen der auf Null gesetzten Gewichte als Seitenkanal dienen und das Entfernen von Konzepten durch einen rein daten- und trainingsfreien Angriff vollständig rückgängig gemacht werden kann.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

Die Arbeit stellt den ObjChangeVR-Datensatz und ein entsprechendes Framework vor, das durch viewpoint-aware und zeitbasierte Abrufmechanismen sowie eine übergreifende Sichtweisen-Integration die Herausforderung der Erkennung von Objektzustandsänderungen in VR-Umgebungen aus kontinuierlichen Egocentric-Ansichten effektiv löst.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Die Studie stellt einen neuen Rahmen zur margin-konsistenten Deep Subtyping von invasivem Lungenadenokarzinom vor, der durch die Einführung einer Störungs-Verlässlichkeitsbewertung (Perturbation Fidelity) und attention-basierter Aggregation die Robustheit und Genauigkeit bei der Klassifizierung von Ganzschnittbildern signifikant verbessert und dabei hohe AUC-Werte sowie eine bemerkenswerte Generalisierbarkeit über verschiedene Institutionen hinweg demonstriert.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Das Paper stellt PaLMR vor, ein Framework, das durch eine wahrnehmungsorientierte Datenschicht und eine prozessbewusste Optimierungsstrategie die visuelle Glaubwürdigkeit von Multimodal Large Language Models verbessert, indem es nicht nur das Endergebnis, sondern auch den gesamten Denkprozess an die visuellen Beweise anpasst.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

Die Studie stellt FCBNet vor, einen parameter-effizienten Faltungsansatz mit einem eingefrorenen ConvNeXt-Rückgrat und einem Feature-Correction-Block, der bei der Unkrautsegmentierung in multispektralen Luftbildern sowohl eine hohe Genauigkeit (über 85 % mIoU) als auch eine deutliche Reduktion der trainierbaren Parameter und des Rechenaufwands im Vergleich zu bestehenden Modellen erreicht.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

Das Paper stellt GameVerse vor, ein umfassendes Benchmark für Videospiele, das nachweist, dass Vision-Language-Modelle durch einen reflektierenden Lernansatz mit Videoanalysen von Fehlern und Tutorials ihre Spielstrategien verbessern können.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Die Arbeit stellt ASMIL vor, ein einheitliches Framework für das multiple Instanzlernen in der Ganzschliffbildanalyse, das durch einen Anker-Modellansatz, eine normalisierte Sigmoid-Funktion und zufälliges Token-Dropping Instabilitäten, Überanpassung und übermäßige Konzentration der Aufmerksamkeit überwindet und damit die Leistungsfähigkeit bestehender Methoden signifikant steigert.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

Die Arbeit stellt EnsAug vor, eine neuartige Trainingsstrategie für ein Ensemble von Spezialmodellen, die jeweils auf unterschiedlichen geometrischen Datenaugmentierungen basieren, um die Robustheit und Genauigkeit bei der Analyse menschlicher Bewegungssequenzen signifikant zu verbessern und dabei den Grenzen herkömmlicher, gemischter Augmentierungsansätze zu überwinden.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

Die Arbeit stellt HyperTokens vor, einen Transformer-basierten Token-Generator, der durch bedarfsgesteuerte Token-Erzeugung und metainspirierte Regularisierung das Vergessen in der kontinuierlichen Video-Fragebeantwortung mit multimodalen LLMs effektiv reduziert und gleichzeitig den Speicherbedarf konstant hält.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Die Arbeit stellt Graph-of-Mark (GoM) vor, eine neuartige pixelbasierte visuelle Prompting-Technik, die durch das Überlagern von Szenengraphen auf Eingabebilder die räumliche Schlussfolgerung multimodaler Sprachmodelle signifikant verbessert und dabei die Genauigkeit bei Null-Shot-Aufgaben um bis zu 11 Prozentpunkte steigert.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Diese Arbeit stellt ein systemweites Inferenz-Optimierungskonzept für DiT-basierte Videogenerierungsmodelle vor, das durch die Einführung einer sequenzparallelen Variante der kausalen Rotary-Positional-Embeddings (Causal-RoPE SP) sowie durch Operator-Fusion und Vorberechnung den Speicherbedarf und die Latenz drastisch reduziert und damit Echtzeit-Anwendungen ermöglicht.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Die Studie zeigt, dass Chain-of-Thought-Prompting bei medizinischen visuellen Fragestellungen häufig schlechter abschneidet als direkte Antworten, da ein medizinischer Wahrnehmungsengpass die visuelle Verankerung schwächt, was durch trainingsfreie Eingriffe wie „Perception Anchoring" und „Description Grounding" effektiv behoben werden kann.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

← Zurück Weiter →