Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Il paper introduce Grasp Any Region (GAR), un modello che supera i limiti delle precedenti MLLM regionali integrando il contesto globale e il replay delle caratteristiche per ottenere una comprensione visiva precisa, interattiva e capace di ragionamento compositivo su qualsiasi regione, come dimostrato dalle sue prestazioni superiori su benchmark specifici e sulla capacità di generalizzazione ai video.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?

Il paper introduce GhostEI-Bench, il primo benchmark progettato per valutare la resilienza degli agenti mobili basati su modelli visione-linguaggio contro gli attacchi di iniezione ambientale in ambienti dinamici, rivelando la loro vulnerabilità critica a elementi UI manipolati e proponendo un protocollo di analisi per migliorare la sicurezza.

Chiyu Chen, Xinhao Song, Yunkai Chai, Yang Yao, Haodong Zhao, Lijun Li, Jie Li, Yan Teng, Gongshen Liu, Yingchun Wang2026-03-06🔒 cs.CR

LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery

Il paper presenta LLEMA, un framework unificato che combina la conoscenza scientifica dei modelli linguistici di grandi dimensioni con regole evolutive e affinamento basato sulla memoria per scoprire nuovi materiali multi-obiettivo chimicamente plausibili e termodinamicamente stabili con prestazioni superiori rispetto alle tecniche esistenti.

Nikhil Abhyankar, Sanchit Kabra, Saaketh Desai + 1 more2026-03-06🔬 cond-mat.mtrl-sci

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Il paper presenta FLoC, un framework di compressione efficiente e senza addestramento per i token visivi nei modelli multimodali su video lunghi, che utilizza una funzione di localizzazione delle strutture per selezionare in modo rapido e ottimale un sottoinsieme rappresentativo di token, migliorando significativamente le prestazioni su vari benchmark.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

CycleChemist: A Dual-Pronged Machine Learning Framework for Organic Photovoltaic Discovery

Il paper presenta "CycleChemist", un innovativo framework di machine learning dualistico che, sfruttando il nuovo dataset OPV2D, combina modelli predittivi per le proprietà elettroniche e delle prestazioni delle celle solari organiche con un generatore di molecole basato su MatGPT per accelerare la scoperta di materiali donatori e accettori ad alta efficienza.

Hou Hei Lam, Jiangjie Qiu, Xiuyuan Hu + 5 more2026-03-06🔬 cond-mat.mtrl-sci

Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding

Il paper propone Deep FlexQP, un risolutore di programmazione quadratica convessa basato su un'architettura di deep unfolding che garantisce la fattibilità e accelera significativamente la risoluzione di problemi di ottimizzazione non lineare, superando gli stati dell'arte in termini di velocità e successo in applicazioni come l'ottimizzazione di traiettorie e i filtri di sicurezza predittivi.

Alex Oshin, Rahul Vodeb Ghosh, Augustinos D. Saravanos + 1 more2026-03-06🔢 math