cs articoli | Gist.Science

ABD: Default Exception Abduction in Finite First Order Worlds

Il paper introduce ABD, un benchmark per valutare la capacità dei modelli linguistici di generare formule logiche di prima ordine che definiscono eccezioni sparsamente in mondi finiti, evidenziando attraverso l'analisi di dieci modelli all'avanguardia su 600 istanze che, sebbene ottengano alta validità, persistono significative lacune nella parsimonia e modalità di fallimento nella generalizzazione.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Questo lavoro introduce il nuovo setting di Open-Vocabulary Domain Generalization in Semantic Segmentation (OVDG-SS) per la guida autonoma, proponendo un benchmark e il metodo S2-Corr per migliorare la robustezza dei modelli di segmentazione sia su domini non visti che su categorie non viste, mitigando le distorsioni nelle correlazioni testo-immagine causate dai cambiamenti di dominio.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

Il paper introduce INDUCTION, un benchmark per la sintesi di concetti in logica del primo ordine su strutture finite, che valuta la capacità dei modelli di generare formule logiche concise e generalizzabili attraverso tre diversi regimi di verifica.

Serafim Batzoglou2026-03-10💻 cs

SKYLIGHT: A Scalable Hundred-Channel 3D Photonic In-Memory Tensor Core Architecture for Real-time AI Inference

Il paper presenta SKYLIGHT, un'architettura scalabile di core tensoriali fotonici in memoria a 3D con 100 canali che supera le limitazioni attuali offrendo un'efficienza energetica e prestazioni superiori per l'inferenza AI in tempo reale e l'apprendimento locale.

Meng Zhang, Ziang Yin, Nicholas Gangi, Alexander Chen, Brett Bamfo, Tianle Xu, Jiaqi Gu, Zhaoran Rena Huang2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

Il paper presenta UniMatch, un framework innovativo che utilizza un approccio a due stadi basato su segmentazione semantica e guida linguistica per stabilire corrispondenze dense tra forme 3D non isometriche di categorie diverse, superando i limiti dei metodi precedenti.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

Why iCloud Fails: The Category Mistake of Cloud Synchronization

Il documento sostiene che iCloud fallisce a causa di un errore categoriale fondamentale nel proiettare un grafo causale distribuito su una catena temporale lineare, generando incompatibilità strutturali con flussi di lavoro complessi, e propone che la semantica transazionale dell'Open Atomic Ethernet offra la soluzione allineando i protocolli alla realtà fisica.

Paul Borrill2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

Il paper propone InfScene-SR, un metodo di super-risoluzione basato su modelli di diffusione che, grazie alle tecniche di fusione con correzione della varianza (VCF) e correzione spazialmente disaccoppiata (SDVC), permette di generare immagini ad alta risoluzione di dimensioni arbitrarie eliminando gli artefatti di confine e riducendo la complessità computazionale.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Il paper propone un metodo di decomposizione e ricomposizione online di oggetti, scene e pose della camera per generare dati di addestramento diversificati e migliorare l'efficienza dei modelli di rilevamento 3D monoculari, riducendo la dipendenza da grandi quantità di dati annotati.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Questo lavoro presenta un framework di decomposizione delle immagini basato su modelli di diffusione pre-addestrati e adattati tramite LoRA, che utilizza una strategia di tuning ciclicamente coerente e un processo di auto-miglioramento progressivo per separare con precisione elementi complessi come i loghi dalle loro superfici di sfondo, garantendo una ricostruzione fedele di entrambi gli strati.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Il paper presenta "See It, Say It, Sorted", un framework iterativo e privo di addestramento che riduce le allucinazioni visive e migliora il ragionamento nei modelli LVLM supervisionando ogni passo del ragionamento con evidenze visive dinamiche estratte dall'immagine.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Il paper introduce ARLArena, un framework unificato per analizzare la stabilità dell'apprendimento per rinforzo agenziale, e propone SAMPO, un metodo di ottimizzazione che garantisce un addestramento stabile e performante per agenti basati su LLM.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Questo lavoro presenta un approccio unificato alla segmentazione semantica di immagini e video che utilizza il linguaggio modellato per generare maschere come sequenze di token discreti ottenuti tramite codifica RLE, integrando strategie di compressione e informazioni sulle istanze per raggiungere prestazioni competitive.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs

Il paper presenta EmoOmni, un framework unificato che migliora la comprensione e l'espressione emotiva nei modelli linguistici multimodali omnimodali attraverso l'introduzione della Catena di Pensiero Emotiva (E-CoT), un dataset annotato e una nuova valutazione, ottenendo prestazioni superiori rispetto a modelli più grandi.

Wenjie Tian, Zhixian Zhao, Jingbin Hu, Huakang Chen, Haohe Liu, Binshen Mu, Lei Xie2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

Il paper presenta CryoNet.Refine, un modello di diffusione deep learning a un singolo passaggio che automatizza e accelera il raffinamento dei modelli strutturali in mappe di densità Cryo-EM, superando i metodi tradizionali in termini di velocità e qualità geometrica.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Questo articolo esplora come gli agenti AI, attraverso il concetto di "vibe researching" e un framework cognitivo che delinea i limiti tra compiti codificabili e conoscenza tacita, possano potenziare ma non sostituire i ricercatori sociali, sollevando al contempo questioni critiche riguardo alla stratificazione professionale e alla crisi pedagogica.

Yongjun Zhang2026-03-10💻 cs

Decomposing Physician Disagreement in HealthBench

Lo studio scompone la discrepanza tra medici nel dataset HealthBench, rivelando che la maggior parte della varianza è strutturale e irriducibile, sebbene la risoluzione delle incertezze riducibili (come la mancanza di contesto) possa comunque offrire spunti pratici per migliorare la progettazione delle valutazioni dell'IA medica.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Il paper presenta WISER, un framework senza addestramento per il recupero di immagini composte zero-shot che supera i limiti dei metodi esistenti unendo la ricerca a doppio percorso (testo e immagine) con un meccanismo di verifica e raffinamento adattivo, ottenendo prestazioni superiori su diversi benchmark.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Il paper introduce PackUV, un nuovo metodo di rappresentazione 4D basato su Gaussian Splatting che mappa gli attributi volumetrici in atlanti UV strutturati per garantire coerenza temporale, compatibilità con i codec video standard e scalabilità, validato su un vasto dataset di 2 miliardi di frame.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

On Sample-Efficient Generalized Planning via Learned Transition Models

Questo lavoro propone un approccio di pianificazione generalizzata basato sull'apprendimento esplicito di modelli di transizione neurali che prevedono gli stati successivi, dimostrando che tale metodo supera i pianificatori basati su Transformer nella generalizzazione fuori distribuzione e nell'efficienza dei campioni, richiedendo meno dati e modelli più piccoli.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Il paper propone HART, un framework di post-addestramento basato sul reinforcement learning che permette ai Large Multimodal Models di migliorare il ragionamento visivo ad alta risoluzione e la localizzazione delle regioni chiave senza richiedere annotazioni esterne.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

← Precedente Successivo →