Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Questo articolo propone un metodo innovativo per la segmentazione istanza di oggetti mimetizzati in ambito open-vocabulary, sfruttando le capacità dei modelli di diffusione testo-immagine per apprendere rappresentazioni visivo-testuali multiscala che superano le sfide poste dal camuffamento e permettono l'identificazione di nuove classi di oggetti.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Questa ricerca propone un sistema innovativo di interrogazione semantica che integra modelli linguistici di grandi dimensioni con un grafo della conoscenza accademica dell'ANU, utilizzando un modello documentale profondo e un processo di interrogazione potenziato per migliorare l'accuratezza e l'efficienza nel recupero delle informazioni sulla ricerca informatica.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Questo studio dimostra che i modelli linguistici neurali apprendono le eccezioni alla passivizzazione in inglese sia attraverso la frequenza d'uso (intrenchment) che attraverso la semantica (coinvolgimento), confermando la validità della manipolazione dei dati di addestramento come metodo per indagare i meccanismi di acquisizione linguistica.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

Il documento presenta il modello formale N2M-RSI, che dimostra come un agente AI che utilizza i propri output come dati di addestramento possa generare una crescita illimitata della complessità interna una volta superata una specifica soglia di integrazione informativa, unificando concetti di auto-prompting e riferimento godeliano in un framework agnostico rispetto all'implementazione.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Questo studio introduce PubHealthBench, un nuovo benchmark basato su oltre 8000 domande derivate dalle linee guida del governo britannico, per valutare le conoscenze di 24 modelli linguistici (LLM) nel campo della sanità pubblica, rivelando che, sebbene i modelli proprietari più recenti superino gli umani nelle risposte a scelta multipla, mostrano prestazioni inferiori nelle risposte in formato libero, indicando la necessità di ulteriori misure di sicurezza.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Il paper presenta R1-Code-Interpreter, un modello LLM potenziato da un approccio di apprendimento curricolare multi-fase che combina fine-tuning supervisionato e rinforzato, permettendo di generare codice autonomamente e raggiungendo prestazioni superiori rispetto a GPT-4o su una vasta gamma di compiti di ragionamento e pianificazione.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Il paper propone la Calibrazione Supervisionata (SC), un nuovo framework basato sulla minimizzazione della perdita che supera i limiti delle tecniche di calibrazione esistenti per l'Apprendimento in Contesto (ICL) nei LLM, permettendo di modificare l'orientamento dei confini decisionali e integrando regolarizzatori per migliorare la stabilità e le prestazioni su diversi modelli e dataset.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Questo studio individua e quantifica come i modelli di preferenza linguistica siano sistematicamente distorti da artefatti superficiali come lunghezza e stile, proponendo quindi un metodo di post-addestramento basato sull'aumento dei dati controfattuali per mitigare tali pregiudizi e migliorare l'affidabilità delle valutazioni senza compromettere le prestazioni complessive.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

Il paper presenta CounselBench, un benchmark su larga scala sviluppato con l'apporto di 100 professionisti della salute mentale per valutare e stress-testare i modelli linguistici su domande aperte relative alla salute mentale, evidenziando attraverso valutazioni esperte e test avversariali sia i limiti attuali degli LLM (come la mancanza di personalizzazione e i rischi di sicurezza) sia la loro tendenza a essere sopravvalutati da giudici automatizzati.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL