cs.CL articoli | Gist.Science

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Il paper propone un approccio di Reinforcement Learning che ottimizza la calibrazione della confidenza dei Large Language Models tramite una funzione di ricompensa basata sulla regola di punteggio logaritmica, integrando la stima dell'incertezza direttamente nel processo generativo e ottenendo modelli meglio calibrati e capaci di generalizzare su compiti non visti.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Questo studio analizza meta-analiticamente 92 modelli linguistici open-source per dimostrare che l'integrazione di fattori come la composizione dei dati e le scelte architetturali, oltre alla semplice scala, migliora significativamente la previsione delle prestazioni downstream e offre indicazioni pratiche per la progettazione di modelli più efficienti.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

Large Language Models in Bioinformatics: A Survey

Questa rassegna sistematica esamina come i modelli linguistici di grandi dimensioni stiano rivoluzionando la bioinformatica attraverso l'analisi di dati genomici e proteomici, affrontando le sfide attuali e delineando le future direzioni verso l'applicazione clinica e la medicina di precisione.

Zhenyu Wang, Zikang Wang, Jiyue Jiang + 3 more2026-03-03🧬 q-bio

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Il paper presenta LLaVE, un nuovo framework di modelli di embedding multimodali che utilizza un apprendimento contrastivo ponderato per la difficoltà per superare i limiti delle perdite standard, ottenendo prestazioni all'avanguardia su 36 dataset e dimostrando una forte capacità di generalizzazione zero-shot.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Il paper presenta Vision-R1, un modello MLLM che potenzia le capacità di ragionamento multimodale attraverso un'inizializzazione "cold-start" su un dataset di ragionamento a catena di pensiero generato automaticamente e un addestramento RL con una strategia di soppressione progressiva del pensiero, ottenendo prestazioni paragonabili a OpenAI O1 su benchmark matematici.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Questo articolo dimostra teoricamente ed empiricamente che la previsione del prossimo token nelle LLM permette di apprendere rappresentazioni interpretabili dall'uomo, che corrispondono approssimativamente ai logaritmi delle probabilità posteriori di concetti latenti discreti, fornendo così una base teorica per l'ipotesi delle rappresentazioni lineari e per la valutazione degli sparse autoencoder.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

A Foundational Individual Mobility Prediction Model based on Open-Source Large Language Models

Il paper presenta MoBLLM, un modello fondazionale per la previsione della mobilità individuale basato su un grande modello linguistico open-source e tecniche di fine-tuning efficiente, che supera i modelli esistenti in accuratezza, trasferibilità e robustezza su diversi dataset reali.

Zhenlin Qin, Leizhen Wang, Yancheng Ling + 2 more2026-03-03💬 cs.CL

Chain of Correction for Full-text Speech Recognition with Large Language Models

Questo articolo propone la "Chain of Correction" (CoC), un metodo basato su chat multi-turno che sfrutta i grandi modelli linguistici per correggere in modo stabile e controllato gli errori nella trascrizione completa del parlato, dimostrando prestazioni superiori rispetto ai sistemi esistenti.

Zhiyuan Tang, Dong Wang, Zhikai Zhou + 3 more2026-03-03💬 cs.CL

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs

Il paper introduce AnesSuite, la prima suite completa di dataset e benchmark per il ragionamento in anestesiologia nei modelli linguistici, e presenta Morpheus, un modello di base che dimostra significativi miglioramenti nelle competenze anestesistiche e mediche generali grazie a strategie di addestramento specifiche.

Xiang Feng, Wentao Jiang, Zengmao Wang + 5 more2026-03-03💬 cs.CL

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

Il paper presenta DRA-GRPO, un framework che migliora il ragionamento matematico dei modelli linguistici integrando una calibrazione della diversità basata sull'informazione mutua sottomodulare nel processo di ottimizzazione GRPO, permettendo così di superare la limitazione delle ricompense scalari standard e ottenere prestazioni superiori con dati di addestramento ridotti.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

When Large Language Models are More PersuasiveThan Incentivized Humans, and Why

Lo studio dimostra che i Large Language Models possono essere più persuasivi di umani incentivati in contesti interattivi, superandoli sia in scenari veritieri che ingannevoli (con variazioni tra modelli come Claude 3.5 Sonnet e DeepSeek v3), grazie a un'espressione di maggiore convinzione, sebbene il loro vantaggio diminuisca con interazioni ripetute.

Philipp Schoenegger, Francesco Salvi, Jiacheng Liu + 37 more2026-03-03💬 cs.CL

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

Il paper presenta mCLM, un modello linguistico chimico modulare che, tokenizzando le molecole in blocchi funzionali compatibili con la sintesi automatizzata, genera nuovi candidati farmacologici con proprietà migliorate e un'accessibilità sintetica superiore rispetto ai metodi esistenti, inclusi i modelli di grandi dimensioni come GPT-5.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Dynamic Token Reweighting for Robust Vision-Language Models

Il paper presenta DTR, una difesa innovativa a tempo di inferenza che mitiga gli attacchi jailbreak multimodali nei modelli visione-linguaggio ottimizzando dinamicamente i pesi dei token visivi nei cache KV, ottenendo così una maggiore robustezza senza compromettere le capacità generali del modello.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

Questo articolo presenta "Chain-of-Lure", un nuovo framework universale di jailbreak che sfrutta narrazioni sintetiche non vincolate e l'ottimizzazione tramite un modello LLM ausiliario per aggirare le difese dei modelli linguistici, rivelando vulnerabilità intrinseche e proponendo strategie di difesa.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Il paper propone la Negative-aware Fine-Tuning (NFT), un approccio di apprendimento supervisionato che, modellando le risposte errate generate internamente come una politica implicita, permette ai modelli linguistici di migliorare autonomamente nelle capacità di ragionamento matematico, colmando il divario tra metodi supervisionati e di apprendimento per rinforzo e dimostrando risultati paragonabili o superiori agli algoritmi RL più avanzati.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

SQUiD: Synthesizing Relational Databases from Unstructured Text

Il paper introduce SQUiD, un innovativo framework neurosimbolico che utilizza modelli linguistici di grandi dimensioni per generare automaticamente schemi e popolazioni di database relazionali partendo da testi non strutturati, dimostrando prestazioni superiori rispetto alle soluzioni esistenti.

Mushtari Sadia, Zhenning Yang, Yunming Xiao + 2 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

Il paper presenta Intuitor, un metodo di apprendimento per rinforzo che utilizza la "self-certainty" (autocertezza) intrinseca del modello come unico segnale di ricompensa, permettendo ai grandi modelli linguistici di migliorare il ragionamento e la generalizzazione in modo completamente non supervisionato senza dipendere da ricompense esterne o dati etichettati.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Il lavoro presenta RPM, un nuovo framework che supera i limiti della personalizzazione a livello di risposta nei modelli linguistici di grandi dimensioni (LLM) a scatola nera, introducendo la personalizzazione a livello di ragionamento per scoprire automaticamente strutture di ragionamento specifiche dell'utente dai dati comportamentali e guidare inferenze più pertinenti e interpretabili.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

Questo studio dimostra che arricchire i modelli linguistici con dati pertinenti e una validazione preliminare automatizzata migliora significativamente la fattibilità e la qualità delle idee di ricerca nelle scienze sociali, ispirando inoltre i ricercatori umani a generare proposte di ricerca superiori.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

Il paper presenta RefTool, un framework che guida la creazione automatica di strumenti da parte dei modelli linguistici di grandi dimensioni utilizzando materiali di riferimento esterni, superando così i limiti della conoscenza interna e migliorando significativamente le prestazioni nel ragionamento basato su conoscenze in ambiti scientifici e non.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

← Precedente Successivo →