cs.CL articoli | Gist.Science

Polynomial, trigonometric, and tropical activations

Questo articolo dimostra che l'utilizzo di funzioni di attivazione basate su basi ortonormali (polinomiali, trigonometriche e tropicali), combinate con un'inizializzazione che preserva la varianza, permette di addestrare con successo modelli profondi come GPT-2 e ConvNeXt risolvendo i problemi di esplosione e svanimento dei gradienti, offrendo al contempo nuove prospettive sull'interpretazione strutturale delle reti neurali e facilitando il fine-tuning tramite approssimazione di attivazioni classiche.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

Il paper presenta AStar, un metodo di ragionamento strutturato automatico e privo di addestramento che migliora le capacità di ragionamento multimodale integrando "carte di pensiero" adattive, ottenendo prestazioni superiori rispetto a GPT-4o su benchmark matematici senza i costi computazionali delle ricerche esplicite o la complessità del post-training.

Jinyang Wu, Mingkuan Feng, Guocheng Zhai + 7 more2026-03-03💬 cs.CL

Enhancing Hallucination Detection through Noise Injection

Questo lavoro propone un metodo senza addestramento che migliora significativamente il rilevamento delle allucinazioni nei grandi modelli linguistici iniettando rumore nei parametri o nelle attivazioni nascoste durante il campionamento per catturare meglio l'incertezza del modello secondo una prospettiva bayesiana.

Litian Liu, Reza Pourreza, Sunny Panchal + 4 more2026-03-03💬 cs.CL

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

Questo paper introduce LLM-ProS, una nuova tecnica di valutazione che analizza le prestazioni di cinque modelli linguistici avanzati su 166 problemi delle finali mondiali dell'ICPC, evidenziando le loro capacità di ragionamento, accuratezza e limiti nell'affrontare compiti di programmazione competitiva.

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Il paper propone un framework di adattamento robusto per i Modelli Multimodali di grandi dimensioni che migliora l'accuratezza e la generalizzazione nel rilevamento dei meme offensivi, superando le prestazioni dei sistemi supervisionati tradizionali e offrendo maggiore interpretabilità.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Il paper presenta MemeXplain, un nuovo dataset spiegabile per la rilevazione di meme propagandistici e d'odio, e propone un approccio di ottimizzazione multi-stadio che, utilizzando modelli visione-linguaggio, supera lo stato dell'arte migliorando sia la classificazione che la generazione di spiegazioni.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Il paper propone un approccio di Reinforcement Learning che ottimizza la calibrazione della confidenza dei Large Language Models tramite una funzione di ricompensa basata sulla regola di punteggio logaritmica, integrando la stima dell'incertezza direttamente nel processo generativo e ottenendo modelli meglio calibrati e capaci di generalizzare su compiti non visti.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Questo studio analizza meta-analiticamente 92 modelli linguistici open-source per dimostrare che l'integrazione di fattori come la composizione dei dati e le scelte architetturali, oltre alla semplice scala, migliora significativamente la previsione delle prestazioni downstream e offre indicazioni pratiche per la progettazione di modelli più efficienti.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

Large Language Models in Bioinformatics: A Survey

Questa rassegna sistematica esamina come i modelli linguistici di grandi dimensioni stiano rivoluzionando la bioinformatica attraverso l'analisi di dati genomici e proteomici, affrontando le sfide attuali e delineando le future direzioni verso l'applicazione clinica e la medicina di precisione.

Zhenyu Wang, Zikang Wang, Jiyue Jiang + 3 more2026-03-03🧬 q-bio

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Il paper presenta LLaVE, un nuovo framework di modelli di embedding multimodali che utilizza un apprendimento contrastivo ponderato per la difficoltà per superare i limiti delle perdite standard, ottenendo prestazioni all'avanguardia su 36 dataset e dimostrando una forte capacità di generalizzazione zero-shot.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Il paper presenta Vision-R1, un modello MLLM che potenzia le capacità di ragionamento multimodale attraverso un'inizializzazione "cold-start" su un dataset di ragionamento a catena di pensiero generato automaticamente e un addestramento RL con una strategia di soppressione progressiva del pensiero, ottenendo prestazioni paragonabili a OpenAI O1 su benchmark matematici.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Questo articolo dimostra teoricamente ed empiricamente che la previsione del prossimo token nelle LLM permette di apprendere rappresentazioni interpretabili dall'uomo, che corrispondono approssimativamente ai logaritmi delle probabilità posteriori di concetti latenti discreti, fornendo così una base teorica per l'ipotesi delle rappresentazioni lineari e per la valutazione degli sparse autoencoder.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

A Foundational Individual Mobility Prediction Model based on Open-Source Large Language Models

Il paper presenta MoBLLM, un modello fondazionale per la previsione della mobilità individuale basato su un grande modello linguistico open-source e tecniche di fine-tuning efficiente, che supera i modelli esistenti in accuratezza, trasferibilità e robustezza su diversi dataset reali.

Zhenlin Qin, Leizhen Wang, Yancheng Ling + 2 more2026-03-03💬 cs.CL

Chain of Correction for Full-text Speech Recognition with Large Language Models

Questo articolo propone la "Chain of Correction" (CoC), un metodo basato su chat multi-turno che sfrutta i grandi modelli linguistici per correggere in modo stabile e controllato gli errori nella trascrizione completa del parlato, dimostrando prestazioni superiori rispetto ai sistemi esistenti.

Zhiyuan Tang, Dong Wang, Zhikai Zhou + 3 more2026-03-03💬 cs.CL

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs

Il paper introduce AnesSuite, la prima suite completa di dataset e benchmark per il ragionamento in anestesiologia nei modelli linguistici, e presenta Morpheus, un modello di base che dimostra significativi miglioramenti nelle competenze anestesistiche e mediche generali grazie a strategie di addestramento specifiche.

Xiang Feng, Wentao Jiang, Zengmao Wang + 5 more2026-03-03💬 cs.CL

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

Il paper presenta DRA-GRPO, un framework che migliora il ragionamento matematico dei modelli linguistici integrando una calibrazione della diversità basata sull'informazione mutua sottomodulare nel processo di ottimizzazione GRPO, permettendo così di superare la limitazione delle ricompense scalari standard e ottenere prestazioni superiori con dati di addestramento ridotti.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

When Large Language Models are More PersuasiveThan Incentivized Humans, and Why

Lo studio dimostra che i Large Language Models possono essere più persuasivi di umani incentivati in contesti interattivi, superandoli sia in scenari veritieri che ingannevoli (con variazioni tra modelli come Claude 3.5 Sonnet e DeepSeek v3), grazie a un'espressione di maggiore convinzione, sebbene il loro vantaggio diminuisca con interazioni ripetute.

Philipp Schoenegger, Francesco Salvi, Jiacheng Liu + 37 more2026-03-03💬 cs.CL

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

Il paper presenta mCLM, un modello linguistico chimico modulare che, tokenizzando le molecole in blocchi funzionali compatibili con la sintesi automatizzata, genera nuovi candidati farmacologici con proprietà migliorate e un'accessibilità sintetica superiore rispetto ai metodi esistenti, inclusi i modelli di grandi dimensioni come GPT-5.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Dynamic Token Reweighting for Robust Vision-Language Models

Il paper presenta DTR, una difesa innovativa a tempo di inferenza che mitiga gli attacchi jailbreak multimodali nei modelli visione-linguaggio ottimizzando dinamicamente i pesi dei token visivi nei cache KV, ottenendo così una maggiore robustezza senza compromettere le capacità generali del modello.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

Questo articolo presenta "Chain-of-Lure", un nuovo framework universale di jailbreak che sfrutta narrazioni sintetiche non vincolate e l'ottimizzazione tramite un modello LLM ausiliario per aggirare le difese dei modelli linguistici, rivelando vulnerabilità intrinseche e proponendo strategie di difesa.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

← Precedente Successivo →