cs.CL articoli | Gist.Science

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Il paper presenta MOSAIC, un framework di post-addestramento che allinea i modelli linguistici agenti per un uso sicuro degli strumenti multi-step, strutturando l'inferenza in un ciclo di pianificazione, verifica e azione o rifiuto, e utilizzando l'apprendimento per rinforzo basato su preferenze per ridurre significativamente i comportamenti dannosi e le fughe di dati senza compromettere le prestazioni nei compiti benigni.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Understanding and Mitigating Dataset Corruption in LLM Steering

Questo studio dimostra che, sebbene il contrastive steering per i LLM sia robusto a una moderata corruzione dei dati, è vulnerabile ad alterazioni maliziose su larga scala, ma tale problema può essere efficacemente mitigato sostituendo il calcolo della media standard con un stimatore robusto della media.

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals

Il documento presenta DGRO, un metodo che allinea i modelli linguistici alle norme delle comunità online sfruttando la densità geometrica delle risposte implicitamente accettate, eliminando così la necessità di supervisione esplicita tramite preferenze.

Patrick Gerard, Svitlana Volkova2026-03-04💬 cs.CL

Using Learning Progressions to Guide AI Feedback for Science Learning

Questo studio dimostra che un sistema di generazione automatica di rubriche basato sulle progressioni di apprendimento può produrre feedback di qualità da parte dell'intelligenza artificiale paragonabile a quello generato da esperti umani per le spiegazioni scientifiche scritte degli studenti.

Xin Xia, Nejla Yuruk, Yun Wang + 1 more2026-03-04💬 cs.CL

Factuality Challenges in the Era of Large Language Models

Questo articolo esamina le sfide di fattualità e i rischi di disinformazione posti dalle grandi modelli linguistici, proponendo soluzioni tecnologiche, normative e di alfabetizzazione per garantire la veridicità nell'era dell'IA generativa.

Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha + 15 more2026-03-03💬 cs.CL

Using ChatGPT for Data Science Analyses

Questo articolo valuta il potenziale di ChatGPT come co-pilota nei flussi di lavoro di data science, esaminando le sue capacità nell'esplorazione dei dati, nella visualizzazione e nelle attività di modellazione supervisionata e non supervisionata, pur sottolineando la necessità di considerare attentamente i suoi limiti nell'analisi empirica.

Ozan Evkaya, Miguel de Carvalho2026-03-03📊 stat

Large Language Model Agent in Financial Trading: A Survey

Questa rassegna offre una panoramica completa sull'uso degli agenti basati su modelli linguistici di grandi dimensioni (LLM) nel trading finanziario, analizzandone architetture, dati, prestazioni e sfide per delineare le future direzioni di ricerca.

Han Ding, Yinheng Li, Junhao Wang + 3 more2026-03-03💬 cs.CL

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

Il paper introduce SynthKG e Distill-SynthKG, un approccio che genera dati sintetici di alta qualità per addestrare modelli più piccoli, permettendo la costruzione scalabile di grafi della conoscenza documentali che superano i modelli più grandi e migliorano significativamente le prestazioni nel recupero e nel question answering.

Prafulla Kumar Choubey, Xin Su, Man Luo + 9 more2026-03-03💬 cs.CL

Polynomial, trigonometric, and tropical activations

Questo articolo dimostra che l'utilizzo di funzioni di attivazione basate su basi ortonormali (polinomiali, trigonometriche e tropicali), combinate con un'inizializzazione che preserva la varianza, permette di addestrare con successo modelli profondi come GPT-2 e ConvNeXt risolvendo i problemi di esplosione e svanimento dei gradienti, offrendo al contempo nuove prospettive sull'interpretazione strutturale delle reti neurali e facilitando il fine-tuning tramite approssimazione di attivazioni classiche.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

Il paper presenta AStar, un metodo di ragionamento strutturato automatico e privo di addestramento che migliora le capacità di ragionamento multimodale integrando "carte di pensiero" adattive, ottenendo prestazioni superiori rispetto a GPT-4o su benchmark matematici senza i costi computazionali delle ricerche esplicite o la complessità del post-training.

Jinyang Wu, Mingkuan Feng, Guocheng Zhai + 7 more2026-03-03💬 cs.CL

Enhancing Hallucination Detection through Noise Injection

Questo lavoro propone un metodo senza addestramento che migliora significativamente il rilevamento delle allucinazioni nei grandi modelli linguistici iniettando rumore nei parametri o nelle attivazioni nascoste durante il campionamento per catturare meglio l'incertezza del modello secondo una prospettiva bayesiana.

Litian Liu, Reza Pourreza, Sunny Panchal + 4 more2026-03-03💬 cs.CL

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

Questo paper introduce LLM-ProS, una nuova tecnica di valutazione che analizza le prestazioni di cinque modelli linguistici avanzati su 166 problemi delle finali mondiali dell'ICPC, evidenziando le loro capacità di ragionamento, accuratezza e limiti nell'affrontare compiti di programmazione competitiva.

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Il paper propone un framework di adattamento robusto per i Modelli Multimodali di grandi dimensioni che migliora l'accuratezza e la generalizzazione nel rilevamento dei meme offensivi, superando le prestazioni dei sistemi supervisionati tradizionali e offrendo maggiore interpretabilità.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Il paper presenta MemeXplain, un nuovo dataset spiegabile per la rilevazione di meme propagandistici e d'odio, e propone un approccio di ottimizzazione multi-stadio che, utilizzando modelli visione-linguaggio, supera lo stato dell'arte migliorando sia la classificazione che la generazione di spiegazioni.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Il paper propone un approccio di Reinforcement Learning che ottimizza la calibrazione della confidenza dei Large Language Models tramite una funzione di ricompensa basata sulla regola di punteggio logaritmica, integrando la stima dell'incertezza direttamente nel processo generativo e ottenendo modelli meglio calibrati e capaci di generalizzare su compiti non visti.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Questo studio analizza meta-analiticamente 92 modelli linguistici open-source per dimostrare che l'integrazione di fattori come la composizione dei dati e le scelte architetturali, oltre alla semplice scala, migliora significativamente la previsione delle prestazioni downstream e offre indicazioni pratiche per la progettazione di modelli più efficienti.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

Large Language Models in Bioinformatics: A Survey

Questa rassegna sistematica esamina come i modelli linguistici di grandi dimensioni stiano rivoluzionando la bioinformatica attraverso l'analisi di dati genomici e proteomici, affrontando le sfide attuali e delineando le future direzioni verso l'applicazione clinica e la medicina di precisione.

Zhenyu Wang, Zikang Wang, Jiyue Jiang + 3 more2026-03-03🧬 q-bio

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Il paper presenta LLaVE, un nuovo framework di modelli di embedding multimodali che utilizza un apprendimento contrastivo ponderato per la difficoltà per superare i limiti delle perdite standard, ottenendo prestazioni all'avanguardia su 36 dataset e dimostrando una forte capacità di generalizzazione zero-shot.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Il paper presenta Vision-R1, un modello MLLM che potenzia le capacità di ragionamento multimodale attraverso un'inizializzazione "cold-start" su un dataset di ragionamento a catena di pensiero generato automaticamente e un addestramento RL con una strategia di soppressione progressiva del pensiero, ottenendo prestazioni paragonabili a OpenAI O1 su benchmark matematici.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Questo articolo dimostra teoricamente ed empiricamente che la previsione del prossimo token nelle LLM permette di apprendere rappresentazioni interpretabili dall'uomo, che corrispondono approssimativamente ai logaritmi delle probabilità posteriori di concetti latenti discreti, fornendo così una base teorica per l'ipotesi delle rappresentazioni lineari e per la valutazione degli sparse autoencoder.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

← Precedente Successivo →