cs.CL articoli | Gist.Science

StarWhisper Telescope: An AI framework for automating end-to-end astronomical observations

Il documento presenta StarWhisper Telescope, un framework basato su agenti di intelligenza artificiale che automatizza l'intero processo osservativo astronomico, dalla pianificazione all'analisi dei dati, riducendo l'intervento umano e permettendo una collaborazione efficace tra astronomi professionisti e amatoriali.

Cunshi Wang, Yu Zhang, Yuyang Li + 25 more2026-03-04🔭 astro-ph

A Survey of Query Optimization in Large Language Models

Questo articolo presenta un'analisi sistematica dell'ottimizzazione delle query nei modelli linguistici di grandi dimensioni, introducendo un nuovo framework di ciclo di vita, una tassonomia della complessità e una revisione approfondita delle tecniche fondamentali per migliorare le prestazioni dei sistemi RAG.

Mingyang Song, Mao Zheng2026-03-04💬 cs.CL

Evaluating Spoken Language as a Biomarker for Automated Screening of Cognitive Impairment

Lo studio dimostra che l'uso di modelli di machine learning spiegabili su biomarcatori linguistici del parlato permette uno screening automatizzato e generalizzabile del deterioramento cognitivo, offrendo un approccio scalabile per la triage clinico e il monitoraggio domiciliare.

Maria R. Lima, Alexander Capstick, Fatemeh Geranmayeh + 4 more2026-03-04💬 cs.CL

Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

Questo studio empirico dimostra che l'iniezione controllata di miscalibrazione tramite una tecnica di sovrappesatura selettiva riduce significativamente le allucinazioni nei modelli linguistici mantenendo l'accuratezza, sfidando così le politiche universali di deduplicazione e confermando la relazione teorica tra tasso di monofatti, miscalibrazione e allucinazioni.

Miranda Muqing Miao, Michael Kearns2026-03-04🤖 cs.AI

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Il paper presenta GOAT, un framework che migliora l'adattamento LoRA integrando dinamicamente prior SVD tramite un'architettura Mixture-of-Experts e allineando l'ottimizzazione con un fattore di scala teorico, ottenendo prestazioni all'avanguardia che colmano il divario con il Full Fine-Tuning su 25 dataset.

Chenghao Fan, Zhenyi Lu, Sichen Liu + 4 more2026-03-04💬 cs.CL

$\texttt{SEM-CTRL}$ : Semantically Controlled Decoding

Il paper presenta \texttt{SEM-CTRL}, un approccio unificato che integra la ricerca ad albero Monte Carlo a livello di token e le grammatiche di risposta logica per imporre vincoli sintattici e semantici durante il decoding dei LLM, garantendo così output validi senza necessità di fine-tuning e permettendo anche a modelli piccoli di superare le prestazioni di varianti più grandi.

Mohammad Albinhassan, Pranava Madhyastha, Alessandra Russo2026-03-04🤖 cs.AI

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Il paper introduce LINGOLY-TOO, un benchmark di ragionamento linguistico che utilizza obfuscazioni ortografiche per isolare le vere capacità di ragionamento dei modelli linguistici, dimostrando che le loro prestazioni migliori sono spesso sovrastimate dalla conoscenza memorizzata piuttosto che dalla logica deduttiva.

Jude Khouja, Lingyi Yang, Karolina Korgul + 6 more2026-03-04🤖 cs.AI

BioChemInsight: An Online Platform for Automated Extraction of Chemical Structures and Activity Data from Patents

BioChemInsight è una pipeline open-source che automatizza l'estrazione di strutture chimiche e dati di attività dai brevetti, superando le limitazioni degli strumenti attuali e ampliando significativamente lo spazio chimico disponibile per la ricerca farmaceutica rispetto ai database pubblici come ChEMBL.

Zhe Wang, Fangtian Fu, Wei Zhang + 10 more2026-03-04🧬 q-bio

Param $Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

Il paper introduce Param $Î$ , un metodo innovativo che trasferisce le capacità di post-addestramento da un modello a un'architettura base aggiornata calcolando e applicando la differenza dei pesi, consentendo così di ottenere prestazioni comparabili all'addestramento diretto a costo computazionale nullo.

Sheng Cao, Mingrui Wu, Karthik Prasad + 2 more2026-03-04🤖 cs.AI

Adaptive Social Learning via Mode Policy Optimization for Language Agents

Il paper propone il framework ASL e l'algoritmo AMPO per abilitare agenti linguistici a un'apprendimento sociale adattivo che regola dinamicamente la profondità del ragionamento in base al contesto, migliorando le prestazioni e riducendo l'uso dei token rispetto ai metodi esistenti.

Minzheng Wang, Yongbin Li, Haobo Wang + 6 more2026-03-04🤖 cs.AI

Talk to Your Slides: High-Efficiency Slide Editing via Language-Driven Structured Data Manipulation

Il paper presenta "Talk-to-Your-Slides", un agente di editing delle diapositive ad alta efficienza che, sfruttando la manipolazione di dati strutturati tramite linguaggio naturale invece della visione artificiale, garantisce modifiche precise, riduce costi e tempi di elaborazione e introduce il nuovo benchmark TSBench.

Kyudan Jung, Hojun Cho, Jooyeol Yun + 3 more2026-03-04💬 cs.CL

Efficient Agent Training for Computer Use

Il paper introduce PC Agent-E, un framework di addestramento efficiente che, partendo da un numero limitato di traiettorie umane e arricchendole con dati sintetizzati tramite Claude 3.7 Sonnet, supera significativamente sia l'addestramento su dati umani puri che la distillazione diretta dal modello base, ottenendo risultati record sul benchmark WindowsAgentArena-V2.

Yanheng He, Jiahe Jin, Pengfei Liu2026-03-04🤖 cs.AI

REFLEX: Metacognitive Reasoning for Reflective Zero-Shot Robotic Planning with Large Language Models

Il paper presenta REFLEX, un framework che integra l'apprendimento metacognitivo nei modelli linguistici di grandi dimensioni per abilitare robot collaborativi a pianificare, riflettere e creare soluzioni innovative in scenari zero-shot, superando così i limiti delle approcci basati su prompt statici.

Wenjie Lin, Jin Wei-Kocsis, Jiansong Zhang + 4 more2026-03-04💬 cs.CL

BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage

Il paper presenta BitBypass, un nuovo attacco di jailbreak a scatola nera che sfrutta il camuffamento di bitstream separati da trattini per aggirare con successo e in modo più stealth le misure di sicurezza di modelli linguistici allineati all'avanguardia.

Kalyan Nakka, Nitesh Saxena2026-03-04💬 cs.CL

DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

Il paper presenta DiaBlo, un metodo di fine-tuning efficiente che aggiorna solo i blocchi diagonali delle matrici di peso, offrendo una convergenza stabile e prestazioni competitive rispetto al fine-tuning completo e a LoRA, senza richiedere prodotti di matrici a basso rango o strategie di ottimizzazione personalizzate.

Selcuk Gurses, Aozhong Zhang, Yanxia Deng + 5 more2026-03-04🤖 cs.AI

Go-Browse: Training Web Agents with Structured Exploration

Il paper presenta Go-Browse, un metodo che utilizza l'esplorazione strutturata dei siti web per raccogliere dati su larga scala e addestrare agenti web, ottenendo risultati superiori allo stato dell'arte su benchmark come WebArena.

Apurva Gandhi, Graham Neubig2026-03-04💬 cs.CL

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Il paper presenta HSSBench, un benchmark multilingue composto da oltre 13.000 campioni e sviluppato con un nuovo pipeline di generazione dati collaborativa, progettato per valutare e stimolare le capacità di ragionamento interdisciplinare dei Modelli Linguistici Multimodali nel campo delle Scienze Umane e Sociali, un'area attualmente sottorappresentata nelle valutazioni esistenti.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Search Arena: Analyzing Search-Augmented LLMs

Il paper introduce "Search Arena", un vasto dataset crowdsourced di oltre 24.000 interazioni multi-turno con modelli linguistici potenziati dalla ricerca web, che rivela come le preferenze degli utenti siano influenzate dalla quantità di citazioni e dalla tipologia di fonti, sottolineando al contempo l'importanza di integrare la ricerca esterna per migliorare l'affidabilità dei modelli.

Mihran Miroyan, Tsung-Han Wu, Logan King + 8 more2026-03-04💬 cs.CL

You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Models

Il paper propone ManyICL, un nuovo approccio di fine-tuning in contesto "many-shot" che, trattando ogni esempio nel contesto come obiettivo di addestramento, riduce significativamente il divario prestazionale rispetto al fine-tuning dedicato e mitiga l'oblio catastrofico nei modelli linguistici di grandi dimensioni.

Wenchong He, Liqian Peng, Zhe Jiang + 1 more2026-03-04🤖 cs.AI

LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Questo studio introduce il "Branching Factor" come metrica per dimostrare come l'allineamento dei modelli linguistici riduca drasticamente la diversità delle generazioni spingendo il modello verso traiettorie a bassa entropia, un effetto che viene sfruttato anche dal ragionamento a catena (CoT) per garantire maggiore stabilità.

Chenghao Yang, Sida Li, Ari Holtzman2026-03-04🤖 cs.AI

← Precedente Successivo →

cs.CL