cs.CL articoli | Gist.Science

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

HiMAP-Travel è un framework di pianificazione gerarchico multi-agente che risolve i problemi di pianificazione a lungo termine con vincoli rigidi, come budget e diversità, suddividendo il compito in coordinamento strategico ed esecuzione parallela dei giorni, ottenendo prestazioni superiori rispetto alle soluzioni sequenziali esistenti.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Il paper presenta SharedLLM, un framework innovativo che estende la finestra contestuale dei modelli linguistici fino a 128K token tramite un meccanismo di "self-injection" a due livelli che comprime e recupera informazioni in modo efficiente, ottenendo prestazioni superiori con un ridotto footprint di memoria e velocità di inferenza notevolmente aumentate.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

Il paper presenta TSEmbed, un framework di embedding multimodale universale che combina Mixture-of-Experts e LoRA con un nuovo campionamento negativo consapevole degli esperti per risolvere i conflitti tra task e raggiungere prestazioni all'avanguardia su benchmark multimodali e dataset industriali.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Questo documento presenta il framework Privacy-Aware Camera 2.0, che risolve il paradosso tra sicurezza e privacy negli ambienti sensibili trasformando le immagini grezze in vettori di caratteristiche astratti e irreversibili tramite un'architettura edge-cloud, permettendo così il riconoscimento comportamentale e la ricostruzione semantica senza esporre i dati visivi originali.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Il paper presenta RLSTA, un approccio di apprendimento per rinforzo che utilizza risposte a turno singolo come ancoraggi stabili per superare l'inerzia contestuale e migliorare l'affidabilità delle interazioni multi-turno degli LLM.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

Il paper propone CSV, un nuovo paradigma che riduce le invocazioni degli LLM a complessità sublineare per il filtraggio semantico tramite clustering, campionamento e strategie di votazione, garantendo un'efficienza superiore rispetto agli approcci attuali senza compromettere l'accuratezza.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Questo articolo introduce il concetto di Campo Gravitazionale dell'Attenzione (AGF) per decodificare le relazioni posizionali nei modelli linguistici di grandi dimensioni, dimostrando come la separazione tra codifiche posizionali e incorporamenti semantici, allineata alla legge di gravitazione universale, ottimizzi l'architettura del modello e ne migliori l'interpretabilità.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Questo studio confronta l'efficacia e i costi dei sistemi di memoria basati su fatti con quelli degli LLM a lungo contesto, dimostrando che mentre i secondi offrono un migliore richiamo fattuale, i primi diventano economicamente superiori dopo un numero limitato di interazioni grazie a un profilo di costi più stabile.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Questo studio meta-analitico rivela che i modelli di linguaggio automatico, in particolare quelli basati su architetture decoder-only, mostrano prestazioni inferiori rispetto agli umani nella valutazione di risposte brevi, con discrepanze significative legate alla difficoltà percepita, alla tokenizzazione e a pregiudizi razziali, suggerendo la necessità di un ripensamento nella progettazione dei sistemi per l'istruzione ad alto rischio.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

Il paper propone GDS, un metodo innovativo che rileva i dati di pre-addestramento nei grandi modelli linguistici analizzando le deviazioni dei gradienti durante l'ottimizzazione, superando i limiti delle tecniche esistenti grazie a prestazioni superiori e una maggiore trasferibilità tra dataset.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Il documento presenta il primo approccio per l'acquisizione simultanea di risonanza magnetica in tempo reale, EEG e EMG di superficie, integrando un pipeline di soppressione degli artefatti per studiare in modo completo i processi neurali, muscolari e articolatori alla base della produzione del parlato.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Why Is RLHF Alignment Shallow? A Gradient Analysis

Questo articolo dimostra che l'allineamento basato su RLHF è intrinsecamente superficiale perché i gradienti di sicurezza si concentrano esclusivamente sui token in cui il danno è determinato, proponendo un nuovo obiettivo basato su penalità di recupero per garantire segnali di gradiente su tutta la sequenza.

Robin Young2026-03-06🤖 cs.LG

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

Il paper presenta SinhaLegal, un corpus di riferimento di circa 2 milioni di parole composto da 1.206 documenti legislativi in lingua singalese, elaborato con tecniche OCR e pulizia manuale per supportare compiti di elaborazione del linguaggio naturale come l'estrazione di informazioni e l'analisi nel dominio giuridico.

Minduli Lasandi, Nevidu Jayatilleke2026-03-06💬 cs.CL

HACHIMI: Scalable and Controllable Student Persona Generation via Orchestrated Agents

Il paper presenta HACHIMI, un framework multi-agente che genera 1 milione di profili studenti sintetici allineati a teorie educative e controllabili per distribuzione, creando un corpus standardizzato per il benchmarking e le simulazioni sociali.

Yilin Jiang, Fei Tan, Xuanyu Yin + 2 more2026-03-06💬 cs.CL

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

Il paper introduce FireBench, un benchmark open-source basato su oltre 2.400 campioni reali che valuta la capacità di seguire le istruzioni di 11 modelli LLM in contesti aziendali e API-driven, colmando il divario rispetto alle attuali valutazioni focalizzate sugli assistenti conversazionali.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Free Lunch for Pass@ $k$ ? Low Cost Diverse Sampling for Diffusion Language Models

Gli autori propongono un metodo di campionamento privo di addestramento e a basso costo che migliora la diversità e le prestazioni Pass@ $k$ dei Modelli Linguistici Diffusivi penalizzando attivamente la ridondanza tra i campioni generati, ottenendo risultati superiori su benchmark come HumanEval e GSM8K.

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Lo studio valuta la capacità dei modelli linguistici di grandi dimensioni (LLM) di replicare l'incertezza e le interpretazioni degli esperti nell'analisi qualitativa dei valori umani secondo la teoria di Schwartz, rivelando che, sebbene le prestazioni medie siano elevate e gli ensemble migliorino i risultati, i modelli mostrano ancora discrepanze nelle strutture di incertezza e nei bias sistematici rispetto agli analisti umani.

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Lo studio dimostra che gli interventi di allineamento nei modelli linguistici, sebbene efficaci in inglese, possono provocare un "effetto rimbalzo" in altre lingue come il giapponese, generando una dissociazione tra sicurezza superficiale e patologie collettive che riflette le dinamiche culturali e linguistiche dei dati di addestramento.

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Questo articolo presenta una pipeline innovativa basata su LLM agentic per la SemEval-2026 Task 10, che utilizza un design decoupled con Dynamic Discriminative Chain-of-Thought e un'architettura "Anti-Echo Chamber" per estrarre marcatori psicolinguistici e rilevare l'adesione alle teorie del complotto, ottenendo significativi miglioramenti nelle prestazioni rispetto alla baseline.

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

Il documento presenta il sistema AILS-NTUA per la SemEval-2026 Task 3, che combina l'adattamento fine di encoder linguistici e il tuning istruito efficiente di grandi modelli linguistici per affrontare con successo l'analisi multidimensionale del sentiment basato su aspetti in un contesto multilingue e multi-dominio.

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

← Precedente Successivo →

cs.CL