cs.CL articoli | Gist.Science

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

Il paper introduce PonderLM-3, un framework di preaddestramento che abilita un ponderamento adattivo a livello di token tramite mascheramento differenziabile, ottimizzando l'allocazione della computazione aggiuntiva solo dove necessaria per migliorare le prestazioni riducendo al contempo i costi di inferenza.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Questo studio empirico mappizza le interazioni tra modelli linguistici e strategie di prompting nella generazione di codice Verilog, valutando l'impatto di diverse tecniche di ingegneria dei prompt e di ottimizzazione evolutiva su una vasta gamma di modelli di dimensioni e specializzazioni diverse.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Questo lavoro presenta una pipeline end-to-end ospitata localmente che converte le dispense in quiz a scelta multipla utilizzando un modello linguistico locale e controlli di qualità deterministici, garantendo privacy, trasparenza e sostenibilità ambientale senza dipendere da servizi API esterni.

Seine A. ShintaniWed, 11 Ma💻 cs

Fish Audio S2 Technical Report

Il documento presenta Fish Audio S2, un sistema open-source di sintesi vocale che supporta la generazione multi-parlante e multi-turno con controllo tramite istruzioni in linguaggio naturale, accompagnato da un motore di inferenza ottimizzato per lo streaming e risorse rilasciate pubblicamente.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Il paper presenta MASEval, un framework-agnostic che estende la valutazione dei sistemi multi-agente dall'analisi dei soli modelli a quella dell'intero sistema, dimostrando come le scelte implementative abbiano un impatto sulle prestazioni pari a quella della scelta del modello.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Lo studio dimostra che le feature apprese dagli Sparse Autoencoders nei modelli Gemma catturano significati astratti indipendentemente dalla scrittura, poiché le frasi serbe scritte in alfabeti latino e cirillico (che non condividono token) attivano rappresentazioni sovrapposte, suggerendo che la semantica prevale sulla forma ortografica.

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Il paper presenta MultiGraSCCo, un benchmark multilingue di anonimizzazione in dieci lingue creato tramite traduzione neurale per superare la scarsità di dati reali, fornendo oltre 2.500 annotazioni di informazioni personali validate da professionisti medici per lo sviluppo e la verifica di sistemi di protezione della privacy.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Questo studio valuta una strategia di screening senza etichette per elettrocatalizzatori a soluzione solida complessa, dimostrando che un baseline Word2Vec leggero, che utilizza combinazioni lineari di embedding elementari derivati da testi scientifici, spesso riduce efficacemente lo spazio dei candidati mantenendo prestazioni vicine a quelle ottimali misurate.

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

Il paper presenta ConFu, un nuovo framework di decoding speculativo che migliora l'efficienza dell'inferenza dei LLM permettendo ai modelli bozza di anticipare la direzione futura della generazione tramite token contemplativi e prompt soft, ottenendo tassi di accettazione e velocità superiori rispetto a EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou SunWed, 11 Ma💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Il paper introduce SciTaRC, un benchmark creato da esperti per valutare la capacità dei modelli di intelligenza artificiale di rispondere a domande su dati tabellari scientifici che richiedono ragionamento linguistico e calcoli complessi, evidenziando come gli attuali modelli, inclusi quelli open-weight più avanzati, falliscano significativamente a causa di un "collo di bottiglia nell'esecuzione" che compromette sia la comprensione iniziale che l'accuratezza dei calcoli.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Il paper presenta PathoScribe, un framework unificato basato su modelli linguistici di grandi dimensioni (LLM) che trasforma gli archivi di patologia statici in una "biblioteca vivente" interattiva, abilitando il recupero semantico, il ragionamento clinico e la costruzione automatizzata di coorti di ricerca con elevata precisione ed efficienza.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Il paper presenta VoxEmo, un benchmark completo per la valutazione dei modelli linguistici vocali nell'ambito del riconoscimento delle emozioni, che affronta le sfide della generazione testuale aperta e dell'ambiguità emotiva attraverso un kit di strumenti standardizzato e protocolli di valutazione adattati alla percezione umana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Il paper introduce BiCLIP, un framework semplice ed efficiente che migliora l'adattamento ai domini specifici per i modelli visione-linguaggio applicando una trasformazione geometrica strutturata ai feature multimodali, ottenendo risultati all'avanguardia su 11 benchmark.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Il documento presenta "Guardian", un sistema end-to-end basato su un pipeline multi-LLM che, attraverso l'uso di modelli specializzati, un motore di consenso e il fine-tuning QLoRA, supporta le indagini su persone scomparse e la pianificazione delle ricerche con un approccio conservativo e verificabile.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Questo studio presenta un framework automatizzato per l'analisi tematica dei dati qualitativi clinici che, combinando la raffinazione iterativa del codice con il tracciamento completo della provenienza, supera i metodi esistenti in termini di scalabilità, riproducibilità e allineamento con le annotazioni degli esperti.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Questo articolo propone un framework di auto-consistenza consapevole della fiducia che, analizzando un singolo percorso di ragionamento, seleziona adattivamente tra un singolo o più percorsi per ridurre i costi computazionali fino all'80% mantenendo un'accuratezza comparabile.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Il paper presenta Sentinel, un agente AI autonomo che supera i limiti di scalabilità della sorveglianza clinica tradizionale analizzando i dati dei pazienti remoti con una sensibilità superiore a quella dei singoli medici e a un costo irrisorio, offrendo così una soluzione praticabile per ridurre la mortalità.

Exclusive Self Attention

Il paper introduce l'attenzione esclusiva (XSA), una modifica semplice dell'attenzione self che vincola l'attenzione a catturare solo informazioni ortogonali al vettore del token stesso, migliorando le prestazioni di modellazione delle sequenze nei Transformer, specialmente all'aumentare della lunghezza della sequenza.

Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Questo studio diagnostica il "gap di modalità" che riduce le prestazioni dei modelli linguistici multimodali quando elaborano testo come immagini, identificando le cause degli errori di lettura e proponendo un metodo di auto-distillazione che ripristina l'accuratezza fino a livelli superiori al 92% senza dimenticare le conoscenze pregresse.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Questo studio introduce il framework "Bioalignment" per misurare e correggere i pregiudizi dei modelli linguistici a favore delle soluzioni sintetiche rispetto a quelle biologiche, dimostrando che un fine-tuning mirato su corpus scientifici può significativamente aumentare la preferenza per approcci bio-based senza compromettere le capacità generali del modello.

Trent R Northen, Mingxun WangWed, 11 Ma💬 cs.CL

← Precedente Successivo →