cs.CL articoli | Gist.Science

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

Il paper presenta EC-Net, un framework iperbolico basato su ipergrafi che utilizza embedding nello spazio di Poincaré e apprendimento contrastivo per migliorare la robustezza e l'accuratezza del riconoscimento delle emozioni multimodali, specialmente in presenza di rumore o dati mancanti.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Il paper presenta ModalImmune, un framework di addestramento che garantisce la resilienza dei sistemi multimodali alla perdita o corruzione dei canali di input, insegnando al modello a sviluppare rappresentazioni congiunte robuste attraverso un processo controllato di collasso delle informazioni modali.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Il paper introduce CondMedQA, il primo benchmark per la risposta condizionata alle domande biomediche, e CGR, un nuovo framework che migliora il ragionamento medico modellando esplicitamente le condizioni specifiche del paziente per selezionare le conoscenze appropriate.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei HanTue, 10 Ma💬 cs.CL

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Il paper introduce MrBERT, una famiglia di encoder multilingue basata sull'architettura ModernBERT e pre-addestrata su 35 lingue, che combina prestazioni di punta in domini specifici e linguaggi locali con l'efficienza operativa grazie all'apprendimento di rappresentazioni Matryoshka (MRL).

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta VillegasTue, 10 Ma🤖 cs.LG

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

Il paper introduce CeRA, un adattatore parallelo a livello di pesi che supera i limiti lineari del LoRA nelle attività di ragionamento complesso espandendo il manifold tramite gating SiLU e dropout strutturale, ottenendo così una maggiore efficienza spettrale e prevenendo il collasso del rango.

Hung-Hsuan ChenTue, 10 Ma🤖 cs.LG

KVSlimmer: Theoretical Insights and Practical Optimizations for Asymmetric KV Merging

Il paper introduce KVSlimmer, un algoritmo efficiente e privo di gradienti fondato su un quadro teorico che sfrutta l'asimmetria spettrale delle proiezioni KV per ridurre significativamente i costi di memoria e latenza dell'LLM mantenendo o migliorando le prestazioni.

Lianjun Liu, Hongli An, Weiqi Yan, Xin Du, Shengchuan Zhang, Huazhong Liu, Yunshan ZhongTue, 10 Ma💬 cs.CL

Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Questo studio presenta un framework di previsione conforme che garantisce coperture finite per l'estrazione di entità mediche basata su LLM, rivelando come la calibrazione dipenda dal dominio clinico e dimostrando che l'adattamento specifico del settore permette di raggiungere un'affidabilità superiore al 90% sia su documenti strutturati che su rapporti radiologici liberi.

Manil Shrestha, Edward KimTue, 10 Ma💬 cs.CL

CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation

Il lavoro introduce CyclicJudge, una strategia di assegnazione round-robin dei giudici che, basandosi su una decomposizione della varianza, elimina i bias sistematici nelle valutazioni LLM mantenendo invariati i costi computazionali rispetto alle valutazioni con un singolo giudice.

Ziyi Zhu, Olivier Tieleman, Alexey Bukhtiyarov, Jinghong ChenTue, 10 Ma💬 cs.CL

PrivMedChat: End-to-End Differentially Private RLHF for Medical Dialogue Systems

Il paper presenta PrivMedChat, un framework end-to-end per l'addestramento di sistemi di dialogo medici che integra la privacy differenziale in tutte le fasi del RLHF, garantendo la protezione dei dati sensibili senza richiedere etichettatura clinica costosa.

Sudip BhujelTue, 10 Ma💬 cs.CL

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Lo studio dimostra che il metodo CDD per il rilevamento dell'inquinamento dei dati nei piccoli modelli linguistici è inefficace, poiché dipende dalla memorizzazione verbale e viene costantemente superato da approcci basati sulla probabilità come la perplessità e Min-k% Prob.

Omer Sela (Tel Aviv University)Tue, 10 Ma💬 cs.CL

vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM

Il paper presenta vLLM Hook, un plugin open-source che abilita la programmazione passiva e attiva degli stati interni dei modelli LLM su vLLM, permettendo applicazioni come il rilevamento di prompt injection, il miglioramento del RAG e il controllo tramite attivazioni.

Ching-Yun Ko, Pin-Yu ChenTue, 10 Ma🤖 cs.LG

ARC-AGI-2 Technical Report

Il rapporto tecnico presenta un sistema basato su transformer che migliora le prestazioni nell'ARC-AGI combinando l'inferenza neurale con priors strutturati e adattamento online, ottenendo risultati superiori rispetto ai solutori precedenti e avvicinandosi alla generalizzazione di livello umano.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe CarthyTue, 10 Ma💬 cs.CL

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Questo studio individua il "P0 Sink Circuit", un meccanismo semplice e privo di contenuto semantico che si forma nelle prime fasi dell'addestramento e nelle prime due strati dei modelli linguistici, spiegando come e perché si generi l'attenzione sismica sul primo token dell'input.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng QiuTue, 10 Ma🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

Questo lavoro unifica la spiegazione dell'emergere di fenomeni meccanicistici nei modelli linguistici, dimostrando che le strutture gerarchiche nel processo di generazione dei dati sono il fattore chiave, utilizzando corpora sintetici basati su grammatiche probabilistiche per validare teoricamente e empiricamente tale ipotesi.

Jonas Rohweder, Subhabrata Dutta, Iryna GurevychTue, 10 Ma🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

Il paper presenta HEF (Hierarchical Embedding Fusion), un approccio a due stadi per la generazione di codice che comprime offline i repository in una gerarchia di vettori densi e li integra online tramite pseudo-token, ottenendo prestazioni di accuratezza comparabili ai metodi basati su snippet ma con una latenza end-to-end ridotta fino a 26 volte.

Nikita Sorokin, Ivan Sedykh, Valentin MalykhTue, 10 Ma🤖 cs.LG

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

Questo studio dimostra che i giudizi automatizzati basati su LLM falliscono nel valutare in modo affidabile la robustezza avversariale a causa di significativi spostamenti distributivi, portando spesso a risultati vicini al caso casuale e a tassi di successo ingannevoli, e propone pertanto nuovi benchmark per migliorare la valutazione.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan GünnemannTue, 10 Ma💬 cs.CL

Rethinking Personalization in Large Language Models at the Token Level

Il paper propone PerContrast e la funzione di perdita PerCE, un metodo che stima e potenzia l'importanza dei token specifici per l'utente a livello causale, migliorando significativamente le prestazioni di personalizzazione dei modelli linguistici su larga scala con costi computazionali minimi.

Chenheng Zhang, Yijun Lu, Lizhe Fang, Chunyuan Zheng, Jiajun Chai, Xiaohan Wang, Guojun Yin, Wei Lin, Yisen Wang, Zhouchen LinTue, 10 Ma💬 cs.CL

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Questo paper introduce un metodo per allineare la confidenza degli LLM alla correttezza delle loro risposte utilizzando punteggi normalizzati basati su token di ancoraggio, dimostrando che il fine-tuning supervisionato migliora l'affidabilità rispetto ai metodi di apprendimento per rinforzo e abilitando applicazioni pratiche come la generazione aumentata da recupero adattiva.

Xie Xiaohu, Liu Xiaohu, Yao BenjaminTue, 10 Ma🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Il paper introduce GraphSkill, un framework agentic che migliora il ragionamento su grafi complessi tramite un recupero gerarchico guidato dalla documentazione e un agente di autodebugging, validato su un nuovo dataset dedicato.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

Il paper introduce SR-TTT, un modello di linguaggio che risolve il problema della perdita di informazioni nei metodi Test-Time Training puri, integrando un meccanismo di memoria residua a gate basato sulla sorpresa per preservare in modo efficiente i token critici mantenendo un footprint di memoria costante.

Swamynathan V PTue, 10 Ma🤖 cs.LG

← Precedente Successivo →