cs.CL papers | Gist.Science

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 introduceert een trainingsframework dat tijdens het pretrainen via differentieerbare masking leert om extra rekenkracht per token selectief toe te wijzen, waardoor de inferentie-efficiëntie en prestaties worden geoptimaliseerd zonder uniforme kosten voor alle tokens.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Dit empirische onderzoek analyseert de interacties tussen modelkenmerken en promptontwerp bij het genereren van Verilog-code, waarbij het via een gecontroleerde factoriële opzet patronen identificeert die generaliseren over verschillende modellen en benchmarks.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Deze paper presenteert een volledig lokaal, API-vrij systeem dat college-lectures omzet in meerkeuzevragen met deterministische kwaliteitscontrole, waarbij privacy, verantwoordingsplicht en groene AI worden bevorderd.

Seine A. ShintaniWed, 11 Ma💻 cs

Fish Audio S2 Technical Report

Dit paper introduceert Fish Audio S2, een open-source tekst-naar-spraak-systeem dat multi-spreker- en multi-turn-generatie combineert met instructievolgende controle via natuurlijke taal, ondersteund door een schaalbaar trainingsproces en een productieklaar inferentie-engine met een zeer lage latentie.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Dit paper introduceert MASEval, een framework-onafhankelijke bibliotheek die de evaluatie van LLM-agent-systemen uitbreidt van enkel modellen naar het volledige systeem, waarbij wordt aangetoond dat de keuze van het framework even belangrijk is als die van het model voor de prestaties.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Dit onderzoek toont aan dat Sparse Autoencoder-features in LLMs, getest met het Servische digrafie (Latijnse en Cyrillische schriften), semantische betekenis boven orthografische vorm prioriteren, waarbij de representaties scriptonafhankelijk zijn en sterker worden naarmate het model groter is.

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Dit paper introduceert MultiGraSCCo, een meerduidig benchmark voor anonimiseringsdoeleinden in tien talen, dat gebruikmaakt van synthetische data en machinevertaling om hoogwaardige, cultureel aangepaste annotaties van persoonsgegevens te genereren voor het testen en verbeteren van privacybeveiligde medische datasets.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Dit artikel presenteert een labelvrije screeningsstrategie voor combinatorische electrocatalysatoren die wetenschappelijke teksten omzet in composities-embeddings, waarbij een lichtgewicht Word2Vec-baseline vaak effectiever is dan geavanceerdere transformer-modellen in het reduceren van kandidaatcomposities zonder gebruik te maken van elektrochemische labels.

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

Dit paper introduceert ConFu, een nieuw raamwerk voor speculatieve decoding dat draft-modellen in staat stelt de toekomstige generatierichting te anticiperen via 'contemplate tokens' en soft prompts, waardoor de acceptatiekans en snelheid van LLM-inferentie aanzienlijk worden verbeterd ten opzichte van bestaande methoden zoals EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou SunWed, 11 Ma💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Het paper introduceert SciTaRC, een door experts samengesteld benchmark voor vragen over wetenschappelijke tabellen die taalredenering en complexe berekeningen vereisen, en laat zien dat zelfs de meest geavanceerde AI-modellen hierin falen door een universeel 'uitvoeringsprobleem' waarbij zowel code- als taalmodellen moeite hebben met het correct uitvoeren van plannen.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Het artikel presenteert PathoScribe, een geïntegreerd framework dat op grote schaal digitale pathologierapporten omzet in een interactieve, redenerende kennisbron die artsen in staat stelt om via natuurlijke taal gevallen te doorzoeken, onderzoeksgroepen te bouwen en klinische vragen te beantwoorden, wat leidt tot een aanzienlijke tijdsbesparing en verbeterde patiëntenzorg.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Dit paper introduceert VoxEmo, een uitgebreide benchmark voor spraak-gevoelsherkenning met spraak-LLMs die 35 corpora in 15 talen omvat en een nieuwe evaluatiemethode biedt die rekening houdt met de subjectiviteit en ambiguïteit van menselijke emoties.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Dit paper introduceert BiCLIP, een eenvoudig framework dat door het toepassen van een gestructureerde geometrische transformatie op multimodale kenmerken, gebruikmakend van een klein aantal ankers, state-of-the-art prestaties bereikt bij few-shot classificatie in gespecialiseerde domeinen.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Dit paper introduceert Guardian, een end-to-end systeem dat een meermodel-pipeline met consensusmechanismen en QLoRA-finetuning gebruikt om de eerste 72 uur van zoektochten naar vermiste personen te ondersteunen door middel van gecontroleerde, auditabele informatie-extractie.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Deze paper presenteert een geautomatiseerd kader voor thematische analyse van klinische kwalitatieve data dat door middel van iteratieve codeboekverfijning en volledige traceerbaarheid schaalbaarheid en reproduceerbaarheid verbetert, wat resulteert in statistisch significante kwaliteitsverbeteringen en een hoge overeenstemming met expert-annotaties.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Dit artikel introduceert een zelfvertrouwensgebaseerd kader dat een enkele redeneringstraject analyseert om adaptief te kiezen tussen enkelvoudige en meervoudige paden, waardoor de nauwkeurigheid van chain-of-thought redenering behouden blijft terwijl de tokenkosten tot 80% worden verlaagd.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Het onderzoek presenteert Sentinel, een autonoom AI-agent dat remote patient monitoring-data met een hogere gevoeligheid voor noodgevallen dan individuele clinici triageert, waardoor schaalbare en kosteneffectieve monitoring mogelijk wordt die de beperkingen van eerdere trials overbrugt.

Exclusive Self Attention

Dit paper introduceert 'Exclusive Self Attention' (XSA), een eenvoudige aanpassing van self-attention die de prestaties van Transformers verbetert door informatie van de token zelf uit te sluiten, waardoor contextmodelleren effectiever wordt, vooral bij langere sequenties.

Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Dit onderzoek analyseert de prestatieverschillen tussen tekst en afbeeldingen in multimodale taalmodellen, identificeert de oorzaken van deze 'modale kloof' en stelt een zelfdistillatiemethode voor die de nauwkeurigheid bij het lezen van tekst in afbeeldingen aanzienlijk verbetert zonder kennisverlies.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Deze studie introduceert de Bioalignment-metriek om te laten zien dat grote taalmodellen vaak een voorkeur hebben voor synthetische oplossingen ten opzichte van biologische systemen, en demonstreert dat gerichte fine-tuning met biologische literatuur deze bias effectief kan corrigeren zonder de algemene prestaties van het model te verslechteren.

Trent R Northen, Mingxun WangWed, 11 Ma💬 cs.CL

← Vorige Volgende →