cs.CL papers | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Dit artikel introduceert een compact bidirectioneel Transformer-model voor beeldbeschrijving dat door het koppelen van links-naar-rechts en rechts-naar-links stromen in één parallelle architectuur, context uit beide richtingen benut en nieuwe state-of-the-art resultaten bereikt op het MSCOCO-benchmark.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Dit artikel vestigt een formele wiskundige link tussen correspondentieanalyse en PMI-gebaseerde woordembeddings, introduceert varianten met worteltransformaties die op diverse benchmarks iets beter presteren dan standaardmethoden en concurrerend zijn met BERT, en analyseert de invloed van extreme waarden in de decompositie.

Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der HeijdenWed, 11 Ma💬 cs.CL

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Deze paper introduceert een unificerend raamwerk dat kwantisatie en verduidelijking als additief ruis modelleert en een afgeleid denoising-dekwantisatietransform toepast om stabiele training van neurale netwerken op willekeurige precisie- en sparsiteitsniveaus mogelijk te maken, waardoor state-of-the-art resultaten worden behaald in ultra-lage precisie-regimes zoals A1W1.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

Dit paper introduceert MKE-Coder, een nieuw raamwerk dat multi-axiale kennis en bewijsverificatie combineert om de nauwkeurigheid en snelheid van het automatisch coderen van ICD-codes in Chinese elektronische medische dossiers aanzienlijk te verbeteren.

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

Dit paper introduceert LoReSpeech, een corpus voor spraak-naar-spraakvertaling in talen met weinig bronnen, dat wordt opgebouwd door eerst kortere audio's te aligneren met transcripties via LoReASR en vervolgens langere opnames (zoals bijbelse teksten) uit te breiden om meertalige ASR-systemen en digitale inclusiviteit te bevorderen.

Samy OuzerroutWed, 11 Ma💬 cs.CL

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Dit paper introduceert GateLens, een LLM-agent die Relational Algebra gebruikt als formele tussenlaag om complexe tabulaire data in de automobielindustrie snel, transparant en betrouwbaar te analyseren, waardoor de analysetijd met meer dan 80% wordt gereduceerd ten opzichte van bestaande methoden.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Dit paper introduceert Stepwise Guided Policy Optimization (SGPO), een framework dat het probleem van volledig negatieve steekproefgroepen in GRPO oplost door gebruik te maken van een stapsgewijze beoordelaar voor diversiteit, waardoor het model effectief kan leren van fouten zonder dat de beoordelaar zelf correcte oplossingen hoeft te genereren.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

Dit paper introduceert MathQ-Verify, een nieuw vijfstapsproces dat zorgvuldig slecht gestelde wiskundeproblemen filtert door syntactische validatie, formalisering, logicacontrole en volledigheidstests, waardoor de kwaliteit van wiskundedatasets aanzienlijk verbetert en de F1-score tot 25 procentpunten stijgt ten opzichte van bestaande methoden.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

Dit paper introduceert UltraEdit, een trainings-, onderwerp- en geheugenloze methode voor het levenslang bijwerken van taalmodellen die aanzienlijk sneller en minder geheugenintensief is dan bestaande technieken, waardoor het zelfs op consumentenhardware mogelijk wordt om miljoenen bewerkingen uit te voeren zonder bestaande vaardigheden te verliezen.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

ThinkQE: Query Expansion via an Evolving Thinking Process

Het paper introduceert ThinkQE, een test-tijd framework voor query-expansie dat door middel van een denkproces en corpus-interactie de zoekresultaten diversifieert en consistent betere prestaties behaalt dan bestaande methoden op diverse webzoek-benchmarks.

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Dit paper introduceert ConLID, een methode voor superviserend contrastief leren die de taalidentificatie voor taakarme talen op domein-onafhankelijke data significant verbetert zonder de prestaties voor talen met veel data te verstoren.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Deze paper introduceert OPENXRD, een uitgebreid benchmarkkader dat de prestaties van talloze talmodellen evalueert bij het beantwoorden van kristallografische vragen en aantoont dat contextuele informatie, vooral van experts, de prestaties van middelgrote modellen aanzienlijk verbetert.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

TaoSR1 is een nieuw raamwerk dat Large Language Models direct inzetbaar maakt voor e-commerce relevantiezearch door een drie-staps training te gebruiken die redeneervermogen installeert, hallucinaties tegengaat en efficiënte online implementatie mogelijk maakt, wat leidt tot aanzienlijk betere prestaties dan bestaande methoden.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

Deze paper introduceert AgentCoMa, een nieuw benchmark voor het testen van LLM's op gecombineerd gezond verstand en wiskundig redeneren in realistische scenario's, waarbij blijkt dat modellen bij gemengde taken aanzienlijk slechter presteren dan bij afzonderlijke stappen, ondanks dat mensen dit probleem niet ervaren.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek ReiWed, 11 Ma💬 cs.CL

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

Dit paper identificeert het fenomeen 'Reasoning-Induced Misalignment', waarbij verbeterde redeneervermogens leiden tot veiligheidsrisico's, en biedt een mechanistische verklaring gebaseerd op representatieanalyse die aantoont hoe specifieke aandachtshoofden en activatieverstrengeling in neurale netwerken dit misalignement veroorzaken.

Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan HeWed, 11 Ma💬 cs.CL

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Deze paper introduceert SimpleQA Verified, een betrouwbaarder en uitdagender benchmark van 1.000 prompts voor het evalueren van de feitelijke nauwkeurigheid van grote taalmodellen, waarbij Gemini 2.5 Pro met een F1-score van 55,6 de beste prestatie levert.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan DasWed, 11 Ma💬 cs.CL

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Dit paper introduceert SEER, een zelfoptimaliserend framework dat de Chain-of-Thought-redenering van grote taalmodellen adaptief comprimeert om de rekenkosten en latentie te verlagen zonder in te leveren op de nauwkeurigheid.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

Dit paper introduceert de AQE-methode om aan te tonen dat bestaande methoden voor het detecteren van hallucinaties bij taalmodellen grotendeels afhankelijk zijn van benchmarkspecifieke trucs in plaats van echte bewustwording van interne informatie.

Yeongbin Seo, Dongha Lee, Jinyoung YeoWed, 11 Ma💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Dit artikel introduceert VSSFlow, een verenigd flow-matching framework dat video-geconditioneerde geluids- en spraakgeneratie succesvol combineert door middel van een ontward condition-aggregatiemechanisme binnen een Diffusion Transformer-architectuur.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Dit paper introduceert v-HUB, een nieuw benchmark voor het begrijpen van videohumor dat de beperkingen van multimodale modellen blootlegt en aantoont dat het integreren van geluid de prestaties verbetert.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI