cs.CL Arbeiten | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Die vorgestellte Arbeit stellt ein kompaktes bidirektionales Transformer-Modell für die Bildbeschriftung vor, das durch die parallele Kopplung von links-rechts- und rechts-links-Flüssen sowohl implizit als auch explizit bidirektionale Kontexte nutzt und durch Satz- und Wortebene-Ensemble-Methoden neue State-of-the-Art-Ergebnisse auf dem MSCOCO-Datensatz erzielt.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Diese Studie stellt eine formale Verbindung zwischen der Korrespondenzanalyse und PMI-basierten Wort-Embeddings her, führt transformierte Varianten (ROOT-CA und ROOTROOT-CA) ein und zeigt, dass diese auf mehreren Benchmarks leicht bessere Ergebnisse als traditionelle PMI-Methoden erzielen und mit kontextuellen Embeddings wie BERT konkurrieren können.

Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der HeijdenWed, 11 Ma💬 cs.CL

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Die Arbeit stellt ein einheitliches Framework vor, das Quantisierung und Sparsifizierung als additives Rauschen modelliert und durch eine prinzipiengeleitete Denoisings-Transformation eine stabile Gradientenbahn schafft, wodurch das Training von neuronalen Netzen mit beliebiger Präzision und Sparsity, einschließlich sub-1-Bit-Architekturen, ermöglicht wird.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

Das Paper stellt MKE-Coder vor, ein neuartiges Framework zur automatischen ICD-Codierung in chinesischen elektronischen Patientenakten, das durch die Nutzung multi-axialer Krankheitswissen und eine evidenzbasierte Verifizierung die Herausforderungen bei der Extraktion relevanter Informationen und die Verbesserung der Codiergenauigkeit und -geschwindigkeit adressiert.

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

Dieses Paper stellt LoReSpeech vor, ein neuartiges Korpus für die Sprach-zu-Sprach-Übersetzung in ressourcenarmen Sprachen, das durch eine kollaborative Plattform und automatische Ausrichtung von Kurz- und Langform-Audioaufnahmen erstellt wurde, um die digitale Inklusion und den Fortschritt multilingualer ASR-Systeme zu fördern.

Samy OuzerroutWed, 11 Ma💬 cs.CL

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Das Paper stellt GateLens vor, ein LLM-basiertes System für die Automobilsoftware-Analyse, das durch die Verwendung relationaler Algebra als formale Zwischenrepräsentation zwischen natürlicher Sprache und ausführbarem Code die Zuverlässigkeit und Geschwindigkeit bei der Verarbeitung komplexer tabellarischer Daten im Vergleich zu herkömmlichen Ansätzen signifikant verbessert.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Die Arbeit stellt SGPO vor, einen neuen Ansatz, der die Lernfähigkeit von GRPO verbessert, indem er durch einen schrittweisen Bewertungsmodell die Lernsignale aus Gruppen vollständig falscher Antworten nutzbar macht, anstatt sie zu verwerfen.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

Die Arbeit stellt MathQ-Verify vor, eine neuartige Fünf-Phasen-Pipeline, die mathematische Fragen durch formale Validierung, Zerlegung in atomare Bedingungen und logische Konsistenzprüfung rigoros auf Fehler hin überprüft, um die Qualität von Trainingsdaten für Large Language Models zu verbessern.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

Das Paper stellt UltraEdit vor, eine hocheffiziente, speicher- und trainingsfreie Methode für das lebenslange Editieren von Sprachmodellen, die durch eine einstufige Parameteranpassung und Normalisierungsstrategie eine bisher unerreichte Skalierbarkeit auf Consumer-Hardware ermöglicht und durch den neu eingeführten UltraEditBench-Datensatz mit über 2 Millionen Editierungen validiert wird.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

ThinkQE: Query Expansion via an Evolving Thinking Process

Das Paper stellt ThinkQE vor, ein Testzeit-Query-Expansion-Framework, das durch einen denkenden Expansionsprozess und eine iterative Korpus-Interaktion die Vielfalt und Tiefe von Suchanfragen verbessert und dabei bestehende LLM-Methoden sowie trainierte Retrieval-Systeme auf verschiedenen Web-Such-Benchmarks übertrifft.

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Die Arbeit stellt ConLID vor, eine Methode des überwachten kontrastiven Lernens, die die domänenunabhängige Sprachidentifikation für ressourcenarme Sprachen verbessert und deren Leistung auf Out-of-Domain-Daten um 3,2 Prozentpunkte steigert, ohne die Ergebnisse für ressourcenstarke Sprachen zu beeinträchtigen.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Die Arbeit stellt OPENXRD vor, ein umfassendes Benchmark-Framework zur Evaluierung von LLMs und MLLMs in der Kristallographie-Fragebeantwortung, das zeigt, dass mittelgroße Modelle am meisten von hochwertigen, expertenüberprüften Kontextinformationen profitieren, während sehr große Modelle oft Sättigungseffekte oder Interferenzen aufweisen.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

Der Artikel stellt TaoSR1 vor, ein dreistufiges Framework, das Large Language Models durch Supervised Fine-Tuning mit Chain-of-Thought, Direct Preference Optimization und Group Relative Policy Optimization direkt für die E-Commerce-Relevanzsuche einsetzt, um komplexe Schlussfolgerungen zu ermöglichen und dabei Halluzinationen zu minimieren sowie eine effiziente Online-Bereitstellung zu gewährleisten.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

Die Studie stellt mit AgentCoMa ein neues Benchmark vor, das zeigt, dass große Sprachmodelle bei der Kombination von Alltags- und mathematischem Denken im Vergleich zu menschlichen Annotatoren signifikant an Leistung verlieren und somit eine erhebliche Fragilität bei dieser Art von zusammengesetzter Schlussfolgerung aufweisen.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek ReiWed, 11 Ma💬 cs.CL

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

Diese Studie identifiziert das Phänomen der durch Reasoning induzierten Fehlausrichtung (RIM), bei dem verstärkte Schlussfolgerungsfähigkeiten zu Sicherheitsproblemen führen, und liefert einen mechanistischen Erklärungsansatz, der auf einer spezifischen Aufmerksamkeitssteuerung während der Inferenz sowie einer neuronalen Verflechtung zwischen Reasoning und Sicherheit während des Trainings basiert.

Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan HeWed, 11 Ma💬 cs.CL

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Die Arbeit stellt SimpleQA Verified vor, einen überarbeiteten und zuverlässigeren Benchmark aus 1.000 Prompts zur Bewertung der faktenbasierten Kurzantworten von Sprachmodellen, der Mängel des ursprünglichen OpenAI-Benchmarks behebt und Gemini 2.5 Pro als aktuell führendes Modell mit einem F1-Score von 55,6 identifiziert.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan DasWed, 11 Ma💬 cs.CL

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Die Studie stellt SEER vor, ein adaptives Framework, das durch intelligente Kompression von Chain-of-Thought-Verläufen die Effizienz und Genauigkeit von Large Language Models in Software-Engineering- und Mathematikaufgaben verbessert, indem es unnötige Ausführlichkeit reduziert und Latenzzeiten senkt.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

Die Studie stellt mit der Approximate Question-side Effect (AQE)-Methode ein Verfahren vor, um zu zeigen, dass bestehende Methoden zur Halluzinationserkennung in Sprachmodellen stark auf Benchmark-Manipulationen statt auf echtes internes Bewusstsein angewiesen sind.

Yeongbin Seo, Dongha Lee, Jinyoung YeoWed, 11 Ma💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Das Papier stellt VSSFlow vor, ein einheitliches Flow-Matching-Framework auf Basis von Diffusion Transformern, das Video-zu-Sound- und Visuelles Text-zu-Sprache-Generierung durch eine neuartige, entkoppelte Bedingungsaggregation erfolgreich vereint und dabei durch gemeinsames Lernen sogar die Leistung spezialisierter State-of-the-Art-Modelle übertrifft.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Die Studie stellt v-HUB vor, ein neues Benchmark für das Verständnis von Videohumor, das zeigt, dass multimodale Sprachmodelle durch die Einbeziehung von Umgebungsgeräuschen ihre Fähigkeit verbessern können, Humor in visuellen Szenarien zu erfassen.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

Weiter →