Image Captioning via Compact Bidirectional Architecture

Die vorgestellte Arbeit stellt ein kompaktes bidirektionales Transformer-Modell für die Bildbeschriftung vor, das durch die parallele Kopplung von links-rechts- und rechts-links-Flüssen sowohl implizit als auch explizit bidirektionale Kontexte nutzt und durch Satz- und Wortebene-Ensemble-Methoden neue State-of-the-Art-Ergebnisse auf dem MSCOCO-Datensatz erzielt.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Diese Studie stellt eine formale Verbindung zwischen der Korrespondenzanalyse und PMI-basierten Wort-Embeddings her, führt transformierte Varianten (ROOT-CA und ROOTROOT-CA) ein und zeigt, dass diese auf mehreren Benchmarks leicht bessere Ergebnisse als traditionelle PMI-Methoden erzielen und mit kontextuellen Embeddings wie BERT konkurrieren können.

Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der HeijdenWed, 11 Ma💬 cs.CL

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Die Arbeit stellt ein einheitliches Framework vor, das Quantisierung und Sparsifizierung als additives Rauschen modelliert und durch eine prinzipiengeleitete Denoisings-Transformation eine stabile Gradientenbahn schafft, wodurch das Training von neuronalen Netzen mit beliebiger Präzision und Sparsity, einschließlich sub-1-Bit-Architekturen, ermöglicht wird.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

Das Paper stellt MKE-Coder vor, ein neuartiges Framework zur automatischen ICD-Codierung in chinesischen elektronischen Patientenakten, das durch die Nutzung multi-axialer Krankheitswissen und eine evidenzbasierte Verifizierung die Herausforderungen bei der Extraktion relevanter Informationen und die Verbesserung der Codiergenauigkeit und -geschwindigkeit adressiert.

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Das Paper stellt GateLens vor, ein LLM-basiertes System für die Automobilsoftware-Analyse, das durch die Verwendung relationaler Algebra als formale Zwischenrepräsentation zwischen natürlicher Sprache und ausführbarem Code die Zuverlässigkeit und Geschwindigkeit bei der Verarbeitung komplexer tabellarischer Daten im Vergleich zu herkömmlichen Ansätzen signifikant verbessert.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

Die Arbeit stellt MathQ-Verify vor, eine neuartige Fünf-Phasen-Pipeline, die mathematische Fragen durch formale Validierung, Zerlegung in atomare Bedingungen und logische Konsistenzprüfung rigoros auf Fehler hin überprüft, um die Qualität von Trainingsdaten für Large Language Models zu verbessern.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

Das Paper stellt UltraEdit vor, eine hocheffiziente, speicher- und trainingsfreie Methode für das lebenslange Editieren von Sprachmodellen, die durch eine einstufige Parameteranpassung und Normalisierungsstrategie eine bisher unerreichte Skalierbarkeit auf Consumer-Hardware ermöglicht und durch den neu eingeführten UltraEditBench-Datensatz mit über 2 Millionen Editierungen validiert wird.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Die Arbeit stellt OPENXRD vor, ein umfassendes Benchmark-Framework zur Evaluierung von LLMs und MLLMs in der Kristallographie-Fragebeantwortung, das zeigt, dass mittelgroße Modelle am meisten von hochwertigen, expertenüberprüften Kontextinformationen profitieren, während sehr große Modelle oft Sättigungseffekte oder Interferenzen aufweisen.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

Der Artikel stellt TaoSR1 vor, ein dreistufiges Framework, das Large Language Models durch Supervised Fine-Tuning mit Chain-of-Thought, Direct Preference Optimization und Group Relative Policy Optimization direkt für die E-Commerce-Relevanzsuche einsetzt, um komplexe Schlussfolgerungen zu ermöglichen und dabei Halluzinationen zu minimieren sowie eine effiziente Online-Bereitstellung zu gewährleisten.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

Die Studie stellt mit AgentCoMa ein neues Benchmark vor, das zeigt, dass große Sprachmodelle bei der Kombination von Alltags- und mathematischem Denken im Vergleich zu menschlichen Annotatoren signifikant an Leistung verlieren und somit eine erhebliche Fragilität bei dieser Art von zusammengesetzter Schlussfolgerung aufweisen.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek ReiWed, 11 Ma💬 cs.CL

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

Diese Studie identifiziert das Phänomen der durch Reasoning induzierten Fehlausrichtung (RIM), bei dem verstärkte Schlussfolgerungsfähigkeiten zu Sicherheitsproblemen führen, und liefert einen mechanistischen Erklärungsansatz, der auf einer spezifischen Aufmerksamkeitssteuerung während der Inferenz sowie einer neuronalen Verflechtung zwischen Reasoning und Sicherheit während des Trainings basiert.

Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan HeWed, 11 Ma💬 cs.CL

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Die Arbeit stellt SimpleQA Verified vor, einen überarbeiteten und zuverlässigeren Benchmark aus 1.000 Prompts zur Bewertung der faktenbasierten Kurzantworten von Sprachmodellen, der Mängel des ursprünglichen OpenAI-Benchmarks behebt und Gemini 2.5 Pro als aktuell führendes Modell mit einem F1-Score von 55,6 identifiziert.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan DasWed, 11 Ma💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Das Papier stellt VSSFlow vor, ein einheitliches Flow-Matching-Framework auf Basis von Diffusion Transformern, das Video-zu-Sound- und Visuelles Text-zu-Sprache-Generierung durch eine neuartige, entkoppelte Bedingungsaggregation erfolgreich vereint und dabei durch gemeinsames Lernen sogar die Leistung spezialisierter State-of-the-Art-Modelle übertrifft.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI