cs.CL Arbeiten | Gist.Science

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

Das Paper stellt PonderLM-3 vor, ein vortrainiertes Framework, das durch differenzierbare Maskierung während des Trainings und eine konsistente Pruning-Regel beim Inferenzvorgang eine adaptive, tokenweise Zuweisung von Rechenleistung ermöglicht, wodurch die Berechnungskosten nur bei tatsächlichem Nutzen anfallen und eine effizientere Pareto-Grenze erreicht wird.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Die Studie „VeriInteresting" liefert eine empirische Analyse der Wechselwirkungen zwischen verschiedenen Sprachmodellklassen und Prompt-Strategien bei der Verilog-Code-Generierung und identifiziert generalisierbare Muster sowie modellspezifische Trends.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Diese Arbeit stellt eine vollständig lokal gehostete Pipeline vor, die Vorlesungsinhalte ohne externe APIs in Multiple-Choice-Fragen umwandelt und dabei durch deterministische Qualitätskontrollen Datenschutz, Nachvollziehbarkeit und ökologische Nachhaltigkeit im Bildungsbereich sicherstellt.

Seine A. ShintaniWed, 11 Ma💻 cs

Fish Audio S2 Technical Report

Der technische Bericht stellt Fish Audio S2 vor, ein Open-Source-Text-to-Speech-System, das durch mehrstufiges Training und eine spezielle Datenpipeline eine natürliche Sprachsteuerung, Multi-Speaker-Fähigkeiten und Multi-Turn-Generation ermöglicht und dabei mit einer effizienten SGLang-Inferenz-Engine eine Echtzeitfaktor von 0,195 sowie eine Latenz unter 100 ms erreicht.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Das Paper stellt MASEval vor, ein framework-agnostisches Evaluationsframework, das nachweist, dass die Wahl des Agenten-Frameworks ebenso entscheidend für die Leistung ist wie die des zugrunde liegenden Modells, und ermöglicht somit eine systemische Analyse aller Komponenten agenter Systeme.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Die Studie nutzt die serbische Digraphie als kontrolliertes Testfeld, um nachzuweisen, dass Sparse Autoencoder-Features in LLMs semantische Bedeutungen unabhängig von der Orthografie (lateinisch vs. kyrillisch) erfassen, wobei diese Abstraktion mit zunehmender Modellgröße weiter zunimmt.

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Das Paper stellt MultiGraSCCo vor, ein multilinguales Benchmark-Dataset mit über 2.500 Annotationen persönlicher Identifikatoren in zehn Sprachen, das durch maschinelle Übersetzung und kulturelle Anpassung synthetischer medizinischer Daten erstellt wurde, um die Entwicklung und Validierung von Anonymisierungssystemen zu unterstützen.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Die Studie zeigt, dass eine label-freie Screening-Strategie, die auf Text-abgeleiteten Word2Vec-Einbettungen von Elementen basiert, oft effizienter als Transformer-Modelle ist, um aus riesigen kombinatorischen Räumen vielversprechende Elektrokatalysator-Zusammensetzungen ohne experimentelle Daten zu identifizieren.

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

Die Arbeit stellt ConFu vor, ein neues Framework für spekulatives Decoding, das durch die Einführung von „Contemplate Tokens" und weichen Prompts Draft-Modellen ermöglicht, die zukünftige Generierungsrichtung des Zielmodells vorherzusehen, wodurch die Akzeptanzraten und die Geschwindigkeit im Vergleich zu EAGLE-3 signifikant gesteigert werden.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou SunWed, 11 Ma💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Die Studie stellt mit SciTaRC einen neuen Benchmark für wissenschaftliche Tabellendaten vor, der zeigt, dass aktuelle KI-Modelle aufgrund von Schwächen in der Planausführung, dem Sprachverständnis und der Berechnung bei über 23 % der Fragen scheitern.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Die Studie stellt PathoScribe vor, ein einheitliches Framework auf Basis von Retrieval-Augmented Large Language Models, das statische Pathologie-Archive in eine interaktive Wissensdatenbank verwandelt und durch Funktionen wie semantische Suche, automatische Kohortenbildung sowie klinische Fragebeantwortung die Diagnoseunterstützung und Forschungseffizienz erheblich steigert.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Die Arbeit stellt VoxEmo vor, ein umfassendes Benchmark-Toolkit für die Spracherkennung von Emotionen mit Sprach-LLMs, das durch die Einbeziehung von 35 Korpora in 15 Sprachen, standardisierte Prompt-Strategien und ein weiches Labeling-Verfahren die subjektive Natur menschlicher Emotionen besser abbildet als herkömmliche Ansätze.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Das Paper stellt BiCLIP vor, einen extrem einfachen und parameterarmen Rahmen, der durch eine strukturierte geometrische Transformation multimodaler Merkmale, die auf wenigen Ankerpunkten basiert, das Zero-Shot-Lernen von Vision-Language-Modellen in spezialisierten Domänen auf den Stand des Kunstzustands bringt.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Die Arbeit stellt Guardian vor, ein konsensgesteuertes Multi-LLM-System mit QLoRA-Feinabstimmung, das spezialisierte Modelle und einen Konsens-Engine koordiniert, um die Informationsgewinnung und Suchplanung bei Vermisstenfällen in den kritischen ersten 72 Stunden zu unterstützen.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Die Studie stellt ein automatisiertes Framework zur thematischen Analyse klinischer qualitativer Daten vor, das durch iterative Verfeinerung des Codebuchs und vollständige Nachverfolgbarkeit die Skalierbarkeit und Reproduzierbarkeit verbessert und dabei in mehreren Datensätzen die höchste Gesamtqualität sowie eine hohe Übereinstimmung mit Expertenbewertungen erreicht.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Die vorgestellte Arbeit führt einen konfidenzbasierten Rahmen ein, der anhand eines einzelnen Lösungswegs adaptiv zwischen Einzel- und Mehrfachpfad-Reasoning entscheidet, um die Genauigkeit von Large Language Models bei gleichzeitiger Reduktion des Tokenverbrauchs um bis zu 80 % zu erhalten.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Die Studie stellt vor, dass der autonome KI-Agent „Sentinel" durch die Verwendung des Model Context Protocol (MCP) klinische Triage-Daten aus der Fernüberwachung von Patienten mit höherer Sensitivität und Konsistenz als menschliche Ärzte klassifiziert und dabei eine skalierbare, kosteneffiziente Lösung für die Überlastung des medizinischen Personals bietet.

Exclusive Self Attention

Die Arbeit stellt die „Exclusive Self Attention" (XSA) vor, eine einfache Modifikation des Self-Attention-Mechanismus, die durch den Ausschluss der eigenen Token-Information die Kontextmodellierung verbessert und bei Sprachmodellierungsaufgaben konsistent bessere Ergebnisse als das Standardverfahren erzielt.

Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Diese Studie diagnostiziert die Leistungslücke zwischen textbasierten und bildbasierten Eingaben in multimodalen Sprachmodellen, identifiziert Lesefehler als Hauptursache und schlägt eine Selbst-Distillation vor, um das Textverständnis in Bilddokumenten drastisch zu verbessern.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Die Studie zeigt, dass sich durch gezieltes Fine-Tuning mit biologischem Fachwissen die Tendenz von Sprachmodellen zugunsten biologischer statt synthetischer Lösungen signifikant verbessern lässt, ohne dabei die allgemeinen Fähigkeiten der Modelle zu beeinträchtigen.

Trent R Northen, Mingxun WangWed, 11 Ma💬 cs.CL

← Zurück Weiter →