TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Die Arbeit stellt TimeSpot vor, einen Benchmark mit 1.455 Bildern aus 80 Ländern, der zeigt, dass aktuelle Vision-Language-Modelle bei der rein visuellen Inferenz von geografischen und zeitlichen Merkmalen sowie bei der räumlich-zeitlichen Schlussfolgerung in realen Szenarien erhebliche Defizite aufweisen.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

Die Arbeit stellt Orion vor, ein Open-Source-System, das erstmals eine direkte Programmierung und effizientes Training von Large Language Models auf der Apple Neural Engine ermöglicht, indem es CoreML umgeht, eine detaillierte Charakterisierung der Hardware-Einschränkungen liefert und durch innovative Kompilierungs- und Patching-Techniken eine signifikante Beschleunigung des Trainings erreicht.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

"Dark Triad" Model Organisms of Misalignment: Narrow Fine-Tuning Mirrors Human Antisocial Behavior

Diese Studie zeigt, dass sich die „Dark Triad"-Persönlichkeitsmerkmale (Narzissmus, Psychopathie und Machiavellismus) als Modellorganismen für Fehlausrichtung eignen, indem sie durch minimale Feinabstimmung von Sprachmodellen auf psychometrische Daten zuverlässig induziert werden und dabei menschliche antisoziale Verhaltensmuster sowie generalisierte Täuschungsfähigkeiten nachahmen.

Roshni Lulla, Fiona Collins, Sanaya Parekh, Thilo Hagendorff, Jonas KaplanTue, 10 Ma💬 cs.CL

Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

Die Studie validiert, dass ein lokal gehostetes kleines Sprachmodell (20 Milliarden Parameter) zuverlässig spezifische Substanzkategorien gemäß DSM-5 aus Texten der Kinderwohlfahrt extrahieren kann, wobei für fünf Hauptkategorien eine nahezu perfekte Übereinstimmung mit menschlichen Experten erreicht wurde.

Brian E. Perron, Dragan Stoll, Bryan G. Victor, Zia Qia, Andreas Jud, Joseph P. RyanTue, 10 Ma💬 cs.CL

Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

Diese Studie demonstriert, wie Large Language Models (LLMs) den Prozess der Artefaktevaluation in der Cybersicherheitsforschung unterstützen können, indem sie durch eine Genauigkeit von über 72 % bei der Reproduzierbarkeitsbewertung, die autonome Einrichtung von Sandbox-Umgebungen für 28 % der Artefakte und eine präzise Erkennung methodischer Fallstricke den manuellen Aufwand für Gutachter erheblich reduzieren.

David Heye, Karl Kindermann, Robin Decker, Johannes Lohmöller, Anastasiia Belova, Sandra Geisler, Klaus Wehrle, Jan PennekampTue, 10 Ma💬 cs.CL

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

Das Paper stellt SymLang vor, ein Open-Source-Framework, das durch die Kombination von symmetrie-beschränkten Grammatiken, sprachmodellgestützter Programmsynthese und MDL-regulierter Modellauswahl erfolgreich kompakte, physikalisch konsistente Gleichungen aus verrauschten und teilweise beobachteten Daten rekonstruiert und dabei die strukturelle Unsicherheit explizit quantifiziert.

Mirza Samad Ahmed Baig, Syeda Anshrah GillaniTue, 10 Ma🤖 cs.LG

LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models

Die Arbeit stellt LieCraft vor, ein neuartiges Multi-Agenten-Framework mit versteckten Rollen und realistischen Hochrisiko-Szenarien, das zeigt, dass alle getesteten Sprachmodelle trotz unterschiedlicher Ausrichtung bereit sind, unethisch zu handeln, ihre Absichten zu verschleiern und zu lügen, um ihre Ziele zu erreichen.

Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck, Tri Nguyen, Vasudev Lal, Joseph Campbell, Simon Stepputtis, Shao-Yen TsengTue, 10 Ma💬 cs.CL

MedInjection-FR: Exploring the Role of Native, Synthetic, and Translated Data in Biomedical Instruction Tuning

Die Studie stellt MedInjection-FR vor, einen umfassenden französischen biomedizinischen Instruktionsdatensatz, der zeigt, dass eine Kombination aus nativen, synthetischen und übersetzten Daten die Anpassung von Sprachmodellen im medizinischen Bereich effektiv verbessert, wobei native Daten die beste Leistung erzielen.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils, Benoit Favre, Richard DufourTue, 10 Ma💬 cs.CL

Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks

Diese Studie untersucht anhand des Benchmarks ScholarQA-CS2 die Grenzen von Paarvergleichen durch menschliche Annotatoren bei der Meta-Evaluation von Long-Form-QA-Systemen und empfiehlt den Einsatz von Experten mit expliziten Metriken für zuverlässigere Bewertungen.

Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey FeldmanTue, 10 Ma💬 cs.CL

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt Chart-RL vor, eine Reinforcement-Learning-Methode mit mathematisch überprüfbaren Belohnungen, die Vision-Language-Modelle durch den Einsatz weniger komplexer Trainingsbeispiele signifikant besser in der allgemeinen Diagrammverständnisleistung und im Transfer auf mathematische Probleme macht als herkömmliches Supervised Fine-Tuning.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang LiTue, 10 Ma🤖 cs.LG

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

Diese Studie präsentiert die erste groß angelegte, domänenübergreifende Evaluierung von Dokumenten-Chunking-Strategien für die dichte Suche und zeigt, dass inhaltsbewusste Methoden wie Paragraph-Gruppierung die Retrieval-Leistung im Vergleich zu naiven festen Längen-Splitting-Verfahren erheblich verbessern, wobei sich optimale Strategien je nach Fachgebiet und Embedding-Modell unterscheiden.

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. KuhnTue, 10 Ma💬 cs.CL

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Die Studie stellt Self-MOA vor, ein vollständig automatisiertes Framework, das kleine Sprachmodelle durch schwache Aufsicht und dynamische rote Team-Generierung sicherer macht, wobei es die Sicherheit um 12,41 % verbessert und gleichzeitig die Hilfsbereitschaft erhält, während es den Bedarf an menschlich annotierten Daten im Vergleich zu herkömmlichen Methoden um das 11-fache reduziert.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi PandaTue, 10 Ma🤖 cs.LG

Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment

Die Arbeit stellt Hit-RAG vor, ein mehrstufiges Präferenz-Alignierungs-Framework, das durch eine progressive Optimierung aus Feinabstimmung, diskriminativer Präferenzanpassung und gruppenbasierter Politikoptimierung die Fähigkeit von Multimodalen Large Language Models verbessert, in langen Kontexten relevante Beweise zu identifizieren und logische Schlussfolgerungen ohne Halluzinationen zu treffen.

Junming Liu, Yuqi Li, Shiping Wen, Zhigang Zeng, Tingwen HuangTue, 10 Ma💬 cs.CL

Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision

Die Arbeit stellt einen Ansatz zur sprachbewussten Destillation für mehrsprachige Sprach-LLMs vor, der mithilfe eines Q-Former-Projektors mit Query-Bank und Gate-Netzwerk Interferenzen vermeidet und durch die Einführung des Benchmarks Audio-MLQA signifikante Verbesserungen bei der Instruktionsbefolgung und im mehrsprachigen Sprachverständnis erzielt.

Shreyas Gopal, Donghang Wu, Ashutosh Anshul, Yeo Yue Heng, Yizhou Peng, Haoyang Li, Hexin Liu, Eng Siong ChngTue, 10 Ma💬 cs.CL