cs.AI Arbeiten | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

Die Studie zeigt, dass das LoRA-Fine-Tuning von LLM-basierten TTS-Systemen bei ausreichend vielfältigen Trainingsdaten die Sprachqualität, Sprecherähnlichkeit und das Signal-Rausch-Verhältnis signifikant verbessert und dabei die Grenzen gefrorener Basismodelle überwindet.

Anupam Purwar, Aditya Choudhary2026-03-12🤖 cs.AI

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

Diese Arbeit stellt die „Historical Consensus Training"-Methode vor, die durch iterative Auswahl und Optimierung von Gaußschen Mischverteilungs-Priors einen stabilen Parameterbereich schafft, der das Posterior-Collapse-Phänomen in Variational Autoencodern unabhängig von Architektur oder Regularisierung vollständig verhindert.

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control

Die Arbeit stellt RAD vor, ein neuartiges Framework für das sichere Reinforcement Learning aus menschlichem Feedback, das durch den Einsatz von First-Order Stochastic Dominance in Kombination mit Optimal Transport und quantilengewichteten Spektralrisikomaßen die Kontrolle über Verteilungsschwänze und seltene Katastrophenereignisse ermöglicht und so robustere, schädigungsärmere KI-Modelle liefert.

Yaswanth Chittepu, Ativ Joshi, Rajarshi Bhattacharjee, Scott Niekum2026-03-12🤖 cs.LG

Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation

Die Arbeit stellt CCGE vor, eine allgemeine Explorationsmethode für dexterous Manipulation, die durch die Zählung und Belohnung neuer Kontaktmuster zwischen Hand und Objekt das Training effizienter gestaltet und robuste Übertragbarkeit auf reale Roboter ermöglicht.

Zixuan Liu, Ruoyi Qiao, Chenrui Tie, Xuanwei Liu, Yunfan Lou, Chongkai Gao, Zhixuan Xu, Lin Shao2026-03-12🤖 cs.AI

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Die Arbeit stellt GroundCount vor, ein Framework, das die Zählgenauigkeit von Vision-Language-Modellen durch die Integration expliziter räumlicher Verankerung aus Objekterkennungsmodellen verbessert und so Halluzinationen reduziert, wobei die Wirksamkeit stark von der Architekturkompatibilität und der Art der Eingabe (z. B. Positionscodierung) abhängt.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

Diese Studie zeigt, dass die Integration von Künstlicher Intelligenz, insbesondere durch maschinelles Lernen und natürliche Sprachverarbeitung, als Katalysator für Innovation in der Softwareentwicklung wirkt, indem sie repetitive Aufgaben automatisiert und bestehende Agile-Praktiken optimiert, um Qualität und Geschwindigkeit unter sich ständig wandelnden Anforderungen zu sichern.

Carlos Alberto Fernández-y-Fernández, Jorge R. Aguilar-Cisneros2026-03-12🤖 cs.AI

RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation

Dieses Papier analysiert auf Basis von Interviews mit 16 Experten die methodischen Herausforderungen, die sich aus der Anwendung von randomisierten kontrollierten Studien (RCTs) zur Bewertung von KI-gestützten menschlichen Leistungssteigerungen bei hochentwickelten KI-Systemen ergeben, und stellt praktische Lösungen für die Interpretation dieser Evidenz in hochriskanten Entscheidungsszenarien vor.

Patricia Paskov, Kevin Wei, Shen Zhou Hong, Dan Bateyko, Xavier Roberts-Gaal, Carson Ezell, Gailius Praninskas, Valerie Chen, Umang Bhatt, Ella Guest2026-03-12🤖 cs.AI

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

In einer interdisziplinären Zusammenarbeit zwischen Informatikern und Kunsthistorikern untersucht diese Studie, wie Vision-Language-Modelle künstlerische Stile erkennen, und zeigt durch quantitative Analysen und Expertenbewertungen, dass die meisten für die Stilvorhersage genutzten Konzepte von Kunsthistorikern als semantisch kohärent und relevant eingestuft werden.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

Instruction set for the representation of graphs

Das Paper stellt IsalGraph vor, eine Methode zur kompakten Darstellung beliebiger endlicher Graphen als Zeichenkette über einem neun Zeichen umfassenden Alphabet, die durch einen kleinen virtuellen Maschinencode erzeugt wird, isomorphieinvariant ist und eine starke Korrelation zwischen dem Levenshtein-Abstand der Strings und dem Graph-Edit-Abstand aufweist.

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez2026-03-12💬 cs.CL

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Die Arbeit stellt V2M-Zero vor, eine Methode zur Erzeugung von zeitlich synchronisierter Musik aus Videos ohne gepaarte Trainingsdaten, indem sie die gemeinsame zeitliche Struktur beider Modalitäten über intramodale Ereigniskurven nutzt, um Text-zu-Musik-Modelle effektiv für Video-zu-Musik-Aufgaben anzupassen.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Die Arbeit stellt NeFTY vor, ein differenzierbares physikalisches Framework, das mithilfe eines neuronalen Feldes und eines rigorosen numerischen Löschers die quantitative 3D-Rekonstruktion von Materialeigenschaften und die Lokalisierung von Untergrundfehlern aus transienten Oberflächentemperaturmessungen ermöglicht.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

Die Arbeit stellt LiTo vor, eine 3D-Latenzdarstellung, die Geometrie und view-abhängige Erscheinung durch Tokenisierung von Oberflächenlichtfeldern vereint, um realistische optische Effekte zu erzeugen und die Generierung von 3D-Objekten mit konsistenten Materialien und Beleuchtung aus einem einzigen Eingabebild zu ermöglichen.

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

Die Arbeit stellt ein vollautomatisiertes KI-System vor, das mithilfe einer populationbasierter Agentenarchitektur und durch Analyse von YouTube-Comedy-Videos trainierter LLM-Kritiker kurze Sketch-Comedy-Videos in professioneller Qualität generiert.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

Die Studie stellt SDR-GAIN vor, ein Echtzeit-Generatives Adversarial Network, das durch Separation und Dimensionsreduktion verdeckte Gelenkpunkte von Fußgängern in autonomen Fahrszenarien präzise rekonstruiert und dabei die Leistung bestehender Methoden auf den Datensätzen COCO und JAAD übertrifft.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

A Temporal-Spectral Fusion Transformer with Subject-Specific Adapter for Enhancing RSVP-BCI Decoding

Die vorgestellte Arbeit stellt einen Temporal-Spectral-Fusion-Transformer mit einem subjektspezifischen Adapter (TSformer-SA) vor, der durch die Fusion von zeitlichen und spektralen EEG-Informationen sowie die Nutzung von Vorwissen aus bestehenden Probanden die RSVP-BCI-Decodierungsgenauigkeit auch bei limitierten Trainingsdaten für neue Nutzer signifikant verbessert und die Systembereitstellung beschleunigt.

Xujin Li, Wei Wei, Shuang Qiu + 1 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

Der Artikel stellt PnLCalib vor, eine optimierungsbasierte Methode zur Kalibrierung von Sportkameras in Übertragungsvideos, die durch die Kombination eines 3D-Fußballfeldmodils mit einer nichtlinearen Verfeinerung mittels erkannten Feldlinien eine robustere und präzisere Registrierung unter schwierigen Bedingungen wie variierenden Kamerawinkeln und Verdeckungen ermöglicht.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

Die Studie stellt DP-IQA vor, eine bahnbrechende Methode zur blinden Bildqualitätsbewertung, die das Wissen vortrainierter Diffusionsmodelle nutzt und durch Wissensdestillation in ein leichtgewichtiges CNN überführt wird, um in komplexen, realen Szenarien eine state-of-the-art Generalisierungsfähigkeit zu erreichen.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

Diese Arbeit stellt ScenarioFuzz vor, eine neuartige, historisch informierte Fuzzing-Methode für autonome Fahrsysteme, die durch die Kombination von Graph-Neural-Networks und selbstüberwachtem Clustering die Effizienz der Fehlererkennung um 60,3 % steigert und dabei 58 neue Fehler in sechs verschiedenen Systemen aufdeckt.

Tong Wang, Taotao Gu, Huan Deng + 3 more2026-03-11🤖 cs.AI

Multi-agent Assessment with QoS Enhancement for HD Map Updates in a Vehicular Network

Dieses Papier stellt eine skalierbare, verteilte Multi-Agenten-Lösung mit Q-Learning vor, die die Latenz bei HD-Karten-Updates in Fahrzeugnetzen im Vergleich zu Single-Agent-Ansätzen signifikant reduziert und dabei die Rechenlast sowie Kompatibilitätsprobleme vermeidet.

Jeffrey Redondo, Nauman Aslam, Juan Zhang + 1 more2026-03-11🤖 cs.AI

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Die vorgestellte Arbeit stellt CoHet vor, einen dezentralen Multi-Agenten-Reinforcement-Learning-Algorithmus, der mittels graphbasierten intrinsischen Belohnungen die Zusammenarbeit heterogener Agenten unter Bedingungen partieller Beobachtbarkeit und seltener Umweltbelohnungen effektiv verbessert.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek Khan2026-03-11🤖 cs.AI

← Zurück Weiter →