From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Diese Arbeit stellt eine Methode zur robusten Rekonstruktion von zwei Händen aus monokularen Bildern vor, die heterogene 2D-Strukturpriors aus Vision-Modellen mit einem kollisionsfreien Diffusionsmodell kombiniert, um Interaktionsfehler und Handdurchdringungen auch bei starken Verdeckungen zu vermeiden.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Die Arbeit stellt EDU-PRM vor, ein neuartiges, entropiegetriebenes Prozess-Reward-Modell, das durch automatische, unsicherheitsbasierte Segmentierung von Denkprozessen teure manuelle Annotationen eliminiert und gleichzeitig bei deutlich reduziertem Trainingsdatenaufwand sowie effizienterer Token-Nutzung state-of-the-art Ergebnisse in der mathematischen Problemlösung erzielt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dieses Paper stellt Task 5 des DCASE 2025 Challenges vor, ein mehrdomäniges Benchmark für Audio-Frage-Antwort-Aufgaben, das darauf abzielt, die akustische reasoning-Fähigkeit von Audio-Sprachmodellen durch die Evaluierung in Bereichen wie Bioakustik und komplexen Klanglandschaften zu verbessern.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

Precision Proactivity: Measuring Cognitive Load in Real-World AI-Assisted Work

Die Studie zeigt, dass bei 34 Finanzexperten, die GPT-4o für komplexe Bewertungsaufgaben nutzten, extrane kognitive Belastung die Leistung stärker beeinträchtigt als intrinsische Belastung, wobei proaktive KI-Eingriffe zwar die Ergebnisqualität steigern, aber bei weniger erfahrenen Nutzern zu einer asymmetrischen Belastung führen, die durch häufige, modellinitiierte Aufgabenwechsel am stärksten negativ beeinflusst wird.

Brandon Lepine, Juho Kim, Pamela Mishkin, Matthew Beane2026-03-10💻 cs

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Die Arbeit stellt MAS-ZERO vor, ein bahnbrechendes, selbstentwickelndes Inferenzzeit-Framework, das Multi-Agenten-Systeme ohne Validierungsdatensätze automatisch anpasst und durch dynamische Problemanalyse sowie Meta-Feedback signifikant höhere Genauigkeiten bei Reasoning-, Coding- und Agentenaufgaben im Vergleich zu manuellen und bestehenden automatischen Ansätzen erzielt.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Dieses Paper stellt AgarCL vor, eine auf dem Spiel Agar.io basierende Forschungsplattform für kontinuierliches Reinforcement Learning, die eine nicht-episodische, hochdimensionale Umgebung mit stochastischen Dynamiken bietet und zeigt, dass herkömmliche Methoden sowie spezielle kontinuierliche Lernansätze dort nur begrenzte Verbesserungen erzielen.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

Representing local protein environments with machine learning force fields

Diese Arbeit stellt eine neuartige Repräsentation lokaler Proteinumgebungen vor, die auf Zwischenschichten atomarer Grundmodelle basiert und nicht nur Struktur- und chemische Merkmale präzise erfasst, sondern auch den Aufbau datengesteuerter Priors sowie die Entwicklung eines hochpräzisen, physikbasierten Vorhersagemodells für NMR-Chemische Verschiebungen ermöglicht.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Die Arbeit stellt BemaGANv2 vor, einen fortschrittlichen GAN-basierten Vocoder für die hochauflösende Langzeit-Audiogenerierung, der durch den Einsatz von AMP-Modulen im Generator und einer systematischen Evaluierung verschiedener Diskriminator-Kombinationen (insbesondere MED und MRD) zeitliche Kohärenz und harmonische Struktur über längere Zeiträume verbessert.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG