cs.LG Arbeiten | Gist.Science

ContextBench: Modifying Contexts for Targeted Latent Activation

Das Paper stellt ContextBench vor, einen Benchmark zur Bewertung von Methoden, die gezielt latente Merkmale in Sprachmodellen aktivieren, und zeigt, dass eine Kombination aus evolutionärer Prompt-Optimierung, LLM-Unterstützung und Diffusionsmodellen den besten Kompromiss zwischen Wirksamkeit und sprachlicher Flüssigkeit erzielt.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Die Arbeit stellt Sysformer vor, ein trainierbares Transformer-Modell, das durch die adaptive Anpassung von Systemprompts in Eingabe-Embedding-Räumen die Sicherheit und Robustheit von eingefrorenen Large Language Models gegenüber schädlichen Eingaben und Jailbreak-Angriffen signifikant verbessert, ohne die Modellparameter selbst nachtrainieren zu müssen.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

SPoT: Subpixel Placement of Tokens in Vision Transformers

Die Arbeit stellt SPoT vor, eine neuartige Tokenisierungsmethode für Vision Transformer, die durch die kontinuierliche Platzierung von Tokens innerhalb eines Bildes und eine oracle-gesteuerte Suche die Beschränkungen diskreter Raster umgeht und so eine effizientere, interpretierbare Architektur mit deutlich reduziertem Tokenbedarf ermöglicht.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

Quantifying Cross-Attention Interaction in Transformers for Interpreting TCR-pMHC Binding

Die Arbeit stellt QCAI vor, eine neue post-hoc-Methode zur Interpretation von Cross-Attention-Mechanismen in Transformer-Decodern für TCR-pMHC-Bindungen, die mit dem neu eingeführten TCR-XAI-Benchmark aus 274 experimentellen Strukturen sowohl die Interpretierbarkeit als auch die Vorhersagegenauigkeit verbessert.

Jiarui Li, Zixiang Yin, Haley Smith, Zhengming Ding, Samuel J. Landry, Ramgopal R. Mettu2026-03-09🤖 cs.LG

Temporal Misalignment Attacks against Multimodal Perception in Autonomous Driving

Die Studie stellt „DejaVu" vor, einen Angriff auf multimodale Wahrnehmungssysteme autonomer Fahrzeuge, der durch gezielte zeitliche Verzerrungen von Kamera- und LiDAR-Daten die Leistung von Objekterkennung und -verfolgung drastisch verschlechtert und somit schwere Sicherheitsrisiken wie Kollisionen oder Phantom-Bremsungen auslösen kann.

Md Hasan Shahriar, Md Mohaimin Al Barat, Harshavardhan Sundar, Ning Zhang, Naren Ramakrishnan, Y. Thomas Hou, Wenjing Lou2026-03-09🤖 cs.LG

Diverse and Adaptive Behavior Curriculum for Autonomous Driving: A Student-Teacher Framework with Multi-Agent RL

Diese Arbeit stellt ein Student-Lehrer-Framework vor, das mittels multi-agenten-basiertem Reinforcement Learning einen adaptiven Lehrplan automatisch generiert, um autonome Fahrzeuge durch eine ausgewogene Progression von alltäglichen bis zu kritischen Verkehrsszenarien robuster und vielseitiger zu trainieren.

Ahmed Abouelazm, Johannes Ratz, Philip Schörner, J. Marius Zöllner2026-03-09🤖 cs.LG

Merging Memory and Space: A State Space Neural Operator

Die vorgestellte Arbeit stellt den State Space Neural Operator (SS-NO) vor, eine kompakte Architektur, die strukturierte Zustandsraummodelle durch adaptive Dämpfung und lernbare Frequenzmodulation erweitert, um effizient und mit weniger Parametern als konkurrierende Ansätze Lösungsooperatoren für zeitabhängige partielle Differentialgleichungen zu lernen.

Nodens Koren, Samuel Lanthaler2026-03-09🤖 cs.LG

Multivariate Fields of Experts for Convergent Image Reconstruction

Die Arbeit stellt ein neues Framework namens „multivariate Fields of Experts" vor, das durch die Verwendung von Multivariaten-Potenzialfunktionen auf Basis von Moreau-Umhüllungen der $\ell_\infty$ -Norm bei inversen Bildproblemen wie Entrauschen und Rekonstruktion eine höhere Effizienz und Interpretierbarkeit als univariate Modelle bietet und dabei die Leistung tiefer neuronaler Netze bei deutlich geringerem Ressourcenbedarf erreicht.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

Characterizing Evolution in Expectation-Maximization Estimates for Overspecified Mixed Linear Regression

Diese Arbeit untersucht das theoretische Verhalten des Expectation-Maximization-Algorithmus bei der Überschätzung von Komponenten in der gemischten linearen Regression und zeigt, dass die Konvergenzgeschwindigkeit und statistische Genauigkeit stark von der Ausgewogenheit der initialen Mischgewichte abhängen, wobei unausgewogene Gewichte zu linearer Konvergenz und einer Genauigkeit von $O((d/n)^{1/2})$ führen, während ausgewogene Gewichte nur sublineare Konvergenz und eine Genauigkeit von $O((d/n)^{1/4})$ ermöglichen.

Zhankun Luo, Abolfazl Hashemi2026-03-09🤖 cs.LG

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Dieses Paper stellt Kernel VICReg vor, ein neuartiges selbstüberwachtes Lernframework, das das VICReg-Ziel in einen reproduzierenden Kernel-Hilbert-Raum überführt, um durch die Kernelisierung von Varianz-, Invarianz- und Kovarianztermen nichtlineare Abhängigkeiten besser zu erfassen und so die Leistung bei Datensätzen mit nichtlinearer Struktur oder begrenzten Stichproben im Vergleich zu euklidischen Methoden zu verbessern.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

Die Arbeit stellt ScaleZero vor, ein einheitliches Modell für heterogene Multi-Task-Planung, das durch eine Mixture-of-Experts-Architektur Gradientenkonflikte löst und eine dynamische Parameter-Skalierung (DPS) nutzt, um die Effizienz zu steigern und gleichzeitig mit spezialisierten Ein-Task-Agenten konkurrieren zu können.

Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li2026-03-09🤖 cs.LG

Quantum parameter estimation with uncertainty quantification from continuous measurement data using neural network ensembles

Die Studie zeigt, dass Deep Ensembles eine schnelle und präzise Quantenparameter-Schätzung mit quantifizierter Unsicherheit und Drifterkennung ermöglichen, was sie zu einer vielversprechenden Alternative zu herkömmlichen bayesschen Inferenzmethoden für den Echtzeiteinsatz in Experimenten macht.

Amanuel Anteneh2026-03-09⚛️ quant-ph

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

Diese Arbeit stellt „Answer-Then-Check" vor, einen neuartigen Sicherheitsansatz, der durch die Nutzung eines speziell erstellten Reasoned Safety Alignment (ReSA)-Datensatzes Sprachmodelle befähigt, Antworten intern zu generieren und deren Sicherheit kritisch zu prüfen, bevor sie ausgegeben werden, wodurch die Robustheit gegen Jailbreak-Angriffe gesteigert und gleichzeitig die Überverweigerung reduziert wird, ohne die allgemeinen reasoning-Fähigkeiten zu beeinträchtigen.

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

VEGA: Electric Vehicle Navigation Agent via Physics-Informed Neural Operator and Proximal Policy Optimization

Das Paper stellt VEGA vor, ein adaptives Routensystem für Elektrofahrzeuge, das einen physik-informierten neuronalen Operator zur Parameterschätzung mit einem Proximal-Policy-Optimization-Agenten kombiniert, um energieeffiziente Routen und Ladestopps zu planen, die sich ohne Neukalibrierung auf verschiedene Netzwerke verallgemeinern lassen.

Hansol Lim, Minhyeok Im, Jonathan Boyack, Jee Won Lee, Jongseong Brad Choi2026-03-09🤖 cs.LG

Spectral/Spatial Tensor Atomic Cluster Expansion with Universal Embeddings in Cartesian Space

Die Arbeit stellt den Tensor Atomic Cluster Expansion (TACE) vor, ein neues äquivariantes atomistisches Machine-Learning-Modell, das skalare und tensorielle Eigenschaften in kartesischem Raum vereinheitlicht, um komplexe Kopplungen zu vermeiden und gleichzeitig präzise Vorhersagen für eine breite Palette von physikalischen Observablen und Systemen zu ermöglichen.

Zemin Xu, Wenbo Xie, P. Hu2026-03-09🔬 cond-mat.mtrl-sci

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Die Arbeit stellt C²Prompt vor, eine neue Methode für das federierte kontinuierliche Lernen, die durch lokale Klassenverteilungs-Kompensation und eine klassenbewusste Prompt-Aggregation die Klassenwissen-Kohärenz zwischen Clients verbessert, um sowohl zeitliches als auch räumliches Vergessen zu reduzieren und damit den aktuellen Stand der Technik zu übertreffen.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Auto-Regressive U-Net for Full-Field Prediction of Shrinkage-Induced Damage in Concrete

Diese Studie stellt einen effizienten Deep-Learning-Ansatz mit einem autoregressiven U-Net und einem CNN vor, der die zeitabhängige Vorhersage von Schrumpfungs-induzierten Schäden und mechanischen Eigenschaften in Beton ermöglicht, um durch Erkenntnisse über Mikrostruktureinflüsse die Mischungsdesigns zu optimieren.

Liya Gaynutdinova, Petr Havlásek, Ondřej Rokoš, Fleur Hendriks, Martin Doškář2026-03-09🤖 cs.LG

Taxonomy-aware Dynamic Motion Generation on Hyperbolic Manifolds

Die Arbeit stellt GPHDM vor, ein neuartiges Modell, das durch die Erweiterung des GPDM auf hyperbolische Mannigfaltigkeiten und die Integration taxonomischer Induktionsverzerrungen menschliche Roboterbewegungen erzeugt, die sowohl die hierarchische Struktur der Bewegungsdaten als auch physikalische Konsistenz bewahren.

Luis Augenstein, Noémie Jaquier, Tamim Asfour, Leonel Rozo2026-03-09🤖 cs.LG

Planner Aware Path Learning in Diffusion Language Models Training

Die Arbeit stellt Planner Aware Path Learning (PAPL) vor, eine Trainingsmethode für diskrete Diffusions-Sprachmodelle, die durch die Einführung einer planerbasierten Evidence Lower Bound (P-ELBO) die Diskrepanz zwischen dem Training und der planergesteuerten Inferenz schließt und damit signifikante Leistungsverbesserungen in Bereichen wie Proteinsequenzen, Text- und Codegenerierung erzielt.

Fred Zhangzhi Peng, Zachary Bezemek, Jarrid Rector-Brooks, Shuibai Zhang, Anru R. Zhang, Michael Bronstein, Alexander Tong, Avishek Joey Bose2026-03-09🤖 cs.LG

Diffusion Alignment as Variational Expectation-Maximization

Die Arbeit stellt DAV vor, ein Framework, das Diffusion-Alignment als variationalen Expectation-Maximization-Prozess formuliert, um durch einen iterativen Wechsel zwischen Testzeit-Suche und Modellverfeinerung sowohl die Belohnung zu maximieren als auch die Vielfalt der generierten Ergebnisse in Aufgaben wie Text-zu-Bild-Synthese und DNA-Sequenzdesign zu erhalten.

Jaewoo Lee, Minsu Kim, Sanghyeok Choi, Inhyuck Song, Sujin Yun, Hyeongyu Kang, Woocheol Shin, Taeyoung Yun, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.LG

← Zurück Weiter →