cs.LG Arbeiten | Gist.Science

Global Minimizers of Sigmoid Contrastive Loss

Diese Arbeit erklärt theoretisch die Vorteile der Synchronisierung von trainierbarer inverser Temperatur und Bias im Sigmoid-Verlust (wie bei SigLIP), indem sie neue kombinatorische Objekte namens $(\mathsf{m}, \mathsf{b}_{\mathsf{rel}})$ -Konstellationen einführt, um den Erfolg des Modells, die Modality Gap und die erforderliche Dimension für hochwertige Repräsentationen zu analysieren.

Kiril Bangachev, Guy Bresler, Iliyas Noman, Yury Polyanskiy2026-03-12🤖 cs.LG

Deep Learning for Clouds and Cloud Shadow Segmentation in Methane Satellite and Airborne Imaging Spectroscopy

Die Studie demonstriert, dass Deep-Learning-Modelle wie U-Net und SCAN die Wolken- und Wolken-Schatten-Erkennung in den hyperspektralen Daten der MethanSAT- und MethaneAIR-Missionen im Vergleich zu herkömmlichen Methoden erheblich verbessern, um präzisere Methanretrievals zu ermöglichen.

Manuel Perez-Carrasco, Maya Nasr, Sebastien Roche + 12 more2026-03-12🤖 cs.LG

Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional

Diese Studie analysiert die Abhängigkeiten zwischen Modalitäten in 23 visuellen Frage-Antwort-Benchmarks und zeigt auf, dass viele Tests unbeabsichtigt bildbasierte Abhängigkeiten verstärken, während die echte Interaktion zwischen Bild und Text oft vernachlässigt wird.

Divyam Madaan, Varshan Muhunthan, Kyunghyun Cho, Sumit Chopra2026-03-12💬 cs.CL

Proposing a Framework for Machine Learning Adoption on Legacy Systems

Dieses Papier stellt ein pragmatisches, API-basiertes Framework vor, das durch die Entkopplung des ML-Lebenszyklus von der Produktion und die Bereitstellung einer leichten, browserbasierten Schnittstelle die Einführung von maschinellem Lernen in Legacy-Systemen ohne Hardware-Upgrades oder Produktionsausfälle ermöglicht.

Ashiqur Rahman, Hamed Alhoori2026-03-12🤖 cs.LG

One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning

Die Arbeit stellt SMoPE vor, ein neuartiges Framework für das kontinuierliche Lernen, das durch die Kombination von Prompt-basierten Methoden mit einer spärlichen Mixture-of-Experts-Architektur die Effizienz von geteilten Prompts mit der Leistungsfähigkeit aufgaben-spezifischer Prompts vereint und dabei Interferenz minimiert sowie Speicher- und Rechenkosten erheblich senkt.

Minh Le, Bao-Ngoc Dao, Huy Nguyen, Quyen Tran, Anh Nguyen, Nhat Ho2026-03-12🤖 cs.LG

RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

Die Arbeit stellt RADAR vor, ein leichtgewichtiges und interpretierbares Routing-Framework, das auf psychometrischen Prinzipien basiert, um Anfragen basierend auf ihrer Schwierigkeit und den Fähigkeiten von Modell-Budget-Kombinationen intelligent auf verschiedene Reasoning-LLMs zu verteilen und so die Leistung bei gleichzeitiger Kosteneffizienz zu optimieren.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang2026-03-12🤖 cs.AI

Composer: A Search Framework for Hybrid Neural Architecture Design

Das Paper stellt Composer vor, ein modulares Suchframework für hybride neuronale Architekturen, das durch skalierbare Exploration neue LLM-Modelle entdeckt, die Llama 3.2 in Bezug auf Genauigkeit und Effizienz übertreffen.

Bilge Acun, Prasoon Sinha, Newsha Ardalani, Sangmin Bae, Alicia Golden, Chien-Yu Lin, Meghana Madhyastha, Fei Sun, Neeraja J. Yadwadkar, Carole-Jean Wu2026-03-12🤖 cs.LG

Uncovering Semantic Selectivity of Latent Groups in Higher Visual Cortex with Mutual Information-Guided Diffusion

Die Studie stellt MIG-Vis vor, eine Methode, die Mutual Information-gesteuerte Diffusionsmodelle nutzt, um aus neuronalen Daten des makakischen unteren Temporallappens (IT) diskrete latente Gruppen zu identifizieren, die spezifische semantische Merkmale wie Objektstellung und Kategorienübergänge kodieren.

Yule Wang, Joseph Yu, Chengrui Li, Weihan Li, Anqi Wu2026-03-12🧬 q-bio

Communication Enables Cooperation in LLM Agents: A Comparison with Curriculum-Based Approaches

Die Studie zeigt, dass einfache Kommunikationsprotokolle in Multi-Agenten-LLM-Systemen die Kooperation effektiver fördern als curriculumbasierte Ansätze, die durch suboptimale Designentscheidungen und das Erlernen von Pessimismus sogar zu einer Verschlechterung der Kooperationsbereitschaft führen können.

Hachem Madmoun, Salem Lahlou2026-03-12🤖 cs.LG

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Diese Arbeit stellt die erste systematische Evaluierung selbstüberwachter Lernverfahren für die label-effiziente Schlafstadienklassifizierung mit tragbaren EEG-Geräten vor und zeigt, dass ein domainspezifischer Ansatz die Leistung gegenüber rein überwachten Baselines und allgemeinen EEG-Grundmodellen signifikant verbessert, insbesondere bei knappen annotierten Daten.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

Geopolitics, Geoeconomics, and Sovereign Risk: Different Shocks, Different Channels

Die Studie unterscheidet zwischen geopolitischen Schocks, die das Ausfallrisiko von Staaten direkt beeinflussen, und geoekonomischen Schocks, die über die erwartete Geldpolitik wirken, und zeigt anhand eines Datensatzes von 42 Volkswirtschaften, dass diese unterschiedlichen Kanäle zu einem charakteristischen „Scherenmuster" in den Sovereign-CDS-Spreads führen, was darauf hindeutet, dass Liquiditätsbereitstellung zwar finanzzyklusbedingte Spread-Erweiterungen mildern, aber nicht die persistierenden geopolitischen Risikoprämien adressieren kann.

Alvaro Ortiz, Tomasa Rodrigo, Pablo Saborido2026-03-12📊 stat

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Die Arbeit stellt HyWA vor, eine personalisierte Sprachaktivitätserkennungsmethode, die mithilfe eines Hypernetzes angepasste Gewichte für ausgewählte Schichten eines Standardmodells generiert und dabei sowohl die Genauigkeit als auch die Deployment-Effizienz im Vergleich zu bestehenden Sprecher-Conditioning-Verfahren verbessert.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

Die Arbeit stellt ein erklärbares, voreingenommenheitsbewusstes generatives Framework vor, das durch die Kombination von cross-modaler Aufmerksamkeitsfusion, Grad-CAM++-Attribution und einem „Reveal-to-Revise"-Feedback-Schleifenmechanismus sowohl die Leistung als auch die Fairness und Robustheit multimodaler KI-Systeme signifikant verbessert.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

Absolute indices for determining compactness, separability and number of clusters

Diese Arbeit stellt neue absolute Cluster-Indizes vor, die auf einer Kompaktheitsfunktion und einer Nachbarschaftsmenge basieren, um die Kompaktheit und Trennbarkeit von Clustern sowie die wahre Anzahl der Cluster in synthetischen und realen Datensätzen zu bestimmen.

Adil M. Bagirov, Ramiz M. Aliguliyev, Nargiz Sultanova, Sona Taheri2026-03-12📊 stat

Predicting kernel regression learning curves from only raw data statistics

Diese Arbeit stellt einen theoretischen Rahmen vor, der mithilfe der sogenannten Hermite-Eigenstruktur-Ansatz (HEA) und nur empirischen Datenstatistiken Lernkurven für Kernel-Regression auf realen Datensätzen vorhersagt und zudem zeigt, dass MLPs im Feature-Learning-Regime die von der HEA vorhergesagten Hermite-Polynome erlernen.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

Revisiting Value Iteration: Unified Analysis of Discounted and Average-Reward Cases

Diese Arbeit zeigt durch eine einheitliche geometrische Analyse, dass die Wertiteration sowohl im Fall des diskontierten als auch des durchschnittlichen Belohnungsmodells unter der Annahme einer eindeutigen unichain-optimalen Strategie geometrisch konvergiert und dabei schneller ist als frühere Theorien vermuten ließen.

Arsenii Mustafin, Xinyi Sheng, Dominik Baumann2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

Die Arbeit stellt KVTC vor, einen leichten Transform-Coder, der durch PCA-basierte Dekorrelation, adaptive Quantisierung und Entropiecodierung KV-Caches von Large Language Models um bis zu 20-fach komprimiert, um den GPU-Speicherbedarf zu senken und die Genauigkeit bei der Wiederverwendung von Caches in Chat- und Code-Editier-Szenarien zu erhalten.

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Causal Regime Detection in Energy Markets With Augmented Time Series Structural Causal Models

Die Arbeit stellt Augmented Time Series Causal Models (ATSCM) vor, ein Framework, das neuronale kausale Entdeckung mit Gegenfaktischen Schlussfolgerungen kombiniert, um die komplexen, zeitlich variierenden kausalen Zusammenhänge in Energiemärkten zu modellieren und Szenarioanalysen für Strompreise zu ermöglichen.

Dennis Thumm2026-03-12📊 stat

Towards Causal Market Simulators

Die vorgestellte Arbeit führt das TNCM-VAE-Modell ein, das Variational Autoencoder mit strukturellen Kausalmodellen kombiniert, um synthetische Finanzzeitreihen zu generieren, die sowohl zeitliche Abhängigkeiten als auch kausale Zusammenhänge bewahren und somit verlässliche Gegenfakten für Risikoanalysen und Stresstests ermöglichen.

Dennis Thumm, Luis Ontaneda Mijares2026-03-12📊 stat

Resource Allocation in Hybrid Radio-Optical IoT Networks using GNN with Multi-task Learning

Die vorgestellte Arbeit adressiert die Ressourcenzuteilung in hybriden RF-OWC-IoT-Netzen durch den Dual-Graph-Embedding-with-Transformer (DGET)-Ansatz, der Graph Neural Networks mit Multi-Task-Learning kombiniert, um bei unvollständiger Kanalbeobachtung eine nahezu optimale, recheneffiziente Scheduling-Strategie zu erreichen, die den Durchsatz maximiert und das Delivery-based Age of Information im Vergleich zu reinen RF-Systemen um bis zu 20 % senkt.

Aymen Hamrouni, Sofie Pollin, Hazem Sallouha2026-03-12🤖 cs.LG

← Zurück Weiter →