cs.AI Arbeiten | Gist.Science

Logos: An evolvable reasoning engine for rational molecular design

Die Arbeit stellt Logos vor, einen kompakten und interpretierbaren KI-Modellansatz, der durch eine mehrstufige Trainingsstrategie logisches Schlussfolgern mit chemischer Konsistenz vereint, um zuverlässige und überprüfbare Lösungen für das rationale Moleküldesign zu ermöglichen.

Haibin Wen, Zhe Zhao, Fanfu Wang, Tianyi Xu, Hao Zhang, Chao Yang, Ye WeiWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Die Arbeit stellt DendroNN vor, ein neuartiges, dendritenzentrisches neuronales Netzwerk, das durch die Nachahmung von Sequenzerkennungsmechanismen in Dendriten und eine gradientenfreie Umverdrahtung energieeffiziente, hochpräzise Klassifizierung von ereignisbasierten Daten ermöglicht und dabei eine Hardware-Architektur mit bis zu vierfacher Effizienzsteigerung gegenüber bestehenden neuromorphen Systemen bietet.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Das Paper stellt DenoiseSplat vor, eine feed-forward Methode zur 3D-Gaussian-Splatting-Rekonstruktion aus verrauschten Multi-View-Bildern, die auf einem neu erstellten Rausch-Datensatz trainiert wird und dabei ohne 3D-Grundwahrheit auskommt, um die Leistung bestehender Ansätze unter realistischen Störbedingungen zu übertreffen.

Fuzhen Jiang, Zhuoran Li, Yinlin ZhangWed, 11 Ma🤖 cs.AI

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

Die Studie zeigt, dass das Design von Konfidenzskalen, insbesondere die Verwendung einer 0–20-Skala anstelle der üblichen 0–100-Skala, die Metakognition von Sprachmodellen signifikant verbessert und daher als wesentliche Variable in deren Evaluation behandelt werden sollte.

Yuyang DaiWed, 11 Ma🤖 cs.AI

Curveball Steering: The Right Direction To Steer Isn't Always Linear

Die Arbeit widerlegt die Annahme einer global linearen Geometrie in Aktivierungsräumen von Large Language Models und stellt „Curveball steering" als überlegene, nichtlineare Methode vor, die durch die Berücksichtigung der intrinsischen gekrümmten Geometrie eine konsistentere Verhaltenssteuerung ermöglicht.

Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff Phillips, Amirali AbdullahWed, 11 Ma🤖 cs.AI

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Das Paper stellt CLoE vor, einen konsistenzbasierten Lernrahmen für die Segmentierung medizinischer Bilder mit fehlenden Modalitäten, der durch Expertenkonsistenz auf Entscheidungs- und Regionsebene sowie eine zuverlässigkeitsgesteuerte Merkmalsanpassung die Robustheit und Genauigkeit bei unvollständigen Eingabedaten signifikant verbessert.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao LiWed, 11 Ma🤖 cs.AI

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Die Arbeit stellt SpaceSense-Bench vor, ein groß angelegtes, multimodales Benchmark-Dataset mit 136 Satellitenmodellen und präzisen Ground-Truth-Annotationen, das zur Überwindung von Datenmängeln in der Weltraumwahrnehmung dient und zeigt, dass eine Skalierung der Trainingsdaten entscheidend für die Generalisierung auf unbekannte Ziele ist.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

Die Studie stellt einen VR-Interaktionspipeline vor, der prosodische Emotionen als expliziten Kontext in LLM-basierte Agenten integriert, was in einer Nutzerstudie zu signifikant verbesserten Dialogqualitäten und einer hohen Präferenz für die emotional bewusste Agentenvariante führte.

SangYeop Jeong, Yeongseo Na, Seung Gyu Jeong, Jin-Woo Jeong, Seong-Eun KimWed, 11 Ma🤖 cs.AI

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Die Studie stellt TimberAgent vor, ein grammatikgestütztes Retrieval-System, das mithilfe von Texture-Resonance-Retrieval (TRR) auf Basis von Gram-Matrizen aus Wav2Vec2-Aktivierungen semantische Benutzerabsichten in präzise, bearbeitbare Audio-Effekt-Konfigurationen übersetzt und dabei in einem Gitarren-Effekt-Benchmark die niedrigsten Parameterfehler im Vergleich zu bestehenden Methoden aufweist.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Die Arbeit stellt den STAR-Benchmark vor, ein Multi-Agenten-Evaluierungsframework für Nullsummenspiele, das zeigt, dass strategische Intelligenz in dynamischen Umgebungen nicht nur von der Tiefe des logischen Denkens, sondern entscheidend von der Fähigkeit abhängt, Pläne auch unter Zeitdruck schnell umzusetzen, wobei schnellere Modelle in Echtzeitszenarien oft leistungsfähiger sind als rein reasoning-intensive Modelle.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Die Arbeit stellt TaSR-RAG vor, ein taxonomiegestütztes Framework für die strukturierte Beweisfindung, das komplexe Fragen in geordnete Tripel-Subabfragen zerlegt und durch hybrides Matching sowie eine explizite Entitätsbindung die Genauigkeit und Nachvollziehbarkeit von Retrieval-Augmented-Generation-Systemen bei Multi-Hop-Fragestellungen signifikant verbessert.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Robust Regularized Policy Iteration under Transition Uncertainty

Die Arbeit stellt Robust Regularized Policy Iteration (RRPI) vor, einen neuen Algorithmus für Offline-Reinforcement-Learning, der durch die Formulierung als robuste Optimierung unter Transitionsunsicherheit und die Nutzung eines KL-regulierten Surrogats eine effiziente und theoretisch fundierte Lösung bietet, die auf D4RL-Benchmarks überlegene Leistung und verbesserte Robustheit gegenüber Ausreißern zeigt.

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu ZhangWed, 11 Ma🤖 cs.AI

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

Die Arbeit stellt TA-GGAD vor, ein adaptives Graph-Modell, das durch die Identifizierung und Modellierung des „Anomaly Disassortativity"-Problems eine bahnbrechende, domänenübergreifende Generalisierung bei der Erkennung von Anomalien in Graphen ermöglicht.

Xiong Zhang, Hong Peng, Changlong Fu, Xin Jin, Yun Yang, Cheng XieWed, 11 Ma🤖 cs.AI

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

Diese Arbeit stellt einen differenziell privaten, nullten Ordnungs-Optimierungsrahmen vor, der die Datensatzkondensation auf nicht differenzierbare klinische Modelle wie Entscheidungsbäume und Cox-Regressionen erweitert, um eine sichere und modellunabhängige Datenteilung für klinische Vorhersageaufgaben zu ermöglichen.

Anshul Thakur, Soheila Molaei, Pafue Christy Nganjimi, Joshua Fieggen, Andrew A. S. Soltan, Danielle Belgrave, Lei Clifton, David A. CliftonWed, 11 Ma🤖 cs.AI

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Die Arbeit stellt M3GCLR vor, ein spieltheoretisches kontrastives Lernframework für die skelettbasierte Aktionserkennung, das durch die Modellierung einer unendlichen Skelettdaten-Spieltheorie, adversarische Multi-View-Augmentierung und einen dualen Verlust-Optimierer die Grenzen bestehender selbstüberwachter Methoden überwindet und state-of-the-art-Ergebnisse auf gängigen Datensätzen erzielt.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Das Paper stellt MIL-PF vor, ein skalierbares Framework, das vortrainierte Basis-Modelle mit einem leichten Multiple-Instance-Learning-Kopf kombiniert, um die Klassifizierung von Mammographien bei geringem Rechenaufwand und nur schwacher Bildbeschriftung effizient und mit state-of-the-art Genauigkeit durchzuführen.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Die Arbeit stellt SPAARS vor, ein Curriculum-Learning-Framework für das Offline-zu-Online-Reinforcement-Learning, das die Exploration zunächst sicher in einem latenten Raum einschränkt und dann nahtlos in den rohen Aktionsraum übergeht, um die durch Decoder-Rekonstruktionsverluste bedingte Leistungsgrenze zu überwinden und gleichzeitig die Sample-Effizienz sowie die Stabilität zu steigern.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Die Arbeit stellt das differentiable Pulse-Train-Resonator-Modell (PTR) vor, das Motorengeräusche durch die direkte physikalisch informierte Synthese von Druckimpulsen und deren Resonanzsimulation erzeugt und dabei eine signifikant bessere Klangrekonstruktion sowie interpretierbare physikalische Parameter bietet.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dieser Bericht stellt den ICDAR-2025-Wettbewerb zur End-to-End-Übersetzung von Dokumentenbildern mit komplexen Layouts vor, bei dem 69 Teams zwei Tracks (OCR-frei und OCR-basiert) für kleine und große Modelle bestritten haben, wobei die Ergebnisse zeigen, dass große Modelle einen vielversprechenden neuen Paradigmenwechsel für diese Aufgabe darstellen.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Die Arbeit stellt den vollständig konvolutionalen Diffusionsmodell (FCDM) vor, der auf ConvNeXt basiert und durch seine überlegene Recheneffizienz sowie trainierbarkeit auf begrenzter Hardware eine wettbewerbsfähige Alternative zu Transformer-basierten Diffusionsmodellen darstellt.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

← Zurück Weiter →