cs.AI articoli | Gist.Science

Logos: An evolvable reasoning engine for rational molecular design

Il paper presenta Logos, un modello di ragionamento molecolare compatto che integra il ragionamento logico multistep con la coerenza chimica rigorosa per garantire la validità e l'interpretabilità nella progettazione razionale di molecole, superando i limiti dei modelli esistenti in termini di affidabilità e trasparenza.

Haibin Wen, Zhe Zhao, Fanfu Wang, Tianyi Xu, Hao Zhang, Chao Yang, Ye WeiWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Il paper presenta DendroNN, una rete neurale ispirata ai dendriti biologici che utilizza un meccanismo di ricollegamento senza gradienti e un'architettura hardware asincrona per classificare efficientemente dati basati su eventi, raggiungendo un'efficienza energetica fino a 4 volte superiore rispetto alle soluzioni neuromorfiche esistenti.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Il paper presenta DenoiseSplat, un metodo di feed-forward per lo splatting gaussiano 3D che ricostruisce scene da immagini multiview rumorose superando le prestazioni delle soluzioni esistenti grazie a un nuovo benchmark su larga scala e a un addestramento supervisionato solo da render 2D puliti.

Fuzhen Jiang, Zhuoran Li, Yinlin ZhangWed, 11 Ma🤖 cs.AI

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

Lo studio dimostra che la progettazione della scala di confidenza influisce direttamente sulla qualità dell'incertezza verbalizzata nei LLM, rivelando che scale più granulari (come 0-20) migliorano l'efficienza metacognitiva rispetto allo standard 0-100, il quale favorisce una discretizzazione eccessiva delle risposte.

Yuyang DaiWed, 11 Ma🤖 cs.AI

Curveball Steering: The Right Direction To Steer Isn't Always Linear

Questo paper propone "Curveball steering", un metodo di guida non lineare basato su kernel PCA che supera i limiti degli approcci lineari tradizionali intervenendo sulla geometria intrinseca e distorta degli spazi di attivazione dei grandi modelli linguistici.

Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff Phillips, Amirali AbdullahWed, 11 Ma🤖 cs.AI

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Il paper presenta CLoE, un framework di apprendimento della consistenza degli esperti che migliora la segmentazione delle immagini mediche multimodali in presenza di modalità mancanti garantendo un accordo decisionale globale e regionale tra gli esperti e un ricalibrazione delle caratteristiche basata sull'affidabilità.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao LiWed, 11 Ma🤖 cs.AI

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Il paper presenta SpaceSense-Bench, un benchmark multi-modale su larga scala generato in simulazione che fornisce dati sincronizzati (RGB, profondità e LiDAR) con annotazioni semantiche e di posa per 136 modelli di satelliti, dimostrando come dataset diversificati siano essenziali per migliorare la percezione e la navigazione autonoma delle sonde spaziali.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

Questo studio propone un pipeline per agenti conversazionali in realtà virtuale che integra le emozioni derivate dalla prosodia nel contesto dialogico degli LLM, dimostrando attraverso un esperimento con 30 partecipanti che tale approccio migliora significativamente la qualità, il naturalismo e l'engagement dell'interazione, con il 93,3% dei partecipanti che preferisce l'agente consapevole delle emozioni.

SangYeop Jeong, Yeongseo Na, Seung Gyu Jeong, Jin-Woo Jeong, Seong-Eun KimWed, 11 Ma🤖 cs.AI

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Il paper presenta TimberAgent, un sistema di recupero guidato da grammatica che utilizza la rappresentazione Texture Resonance Retrieval (TRR) basata su matrici di Gram per colmare il divario semantico tra l'intento percettivo dell'utente e i parametri di elaborazione del segnale, ottenendo risultati superiori nel controllo degli effetti audio modificabili rispetto ai metodi esistenti.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Questo articolo presenta il benchmark STAR, un framework di valutazione multi-agente in ambienti a somma zero che rivela come, oltre alla profondità del ragionamento, la capacità di tradurre le strategie in azioni tempestive sia cruciale per le prestazioni dei modelli linguistici in scenari competitivi dinamici.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Il paper presenta TaSR-RAG, un framework di ragionamento strutturato guidato da una tassonomia che, trasformando query e documenti in triple relazionali e decomponendo le domande complesse in sottoproblemi sequenziali, supera i limiti dei sistemi RAG tradizionali migliorando significativamente l'accuratezza e la tracciabilità del ragionamento multi-hop senza la necessità di costose costruzioni di grafi.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Robust Regularized Policy Iteration under Transition Uncertainty

Il paper propone Robust Regularized Policy Iteration (RRPI), un nuovo algoritmo per l'apprendimento per rinforzo offline che affronta l'incertezza di transizione formulando l'ottimizzazione come un problema robusto con regolarizzazione KL, garantendo teoricamente la convergenza e ottenendo prestazioni superiori rispetto agli stati dell'arte su benchmark come D4RL.

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu ZhangWed, 11 Ma🤖 cs.AI

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

Il paper introduce TA-GGAD, un modello grafico adattivo che risolve il problema dello spostamento di dominio identificando e modellando la "Disassortatività delle Anomalie" ( $\mathcal{AD}$ ), consentendo così un rilevamento generalizzato e all'avanguardia delle anomalie su diversi domini con un'unica fase di addestramento.

Xiong Zhang, Hong Peng, Changlong Fu, Xin Jin, Yun Yang, Cheng XieWed, 11 Ma🤖 cs.AI

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

Questo articolo propone un quadro di ottimizzazione di ordine zero con privacy differenziale che estende la condensazione dei dataset ai modelli clinici non differenziabili, consentendo la condivisione sicura di dati sintetici che preservano l'utilità predittiva senza esporre informazioni sensibili dei pazienti.

Anshul Thakur, Soheila Molaei, Pafue Christy Nganjimi, Joshua Fieggen, Andrew A. S. Soltan, Danielle Belgrave, Lei Clifton, David A. CliftonWed, 11 Ma🤖 cs.AI

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Il paper propone M3GCLR, un nuovo framework di apprendimento contrastivo basato sulla teoria dei giochi che affronta le limitazioni delle metodologie esistenti per il riconoscimento di azioni scheletriche attraverso un modello di gioco infinito multi-vista e un ottimizzatore dual-loss, ottenendo risultati all'avanguardia su diversi dataset di riferimento.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Il paper propone MIL-PF, un framework scalabile che combina encoder fondazionali congelati con un modulo di aggregazione leggero basato su Multiple Instance Learning per classificare le mammografie in modo efficiente, ottenendo prestazioni all'avanguardia senza la necessità di un costoso riaddestramento end-to-end.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Il paper introduce SPAARS, un framework di apprendimento curricolare per l'allineamento delle politiche RL che combina un'esplorazione sicura nello spazio latente con un'ottimizzazione diretta nello spazio delle azioni, superando i limiti di prestazione dei metodi basati su CVAE e dimostrando miglioramenti significativi nell'efficienza del campione e nei risultati su diversi benchmark robotici.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Il modello Pulse-Train-Resonator (PTR) proposto supera i metodi di sintesi neurali tradizionali modellando direttamente la struttura temporale degli impulsi di scarico e le risonanze fisiche, ottenendo una ricostruzione armonica superiore e parametri interpretabili per il suono dei motori.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Questo rapporto presenta la sfida ICDAR 2025 sulla traduzione automatica end-to-end di documenti complessi, analizzando dataset, protocolli di valutazione e risultati ottenuti da 69 squadre, evidenziando come gli approcci basati su modelli di grandi dimensioni stiano definendo un nuovo paradigma promettente per questo settore.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Il paper introduce il Fully Convolutional Diffusion Model (FCDM), un'architettura basata su ConvNeXt che dimostra come i modelli convoluzionali moderni possano offrire un'alternativa altamente efficiente e competitiva rispetto ai Transformer per la generazione di immagini, riducendo drasticamente i requisiti computazionali e di tempo di addestramento.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

← Precedente Successivo →