cs.AI articoli | Gist.Science

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Questo studio rivela che i principali modelli linguistici, inclusi i più recenti, spesso falliscono nel rifiutare contenuti dannosi forniti dagli utenti anche durante l'esecuzione di compiti apparentemente innocui, evidenziando una vulnerabilità etica a livello di contenuto che richiede nuove misure di sicurezza.

Junjie Chu, Yiting Qu, Ye Leng, Michael Backes, Yun Shen, Savvas Zannettou, Yang Zhang2026-03-13🤖 cs.AI

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

Il paper introduce MobileKernelBench, un framework di valutazione che rivela le attuali limitazioni degli LLM nella generazione di kernel efficienti per dispositivi mobili, e propone MoKA, un agente multi-LLM che supera tali ostacoli raggiungendo un tasso di compilazione del 93,7% e significativi miglioramenti delle prestazioni.

Xingze Zou, Jing Wang, Yuhua Zheng, Xueyi Chen, Haolei Bai, Lingcheng Kong, Syed A. R. Abu-Bakar, Zhaode Wang, Chengfei Lv, Haoji Hu, Huan Wang2026-03-13🤖 cs.LG

Fair Learning for Bias Mitigation and Quality Optimization in Paper Recommendation

Il paper presenta Fair-PaperRec, un modello basato su MLP che riduce le disparità demografiche nelle decisioni di accettazione dei paper mantenendo elevati standard di qualità, come dimostrato dai risultati su dati di conferenze SIGCHI, DIS e IUI che mostrano un aumento della partecipazione dei gruppi sottorappresentati e un miglioramento dell'utilità complessiva.

Uttamasha Anjally Oyshi, Susan Gauch2026-03-13🤖 cs.AI

Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

Il paper presenta ProtoSR, un approccio che migliora la generazione di referti radiologici strutturati e dettagliati integrando conoscenze estratte da report testuali liberi tramite un sistema di prototipi multimodali, ottenendo risultati all'avanguardia sul benchmark Rad-ReStruct.

Chantal Pellegrini, Adrian Delchev, Ege Özsoy, Nassir Navab, Matthias Keicher2026-03-13🤖 cs.AI

Effective Resistance Rewiring: A Simple Topological Correction for Over-Squashing

Il paper introduce Effective Resistance Rewiring (ERR), una strategia semplice e priva di parametri per correggere la topologia dei grafi e mitigare il problema dell'over-squashing nelle Graph Neural Networks, utilizzando la resistenza efficace come segnale globale per ottimizzare il flusso di informazioni e bilanciare il compromesso tra connettività e oversmoothing.

Bertran Miquel-Oliver, Manel Gil-Sorribes, Victor Guallar, Alexis Molina2026-03-13🤖 cs.LG

Geometry-Aware Probabilistic Circuits via Voronoi Tessellations

Questo lavoro propone l'integrazione di tassellazioni di Voronoi nei circuiti probabilistici per catturare la geometria locale dei dati, risolvendo le sfide di tracciabilità attraverso un framework di inferenza approssimata con limiti garantiti e una condizione strutturale per l'inferenza esatta, abilitando infine l'apprendimento tramite rilassamento differenziabile.

Sahil Sidheekh, Sriraam Natarajan2026-03-13🤖 cs.LG

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Questo lavoro introduce gli Attacchi Backdoor Ritardati (DBA), una nuova minaccia per i modelli pre-addestrati che sfrutta la dimensione temporale per attivare comportamenti malevoli in modo differito tramite trigger banali, dimostrando la fattibilità di tale approccio attraverso il prototipo DND che supera le difese esistenti mantenendo alta l'accuratezza.

Zikang Ding, Haomiao Yang, Meng Hao, Wenbo Jiang, Kunlan Xiang, Runmeng Du, Yijing Liu, Ruichen Zhang, Dusit Niyato2026-03-13🤖 cs.AI

Learning Transferable Sensor Models via Language-Informed Pretraining

Il paper presenta SLIP, un framework open-source di preaddestramento che allinea i dati dei sensori con il linguaggio naturale per apprendere rappresentazioni trasferibili, consentendo un'adattabilità flessibile a diverse configurazioni di sensori e ottenendo prestazioni superiori in compiti di trasferimento zero-shot, descrizione e risposta a domande.

Yuliang Chen, Arvind Pillai, Yu Yvonne Wu, Tess Z. Griffin, Lisa Marsch, Michael V. Heinz, Nicholas C. Jacobson, Andrew Campbell2026-03-13🤖 cs.AI

Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

Il paper propone un framework multimodale per il riconoscimento delle emozioni in video non controllati, che combina modelli pre-addestrati CLIP e Wav2Vec 2.0 con un meccanismo di attenzione incrociata bidirezionale e modellazione temporale per superare le limitazioni degli approcci unimodali.

Junhyeong Byeon, Jeongyeol Kim, Sejoon Lim2026-03-13🤖 cs.AI

Normative Common Ground Replication (NormCoRe): Replication-by-Translation for Studying Norms in Multi-agent AI

Il paper propone NormCoRe, un nuovo framework metodologico che traduce sistematicamente gli esperimenti con soggetti umani in ambienti di Intelligenza Artificiale Multi-Agente per studiare le dinamiche normative, dimostrando come i giudizi degli agenti AI differiscano da quelli umani e siano sensibili al modello di base e al linguaggio utilizzato.

Luca Deck, Simeon Allmendinger, Lucas Müller, Niklas Kühl2026-03-13🤖 cs.AI

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Il paper introduce HomeSafe-Bench, un benchmark per valutare la capacità dei modelli visione-linguaggio di rilevare azioni pericolose in ambienti domestici, e propone HD-Guard, un'architettura gerarchica che bilancia efficienza e accuratezza nel monitoraggio della sicurezza in tempo reale.

Jiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu2026-03-13🤖 cs.AI

LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories

Il paper introduce LABSHIELD, un benchmark multimodale realistico basato sugli standard OSHA e GHS per valutare le capacità di ragionamento e pianificazione sicura dei modelli linguistici multimodali in ambienti di laboratorio scientifici, evidenziando un significativo divario tra le prestazioni generali e quelle specifiche per la sicurezza.

Qianpu Sun, Xiaowei Chi, Yuhan Rui, Ying Li, Kuangzhi Ge, Jiajun Li, Sirui Han, Shanghang Zhang2026-03-13🤖 cs.AI

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

Il paper introduce BTZSC, un benchmark completo per la classificazione testuale zero-shot su 22 dataset, che dimostra come i moderni reranker e i modelli di embedding raggiungano prestazioni superiori rispetto ai tradizionali cross-encoder NLI, offrendo un nuovo standard per la valutazione equa e riproducibile di diverse architetture di modelli linguistici.

Ilias Aarab2026-03-13💬 cs.CL

Few-for-Many Personalized Federated Learning

Il paper propone FedFew, un algoritmo di Federated Learning Personalizzato che risolve il problema della scalabilità servendo migliaia di clienti eterogenei con un numero ridotto di modelli server condivisi, ottenendo prestazioni superiori agli stati dell'arte senza necessità di clustering manuale o ottimizzazione complessa degli iperparametri.

Ping Guo, Tiantian Zhang, Xi Lin, Xiang Li, Zhi-Ri Tang, Qingfu Zhang2026-03-13🤖 cs.AI

Can RL Improve Generalization of LLM Agents? An Empirical Study

Questo studio empirico dimostra che, sebbene il Reinforcement Fine-Tuning (RFT) generalizzi bene alla variazione di difficoltà all'interno dello stesso ambiente, la sua capacità di trasferirsi ad ambienti non visti è limitata dalle differenze semantiche e nelle interfacce, mentre l'addestramento sequenziale e misto su più ambienti offre un miglior equilibrio tra trasferimento e conservazione delle conoscenze.

Zhiheng Xi, Xin Guo, Jiaqi Liu, Jiazheng Zhang, Yutao Fan, Zhihao Zhang, Shichun Liu, Mingxu Chai, Xiaowei Shi, Yitao Zhai, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang2026-03-13🤖 cs.AI

Flowcean - Model Learning for Cyber-Physical Systems

Il documento presenta Flowcean, un nuovo framework modulare e flessibile che automatizza la generazione di modelli per i sistemi cyber-fisici attraverso l'apprendimento basato sui dati, semplificando l'integrazione di strumenti diversi e rendendo il processo più efficiente e accessibile.

Maximilian Schmidt, Swantje Plambeck, Markus Knitt, Hendrik Rose, Goerschwin Fey, Jan Christian Wieck, Stephan Balduin2026-03-13🤖 cs.LG

An Intent of Collaboration: On Agencies between Designers and Emerging (Intelligent) Technologies

Questo studio esplora come i designer possano mantenere la propria agenzia creativa collaborando con l'intelligenza artificiale generativa, proponendo una relazione di collaborazione basata sull'introspezione, sulla comprensione tecnica e sull'adattamento dinamico per superare le sfide poste dalla mancanza di conoscenza incarnata di questi sistemi.

Pei-Ying Lin, Julie Heij, Iris Borst, Britt Joosten, Kristina Andersen, Wijnand IJsselsteijn2026-03-13🤖 cs.AI

Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Questo articolo presenta un approccio sistematico per l'attracco autonomo di un AUV basato sull'apprendimento per rinforzo profondo, che utilizza un gemello digitale ad alta fedeltà per colmare il divario tra simulazione e realtà, ottenendo un tasso di successo superiore al 90% in simulazione e una validazione efficace in un bacino di prova fisico.

Alaaeddine Chaarani, Narcis Palomeras, Pere Ridao2026-03-13🤖 cs.AI

Just Use XML: Revisiting Joint Translation and Label Projection

Il paper introduce LabelPigeon, un nuovo framework che utilizza tag XML per eseguire congiuntamente traduzione e proiezione di etichette, migliorando sia la qualità della traduzione che i risultati del trasferimento cross-linguale rispetto ai metodi esistenti.

Thennal D K, Chris Biemann, Hans Ole Hatzel2026-03-13💬 cs.CL

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

Questo lavoro dimostra come le vulnerabilità tradizionali del software e dell'hardware possano essere combinate con attacchi algoritmici specifici per i modelli linguistici per compromettere l'integrità e la riservatezza dei sistemi di intelligenza artificiale composti, evidenziando la necessità di integrare tali minacce nei processi di valutazione della sicurezza.

Sarbartha Banerjee, Prateek Sahu, Anjo Vahldiek-Oberwagner, Jose Sanchez Vicarte, Mohit Tiwari2026-03-13🤖 cs.AI

← Precedente Successivo →