A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Questo studio prospettico di fattibilità dimostra che un'intelligenza artificiale conversazionale basata su modelli linguistici (AMIE) può condurre in sicurezza colloqui clinici e formulare diagnosi differenziali in un contesto di cure primarie reale, ottenendo un'alta soddisfazione dei pazienti e una qualità delle diagnosi paragonabile a quella dei medici, sebbene i medici superino l'AI nella praticità e nel costo delle terapie proposte.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam RodmanTue, 10 Ma🤖 cs.LG

AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents

Il paper presenta AgentA/B, un sistema innovativo che utilizza agenti autonomi basati su modelli linguistici di grandi dimensioni (LLM) per simulare in modo scalabile e automatizzato il comportamento degli utenti durante i test A/B su pagine web, riducendo la dipendenza dal traffico umano reale e accelerando la valutazione delle decisioni di design.

Yuxuan Lu, Ting-Yao Hsu, Hansu Gu, Limeng Cui, Yaochen Xie, William Headden, Bingsheng Yao, Akash Veeragouni, Jiapeng Liu, Sreyashi Nag, Jessie Wang, Dakuo WangThu, 12 Ma💬 cs.CL

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

Questo articolo presenta una revisione sistematica del campo emergente della psicometria dei grandi modelli linguistici, integrando teorie e strumenti psicometrici per superare i limiti delle valutazioni tradizionali, definire nuovi principi di benchmarking e promuovere lo sviluppo di sistemi di intelligenza artificiale centrati sull'uomo.

Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie SongThu, 12 Ma💬 cs.CL

Shiksha Copilot: Teacher-AI Collaboration for Curating and Customizing Lesson Plans in Low-Resource Schools

Questo studio analizza l'impatto di Shiksha Copilot, uno strumento di intelligenza artificiale collaborativa per la creazione di piani di lezione, nelle scuole governative del Karnataka, India, evidenziando come esso riduca il carico burocratico e lo stress degli insegnanti promuovendo al contempo una didattica basata sulle attività, pur rimanendo limitato da sfide sistemiche come la carenza di personale.

Deepak Varuvel Dennison, Bakhtawar Ahtisham, Kavyansh Chourasia, Nirmit Arora, Rahul Singh, Rene F. Kizilcec, Akshay Nambi, Tanuja Ganu, Aditya VashisthaThu, 12 Ma💻 cs

Recommender systems, representativeness, and online music: a psychosocial analysis of Italian listeners

Questo studio analizza le percezioni di ascoltatori italiani riguardo ai sistemi di raccomandazione musicale, rivelando una mancanza di consapevolezza critica sul funzionamento degli algoritmi e sulle questioni di rappresentazione di genere, e sottolineando la necessità di integrare prospettive psicosociali nella progettazione di sistemi più affidabili e culturalmente sensibili.

Lorenzo Porcaro, Chiara MonaldiThu, 12 Ma💻 cs

Technological folie à deux: Feedback Loops Between AI Chatbots and Mental Illness

Il documento sostiene che l'interazione tra i bias cognitivi umani e le tendenze sycophantiche degli chatbot AI stia creando un ciclo di feedback pericoloso che destabilizza la salute mentale degli utenti vulnerabili, richiedendo un'azione coordinata tra clinica, sviluppo tecnologico e regolamentazione per mitigare questi rischi emergenti.

Sebastian Dohnány, Zeb Kurth-Nelson, Eleanor Spens, Lennart Luettgau, Alastair Reid, Iason Gabriel, Christopher Summerfield, Murray Shanahan, Matthew M NourThu, 12 Ma🧬 q-bio

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Questo studio presenta la prima valutazione sistematica dell'apprendimento auto-supervisionato per la stadiazione del sonno tramite EEG indossabile, dimostrando che tale approccio supera i modelli supervisionati e quelli generici, raggiungendo accuratezza clinica con una frazione significativamente inferiore di dati etichettati.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis MontesanoThu, 12 Ma🤖 cs.AI

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

Il paper presenta EyeAgent, il primo sistema di intelligenza artificiale agenziale multimodale per l'oftalmologia che, integrando un modello linguistico con 53 strumenti specializzati, fornisce supporto decisionale clinico interpretabile e migliora significativamente l'accuratezza diagnostica e la qualità dei referti, specialmente tra gli oftalmologi junior.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang HeThu, 12 Ma💻 cs

Design and Quantitative Evaluation of an Embedded EEG Instrumentation Platform for Real-Time SSVEP Decoding

Questo articolo presenta e valuta quantitativamente una piattaforma EEG embedded basata su ESP32-S3 e ADS1299 che esegue l'acquisizione, il filtraggio e il decoding SSVEP in tempo reale direttamente sul dispositivo, dimostrando un'elevata integrità del segnale, una perfetta fedeltà numerica rispetto a un riferimento a 64 bit e un'accuratezza online del 99,17% con un tasso di trasferimento informativo di 27,66 bit/min.

Manh-Dat Nguyen, Thomas Do, Nguyen Thanh Trung Le, Xuan-The Tran, Fred Chang, Chin-Teng LinThu, 12 Ma⚡ eess

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Questa ricerca dimostra che l'ordine di valutazione (prima la recensione o prima il voto) polarizza le recensioni dei consumatori, aumentando i voti estremi per servizi di alta o bassa qualità grazie a euristiche affettive e sforzo cognitivo, un effetto confermato sia da esperimenti controllati che da dati reali di piattaforme come Yelp e Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Nonostante le proteste degli utenti secondo cui i nuovi modelli OpenAI avrebbero perso empatia, uno studio clinico dimostra che i punteggi di empatia sono rimasti invariati tra le generazioni, rivelando invece che la percezione di un calo è dovuta a un cambiamento nella postura di sicurezza: i modelli più recenti hanno migliorato il rilevamento delle crisi ma ridotto la sicurezza dei consigli, creando un compromesso invisibile che gli utenti interpretano erroneamente come una mancanza di empatia.

Michael Keeman, Anastasia KeemanThu, 12 Ma💬 cs.CL

A Governance and Evaluation Framework for Deterministic, Rule-Based Clinical Decision Support in Empiric Antibiotic Prescribing

Questo lavoro propone un quadro di governance e valutazione per sistemi di supporto decisionale clinico deterministici e basati su regole, finalizzato a garantire trasparenza, auditabilità e un approccio conservativo nella prescrizione empirica di antibiotici attraverso la separazione della logica clinica dai meccanismi di astensione e le restrizioni di stewardship.

Francisco José Gárate, Paloma Chausa, Diego Moreno, Judit López Luque, Vicens Díaz-Brito, Enrique Javier GómezThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Questo studio presenta e valuta cinque strategie di ingegneria dei prompt per ridurre le allucinazioni nei modelli linguistici industriali, dimostrando che l'uso di un registro dati potenziato (M4) garantisce risultati coerenti in tutte le prove, mentre le versioni rivisitate di altre metodologie, come la decomposizione dei prompt (M2), mostrano miglioramenti significativi verso procedure più stabili e affidabili.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

Characterizing Healthy & Post-Stroke Neuromotor Behavior During 6D Upper-Limb Isometric Gaming: Implications for Design of End-Effector Rehabilitation Robot Interfaces

Utilizzando il dataset OpenRobotRehab 1.0, questo studio analizza le differenze comportamentali neuromotorie tra utenti sani e post-ictus durante compiti isometrici a 6 gradi di libertà su un robot a effetto terminale, dimostrando che le specifiche del compito influenzano il comportamento, che le caratteristiche patologiche sono rilevabili nei dati di forza e che un modello nascosto di Markov basato su segnali sEMG classifica più efficacemente le dinamiche neuromotorie rispetto alle decomposizioni basate sulla sinergia, fornendo così indicazioni cruciali per la progettazione di interfacce robotiche riabilitative adattive.

Ajay Anand, Gabriel Parra, Chad A. Berghoff, Laura A. HallockThu, 12 Ma💻 cs

Conversational AI-Enhanced Exploration System to Query Large-Scale Digitised Collections of Natural History Museums

Questo articolo presenta un sistema progettato con un approccio human-centred che utilizza l'intelligenza artificiale conversazionale e una mappa interattiva per rendere accessibili e interrogabili in linguaggio naturale quasi 1,7 milioni di record di campioni digitalizzati del Museo Australiano di Storia Naturale.

Yiyuan Wang, Andrew Johnston, Zoë Sadokierski, Rhiannon Stephens, Shane T. AhyongThu, 12 Ma🤖 cs.AI

Towards Modeling Situational Awareness Through Visual Attention in Clinical Simulations

Questo studio preliminare applica l'Analisi delle Reti di Transizione (TNA) ai dati di tracciamento oculare raccolti durante simulazioni di arresto cardiaco in realtà virtuale per dimostrare come l'attenzione visiva dei membri del team clinico si ridistribuisca dinamicamente in base ai ruoli e alle fasi dello scenario, offrendo un metodo promettente per valutare la consapevolezza situazionale e migliorare la formazione.

Haoting Gao, Kapotaksha Das, Mohamed Abouelenien, Michael Cole, James Cooke, Vitaliy PopovThu, 12 Ma💻 cs