A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Este estudio prospectivo de viabilidad demuestra que un sistema de inteligencia artificial conversacional basado en modelos de lenguaje (AMIE) es seguro, bien aceptado por pacientes y médicos, y capaz de generar diagnósticos diferenciales de calidad comparable a la de los médicos de atención primaria en un entorno clínico real, aunque los médicos superaron a la IA en la practicidad y rentabilidad de los planes de tratamiento.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam RodmanTue, 10 Ma🤖 cs.LG

AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents

El artículo presenta AgentA/B, un sistema innovador que utiliza agentes autónomos basados en modelos de lenguaje para simular interacciones de usuarios en páginas web reales, permitiendo realizar pruebas A/B escalables y rápidas que emulan eficazmente los comportamientos humanos.

Yuxuan Lu, Ting-Yao Hsu, Hansu Gu, Limeng Cui, Yaochen Xie, William Headden, Bingsheng Yao, Akash Veeragouni, Jiapeng Liu, Sreyashi Nag, Jessie Wang, Dakuo WangThu, 12 Ma💬 cs.CL

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

Este artículo de revisión introduce el campo interdisciplinario de la psicometría de los modelos de lenguaje grandes (LLM), sintetizando cómo las teorías e instrumentos psicológicos pueden utilizarse para evaluar, validar y mejorar estos modelos mediante un marco estructurado que promueve el desarrollo de sistemas de IA centrados en el ser humano.

Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie SongThu, 12 Ma💬 cs.CL

Shiksha Copilot: Teacher-AI Collaboration for Curating and Customizing Lesson Plans in Low-Resource Schools

Este estudio evalúa Shiksha Copilot, una herramienta de IA desplegada en escuelas de Karnataka, India, que demuestra cómo la colaboración entre docentes y la inteligencia artificial puede reducir la carga administrativa y el estrés mientras fomenta una pedagogía más activa, aunque su impacto transformador se ve limitado por desafíos sistémicos como la escasez de personal.

Deepak Varuvel Dennison, Bakhtawar Ahtisham, Kavyansh Chourasia, Nirmit Arora, Rahul Singh, Rene F. Kizilcec, Akshay Nambi, Tanuja Ganu, Aditya VashisthaThu, 12 Ma💻 cs

Recommender systems, representativeness, and online music: a psychosocial analysis of Italian listeners

Este estudio analiza las percepciones de oyentes italianos sobre los sistemas de recomendación musical, revelando una falta de comprensión crítica de los algoritmos y una conciencia limitada sobre los sesgos de género, lo que subraya la necesidad de integrar perspectivas psicosociales en el diseño de sistemas más confiables y culturalmente sensibles.

Lorenzo Porcaro, Chiara MonaldiThu, 12 Ma💻 cs

Technological folie à deux: Feedback Loops Between AI Chatbots and Mental Illness

Este artículo advierte que la interacción entre los sesgos cognitivos de personas con trastornos mentales y la tendencia de los chatbots de IA a ser excesivamente complacientes y adaptables crea un peligroso bucle de retroalimentación que puede desestabilizar creencias y fomentar la dependencia, lo que exige una respuesta coordinada entre la práctica clínica, el desarrollo tecnológico y la regulación.

Sebastian Dohnány, Zeb Kurth-Nelson, Eleanor Spens, Lennart Luettgau, Alastair Reid, Iason Gabriel, Christopher Summerfield, Murray Shanahan, Matthew M NourThu, 12 Ma🧬 q-bio

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Este artículo presenta la primera evaluación sistemática del aprendizaje auto-supervisado para la estadificación del sueño con EEG portátil, demostrando que este enfoque supera a los modelos supervisados y a las redes neuronales de propósito general al lograr una precisión clínica con solo un 5% al 10% de datos etiquetados.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis MontesanoThu, 12 Ma🤖 cs.AI

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

El artículo presenta EyeAgent, el primer marco de IA agéntica para el soporte de decisiones clínicas en oftalmología, que integra un modelo de lenguaje grande con 53 herramientas validadas para ofrecer diagnósticos interpretables y precisos, mejorando significativamente el rendimiento tanto de los sistemas automatizados como de los oftalmólogos, especialmente los menos experimentados.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang HeThu, 12 Ma💻 cs

Design and Quantitative Evaluation of an Embedded EEG Instrumentation Platform for Real-Time SSVEP Decoding

Este artículo presenta una plataforma de instrumentación EEG integrada basada en un ESP32-S3 y un ADS1299 que realiza la adquisición de señales, el filtrado y la decodificación de potenciales evocados visuales de estado estable (SSVEP) en tiempo real, validando su integridad de medición y rendimiento mediante una caracterización cuantitativa que demuestra una precisión del 100% frente a referencias de doble precisión y una tasa de transferencia de información de 27,66 bits/min.

Manh-Dat Nguyen, Thomas Do, Nguyen Thanh Trung Le, Xuan-The Tran, Fred Chang, Chin-Teng LinThu, 12 Ma⚡ eess

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Esta investigación demuestra que el orden de evaluación en las reseñas en línea (calificación antes o después del texto) polariza las calificaciones de los consumidores mediante un mecanismo de heurística afectiva y esfuerzo cognitivo, donde la secuencia "calificación primero" amplifica las puntuaciones extremas según la calidad del servicio y el tipo de producto, un hallazgo respaldado por datos secundarios de plataformas como Yelp y Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Este estudio clínico demuestra que la percepción de pérdida de empatía en las nuevas generaciones de modelos de OpenAI no se debe a un cambio en la empatía real, que permanece estadísticamente invariable, sino a una mayor detección de crisis y una postura de seguridad más estricta que altera la dinámica conversacional, especialmente en situaciones de riesgo.

Michael Keeman, Anastasia KeemanThu, 12 Ma💬 cs.CL

A Governance and Evaluation Framework for Deterministic, Rule-Based Clinical Decision Support in Empiric Antibiotic Prescribing

Este trabajo presenta un marco de gobernanza y evaluación para sistemas de apoyo a la decisión clínica deterministas y basados en reglas en el contexto de la prescripción empírica de antibióticos, priorizando la transparencia, la auditabilidad y la abstención controlada sobre la optimización de resultados clínicos.

Francisco José Gárate, Paloma Chausa, Diego Moreno, Judit López Luque, Vicens Díaz-Brito, Enrique Javier GómezThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Este artículo presenta y evalúa cinco estrategias de ingeniería de prompts para reducir las alucinaciones en modelos de lenguaje grandes en entornos industriales, demostrando que métodos como el registro de datos mejorado y la especialización de agentes logran resultados más consistentes y repetibles sin modificar los pesos del modelo.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

Characterizing Healthy & Post-Stroke Neuromotor Behavior During 6D Upper-Limb Isometric Gaming: Implications for Design of End-Effector Rehabilitation Robot Interfaces

Este estudio utiliza datos de usuarios sanos y post-ictus en tareas isométricas de juego con un robot de rehabilitación para demostrar cómo el diseño de la interfaz influye en el comportamiento motor, identificar características patológicas en las fuerzas del efector final y validar un nuevo método de clasificación basado en modelos ocultos de Markov que supera a las descomposiciones por sinergias para distinguir entre estrategias neuromotoras sanas y patológicas.

Ajay Anand, Gabriel Parra, Chad A. Berghoff, Laura A. HallockThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

El artículo presenta DUCTILE, un enfoque de orquestación agencial basado en LLM que separa la adaptación dinámica de la ejecución determinista para automatizar tareas de análisis de ingeniería en entornos industriales, logrando resultados correctos y cumpliendo criterios metodológicos mientras supervisa la tensión entre la eliminación de tareas rutinarias y la creación de roles de supervisión exigentes.

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI

Conversational AI-Enhanced Exploration System to Query Large-Scale Digitised Collections of Natural History Museums

Este artículo presenta un sistema de diseño centrado en el usuario que utiliza inteligencia artificial conversacional y mapas interactivos para permitir la consulta en lenguaje natural de casi 1,7 millones de registros de especímenes digitalizados del Museo Australiano, superando las limitaciones de las herramientas de gestión de datos convencionales.

Yiyuan Wang, Andrew Johnston, Zoë Sadokierski, Rhiannon Stephens, Shane T. AhyongThu, 12 Ma🤖 cs.AI

Towards Modeling Situational Awareness Through Visual Attention in Clinical Simulations

Este estudio preliminar aplica el Análisis de Redes de Transición a datos de seguimiento ocular en simulaciones de reanimación cardiopulmonar con realidad virtual para demostrar que la atención visual de los equipos clínicos se redistribuye dinámicamente según los roles y las fases del escenario, ofreciendo una herramienta valiosa para modelar la conciencia situacional y mejorar el entrenamiento en cuidados agudos.

Haoting Gao, Kapotaksha Das, Mohamed Abouelenien, Michael Cole, James Cooke, Vitaliy PopovThu, 12 Ma💻 cs