Survey of Computerized Adaptive Testing: A Machine Learning Perspective

Este artículo presenta una encuesta centrada en el aprendizaje automático sobre la Prueba Adaptativa Computarizada (CAT), explorando cómo las técnicas de ML pueden optimizar sus componentes clave para crear sistemas más robustos, justos y eficientes que integren la psicometría tradicional con enfoques interdisciplinarios.

Yan Zhuang, Qi Liu, Haoyang Bi, Zhenya Huang, Weizhe Huang, Jiatong Li, Junhao Yu, Zirui Liu, Zirui Hu, Yuting Hong, Zachary A. Pardos, Haiping Ma, Mengxiao Zhu, Shijin Wang, Enhong ChenTue, 10 Ma🤖 cs.LG

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

La investigación demuestra que, aunque los Modelos de Lenguaje Grande (LLM) pueden estimar la dificultad de ítems educativos, la estrategia que combina la extracción de características lingüísticas y cognitivas por parte del LLM con algoritmos de aprendizaje automático basados en árboles (como bosques aleatorios) supera significativamente a la estimación directa, ofreciendo una alternativa precisa y escalable para reducir la dependencia de costosas pruebas de campo.

Pooya Razavi, Sonya PowersTue, 10 Ma🤖 cs.LG

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

Este artículo presenta SPOT, el primer corpus anotado en francés y un benchmark para detectar "puntos de parada" en conversaciones en línea, demostrando que los modelos de codificadores ajustados superan a los grandes modelos de lenguaje en esta tarea y mejoran su rendimiento al incorporar metadatos contextuales.

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe CointetTue, 10 Ma💬 cs.CL

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

El artículo presenta XInsight, un marco de agentes multi-sistema inspirado en la consejería psicológica que integra el paradigma Exploración-Insight-Acción y un ciclo de razonamiento-intervención-reflexión para ofrecer apoyo terapéutico estructurado y transparente en plataformas web, validado mediante la nueva métrica XInsight-Bench.

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng WangTue, 10 Ma🤖 cs.LG

The Potential for an Innovation Winter: Estimating Impact of Federal Research Reductions on Faculty Activity

El artículo modela cómo las reducciones propuestas en la financiación federal de investigación podrían provocar un "invierno de la innovación" al aumentar drásticamente la proporción de universidades R1 donde más de la mitad del profesorado tendría un apoyo subcrítico, poniendo en riesgo la calidad de los programas de investigación y doctorado.

Robert A. BrownTue, 10 Ma🔬 physics

Causal Analysis of Author Demographics in Academic Peer Review

Este estudio utiliza inferencia causal para demostrar que las minorías raciales, las mujeres y los autores del Sur Global enfrentan desventajas estadísticamente significativas en la aceptación de artículos académicos, lo que subraya la necesidad urgente de intervenciones para garantizar la equidad en los procesos de revisión, incluidos los basados en inteligencia artificial.

Uttamasha Anjally Oyshi, Gibson Nkhata, Susan GauchTue, 10 Ma💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

Este capítulo examina el potencial de la inteligencia artificial generativa para mejorar la alfabetización científica en los niveles K-16+ proponiendo una arquitectura que unifica la enseñanza, el aprendizaje y la evaluación, al tiempo que aborda los desafíos conceptuales y prácticos, así como las necesidades futuras de investigación y desarrollo.

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam BiswasTue, 10 Ma💻 cs

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Este artículo propone una "tercera ambición" para la inteligencia artificial que utiliza los grandes modelos de lenguaje como instrumentos científicos para estudiar el comportamiento humano, la cultura y el razonamiento moral, analizando sus capacidades metodológicas, limitaciones epistémicas y el impacto de las intervenciones de alineación en la investigación de las ciencias sociales.

W. Russell Neuman, Chad ColemanTue, 10 Ma💬 cs.CL

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Este estudio evalúa sistemáticamente los sesgos sociales en siete modelos de lenguaje avanzados dentro del contexto cultural nepalí, revelando mediante una evaluación de doble métrica que, aunque existe un acuerdo explícito medible con estereotipos, el sesgo implícito en la generación de texto es más prevalente, no lineal respecto a la temperatura y pobremente capturado por las métricas de acuerdo tradicionales.

Ashish Pandey, Tek Raj ChhetriTue, 10 Ma💬 cs.CL

Governance of AI-Generated Content: A Case Study on Social Media Platforms

Este estudio analiza las políticas de gobernanza de contenido generado por IA en 40 plataformas de redes sociales, encontrando que la mayoría se centra en la moderación de violaciones y la divulgación, mientras que pocas abordan temas como la propiedad o la monetización, lo que lleva a los autores a recomendar marcos regulatorios más integrales y herramientas educativas para los usuarios.

Lan Gao, Abani Ahmed, Oscar Chen, Margaux Reyl, Zayna Cheema, Nick Feamster, Chenhao Tan, Kurt Thomas, Marshini ChettyTue, 10 Ma💻 cs