Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Questo studio valuta i rischi di persuasione politica di sette modelli linguistici all'avanguardia attraverso due esperimenti su 19.145 partecipanti, rivelando che questi modelli superano le pubblicità elettorali tradizionali, con Claude che risulta il più persuasivo e Grok il meno, mentre l'efficacia dei prompt basati su informazioni varia significativamente a seconda del modello.

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

Survey of Computerized Adaptive Testing: A Machine Learning Perspective

Questo articolo offre una panoramica incentrata sull'apprendimento automatico del Computerized Adaptive Testing (CAT), esaminando come le tecniche di ML possano ottimizzare i modelli di misurazione, la selezione delle domande e il controllo dei test per creare sistemi più robusti, equi ed efficienti rispetto ai metodi psicometrici tradizionali.

Yan Zhuang, Qi Liu, Haoyang Bi, Zhenya Huang, Weizhe Huang, Jiatong Li, Junhao Yu, Zirui Liu, Zirui Hu, Yuting Hong, Zachary A. Pardos, Haiping Ma, Mengxiao Zhu, Shijin Wang, Enhong ChenTue, 10 Ma🤖 cs.LG

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Questo studio dimostra che l'uso di modelli linguistici di grandi dimensioni (LLM) per estrarre caratteristiche cognitive e linguistiche, successivamente elaborate da algoritmi di apprendimento automatico basati su alberi decisionali, consente di stimare con maggiore precisione la difficoltà degli item nei test scolastici rispetto alla valutazione diretta, offrendo un'alternativa efficiente e scalabile ai costosi test sul campo.

Pooya Razavi, Sonya PowersTue, 10 Ma🤖 cs.LG

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

Il paper introduce SPOT, il primo corpus annotato in francese e benchmark per il rilevamento delle "interruzioni critiche" (stopping points) nei dibattiti online, dimostrando che i modelli encoder finetunati superano significativamente i grandi modelli linguistici in questo compito e fornendo risorse open-source per la ricerca riproducibile.

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe CointetTue, 10 Ma💬 cs.CL

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

Il paper presenta XInsight, un framework multi-agente ispirato alla consulenza psicologica che organizza il supporto digitale in un flusso di lavoro coerente con il paradigma Esplorazione-Insight-Azione, integrando agenti specializzati per la concettualizzazione dei casi, il routing terapeutico adattivo e la documentazione strutturata, e introduce XInsight-Bench per una valutazione rigorosa, migliorando significativamente l'allineamento clinico e l'interpretabilità rispetto ai sistemi esistenti.

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng WangTue, 10 Ma🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Questo articolo presenta DeepScope, un sistema basato sull'intelligenza artificiale che analizza immagini microscopiche di campioni d'acqua non incubati per rilevare la contaminazione fecale in pochi secondi con un costo di 0,44 dollari per test, superando così i requisiti di velocità e accessibilità degli attuali metodi di sicurezza idrica.

Sanjay SrinivasanTue, 10 Ma🤖 cs.LG

Causal Analysis of Author Demographics in Academic Peer Review

Questo studio utilizza un'analisi causale su un dataset di 530 articoli per dimostrare che razza, genere e provenienza geografica degli autori influenzano significativamente e negativamente le valutazioni di accettazione nella revisione paritaria, evidenziando la necessità urgente di interventi di equità nei processi di valutazione accademica tradizionali e basati sull'intelligenza artificiale.

Uttamasha Anjally Oyshi, Gibson Nkhata, Susan GauchTue, 10 Ma💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

Questo capitolo esamina il potenziale dell'intelligenza artificiale generativa per migliorare l'alfabetizzazione scientifica nel percorso K-16+, proponendo un'architettura che garantisca coerenza tra insegnamento, apprendimento e valutazione delle conoscenze e del ragionamento scientifico, pur affrontando le sfide concettuali e pratiche di tale integrazione.

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam BiswasTue, 10 Ma💻 cs

SuperSkillsStack: Agency, Domain Knowledge, Imagination, and Taste in Human-AI Design Education

Questo studio dimostra che, nell'educazione al design, l'intelligenza artificiale generativa funge principalmente da acceleratore cognitivo nelle fasi iniziali, mentre le competenze umane fondamentali come l'agenzia, la conoscenza di dominio, l'immaginazione e il gusto rimangono essenziali per interpretare il contesto, validare i risultati e affinare le soluzioni creative.

Qian Huang, King Wang PoonTue, 10 Ma💻 cs

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Questo studio valuta i pregiudizi sociali in sette modelli linguistici di grandi dimensioni all'interno del contesto culturale nepalese, rivelando che le metriche di accordo esplicito non catturano adeguatamente i bias generativi impliciti e sottolineando la necessità di dataset culturalmente fondati per le società sottorappresentate.

Ashish Pandey, Tek Raj ChhetriTue, 10 Ma💬 cs.CL

Governance of AI-Generated Content: A Case Study on Social Media Platforms

Lo studio analizza i quadri di governance di 40 piattaforme social per i contenuti generati dall'IA, rilevando che la maggior parte si concentra sulla moderazione e sulla divulgazione, mentre poche affrontano questioni come la proprietà e la monetizzazione, suggerendo la necessità di normative più complete e strumenti educativi.

Lan Gao, Abani Ahmed, Oscar Chen, Margaux Reyl, Zayna Cheema, Nick Feamster, Chenhao Tan, Kurt Thomas, Marshini ChettyTue, 10 Ma💻 cs