Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Este artigo avalia a capacidade de modelos de linguagem (LLMs) de revisar propostas de financiamento do EPSRC através de perturbações estruturadas, descobrindo que a abordagem de análise seção por seção supera outras arquiteturas, embora os sistemas atuais ainda apresentem variabilidade significativa e priorizem a verificação de conformidade em detrimento de uma avaliação holística.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana MaynardTue, 10 Ma💬 cs.CL

Personalizing explanations of AI-driven hints to users' characteristics: an empirical evaluation

Este estudo avalia empiricamente que personalizar as explicações de dicas geradas por IA em um Sistema de Tutoria Inteligente, adaptando-as a alunos com baixo Necessidade de Cognição e Baixo Conscienciosidade, aumenta sua interação com as explicações, compreensão e aprendizado, validando assim o valor da IA Explicável Personalizada na educação.

Vedant Bahel, Harshinee Sriram, Cristina ConatiThu, 12 Ma🤖 cs.AI

Shiksha Copilot: Teacher-AI Collaboration for Curating and Customizing Lesson Plans in Low-Resource Schools

Este estudo analisa o "Shiksha Copilot", uma ferramenta de IA implementada em escolas governamentais de Karnataka, Índia, que, ao facilitar a co-criação e personalização de planos de aula bilíngues por professores e curadores, demonstrou reduzir a carga burocrática e o estresse docente enquanto promove uma transição para pedagogias baseadas em atividades, apesar das limitações sistêmicas enfrentadas em ambientes de recursos escassos.

Deepak Varuvel Dennison, Bakhtawar Ahtisham, Kavyansh Chourasia, Nirmit Arora, Rahul Singh, Rene F. Kizilcec, Akshay Nambi, Tanuja Ganu, Aditya VashisthaThu, 12 Ma💻 cs

Recommender systems, representativeness, and online music: a psychosocial analysis of Italian listeners

Este estudo analisa as narrativas de ouvintes italianos sobre sistemas de recomendação musical, revelando que, embora reconheçam distinções culturais e linguísticas, eles carecem de compreensão crítica sobre o funcionamento dos algoritmos e têm consciência limitada das questões de representação de gênero, destacando a necessidade de integrar perspectivas psicossociais no design desses sistemas.

Lorenzo Porcaro, Chiara MonaldiThu, 12 Ma💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Este estudo demonstra que a sequência de avaliação ("Avaliar Primeiro" versus "Escrever a Análise Primeiro") polariza as classificações dos consumidores, aumentando-as em serviços de alta qualidade e diminuindo-as em serviços de baixa qualidade, um efeito mediado por heurísticas afetivas e esforço cognitivo que é amplificado em produtos hedônicos e confirmado por dados reais de plataformas como Yelp e Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

μ\muEd API: Towards A Shared API for EdTech Microservices

O artigo propõe o μ\muEd, uma API padronizada e independente de plataforma para microserviços educacionais, que visa criar um ecossistema interoperável capaz de automatizar tarefas como feedback, avaliação e chatbots, superando as limitações de plataformas de aprendizado monolíticas.

Maximillan Sölch, Alexandra Neagu, Marcus Messer, Peter Johnson, Gerd Kortemeyer, Samuel S. H. Ng, Fun Siong Lim, Stephan KruscheThu, 12 Ma💻 cs

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Este estudo avalia se modelos de linguagem de grande escala (LLMs) exibem vieses cognitivos humanos, como o efeito de vítima virtuosa e o efeito de halo, ao analisar seu impacto em decisões judiciais de sentença, descobrindo que, embora apresentem variações entre si e ainda não sejam adequados para uso judicial direto, demonstram melhorias modestas em relação a benchmarks humanos, com uma redução significativa no viés baseado em credenciais.

Sierra S. LiuThu, 12 Ma💻 cs

The science and practice of proportionality in AI risk evaluations

Este artigo examina como o princípio da proporcionalidade, exigido pela legislação da União Europeia, pode orientar o desenvolvimento de métodos científicos para calibrar as avaliações de riscos sistêmicos de modelos de IA de propósito geral, equilibrando a gestão eficaz de riscos com a inovação técnica sob o Regulamento de IA.

Carlos Mougan, Lauritz Morlock, Jair Aguirre, James R. M. Black, Jan Brauner, Simeon Campos, Sunishchal Dev, David Fernández Llorca, Alberto Franzin, Mario Fritz, Emilia Gómez, Friederike Grosse-Holz, Eloise Hamilton, Max Hasin, Jose Hernandez-Orallo, Dan Lahav, Luca Massarelli, Vasilios Mavroudis, Malcolm Murray, Patricia Paskov, Jaime Raldua, Wout SchellaertThu, 12 Ma💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

O artigo apresenta o DeliberationBench, um benchmark normativo que avalia a influência de modelos de linguagem de grande escala (LLMs) nas opiniões dos usuários, demonstrando por meio de um experimento com milhares de participantes que esses modelos tendem a promover mudanças de opinião alinhadas com os padrões de legitimidade democrática e autonomia.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-ReaulxThu, 12 Ma💻 cs