Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Este artigo apresenta o PubHealthBench, um novo benchmark com mais de 8000 perguntas derivadas de diretrizes do governo do Reino Unido para avaliar o conhecimento de modelos de linguagem em saúde pública, revelando que, embora os modelos proprietários mais recentes superem os humanos em testes de múltipla escolha, seu desempenho em respostas livres permanece abaixo do ideal, indicando a necessidade de salvaguardas adicionais.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Unsupervised Representation Learning - an Invariant Risk Minimization Perspective

Os autores propõem um novo framework de aprendizado de representação não supervisionado baseado em Minimização de Risco Invariante (IRM), introduzindo os métodos PICA e VIAE para aprender representações robustas e invariantes a mudanças de distribuição em dados não rotulados, validando sua eficácia em diversos conjuntos de dados sintéticos e reais.

Yotam Norman, Ron Meir2026-03-05✓ Author reviewed 🤖 cs.AI

TSPulse: Tiny Pre-Trained Models with Disentangled Representations for Rapid Time-Series Analysis

O artigo apresenta o TSPulse, uma família de modelos pré-treinados ultra-leves com representações disjuntas que, através de um novo framework de pré-treinamento e estratégias de fusão adaptativas, alcança desempenho superior em diversas tarefas de diagnóstico de séries temporais com eficiência computacional e capacidade zero-shot, superando modelos significativamente maiores.

Vijay Ekambaram, Subodh Kumar, Arindam Jati + 5 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Este artigo apresenta o conjunto de dados BAH, um recurso multimodal com 1.427 vídeos de 300 participantes, destinado ao reconhecimento automático de ambivalência e hesitação em intervenções digitais de mudança comportamental, incluindo anotações de especialistas e resultados de benchmarks que destacam a necessidade de modelos avançados para essa tarefa.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning

Este artigo propõe um filtro supervisionado baseado em cópula Gumbel para seleção de características na previsão de risco de diabetes, demonstrando que sua métrica de concordância de cauda superior (lambda U) identifica preditores clinicamente relevantes de forma eficiente e robusta em grandes conjuntos de dados, superando filtros padrão e competindo com métodos mais complexos.

Agnideep Aich, Md Monzur Murshed, Sameera Hewage + 1 more2026-03-05🤖 cs.LG

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Este artigo propõe a Calibração Supervisionada (SC), uma nova estrutura baseada em minimização de perda que supera as limitações dos métodos de calibração existentes em Aprendizado em Contexto (ICL) ao aprender transformações afins otimizadas para corrigir vieses sistemáticos e alterar a orientação das fronteiras de decisão de Grandes Modelos de Linguagem, alcançando desempenho superior em diversos conjuntos de dados e modelos.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Robust Adversarial Quantification via Conflict-Aware Evidential Deep Learning

O artigo apresenta o C-EDL, uma abordagem pós-hoc leve para quantificação de incerteza que mitiga a vulnerabilidade do Aprendizado Profundo Evidencial a entradas adversariais e fora de distribuição ao gerar transformações diversas e ajustar previsões com base em conflitos, melhorando significativamente a robustez sem necessidade de retreinamento.

Charmaine Barker, Daniel Bethell, Simos Gerasimou2026-03-05🤖 cs.AI