cs.LG artigos | Gist.Science

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

O artigo utiliza técnicas de interpretabilidade mecânica para revelar que, em modelos VideoViT pré-treinados, a representação causal de resultados de ações humanas (sucesso vs. falha) é gerada por um circuito distribuído e redundante onde os mecanismos de atenção atuam como coletores de evidências e os blocos MLP como compositores de conceitos, demonstrando que modelos de classificação podem desenvolver "conhecimento oculto" sofisticado que exige supervisão mecânica para garantir AI confiável.

Sai V R Chereddy2026-03-13🤖 cs.LG

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Este artigo propõe um pipeline automatizado e localmente implantável que utiliza modelos de linguagem multimodais para gerar metadados descritivos e atribuições de artistas em vídeos de museus, melhorando a descoberta de arquivos audiovisuais enquanto respeita restrições de recursos, soberania de dados e regulamentações.

Minsak Nanang, Adrian Hilton, Armin Mustafa2026-03-13🤖 cs.LG

Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models

Este artigo estabelece uma análise sistemática de leis de escala para ataques de jailbreak em modelos de linguagem grandes, demonstrando que métodos baseados em prompt são mais eficientes computacionalmente e alcançam maior sucesso e sigilo do que abordagens de otimização, além de revelar que a vulnerabilidade varia significativamente dependendo do tipo de dano pretendido.

Xiangwen Wang, Ananth Balashankar, Varun Chandrasekaran2026-03-13🤖 cs.LG

Algorithmic Capture, Computational Complexity, and Inductive Bias of Infinite Transformers

Este artigo define formalmente a "captura algorítmica" e demonstra que, apesar de sua expressividade universal, os transformers de largura infinita possuem um viés indutivo que os limita a aprender algoritmos de baixa complexidade dentro da classe EPTHS, impedindo a generalização para tarefas computacionalmente mais complexas.

Orit Davidovich, Zohar Ringel2026-03-13🤖 cs.LG

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

Este artigo apresenta uma nova abordagem de aprendizado de máquina auto-supervisionado que utiliza trajetórias de oráculo para treinar uma rede neural baseada em transformadores, alcançando taxas de simplificação quase perfeitas em expressões matemáticas complexas da física de altas energias, superando significativamente métodos anteriores.

David Shih2026-03-13⚛️ hep-th

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Este artigo apresenta um estudo sistemático de reconhecimento automático de fala para a doença de Huntington, demonstrando que a adaptação específica da doença e o uso de supervisão auxiliar baseada em biomarcadores reduzem significativamente a taxa de erro, ao mesmo tempo em que revela padrões de erro distintos dependentes da gravidade da condição.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia Hirschberg2026-03-13🤖 cs.LG

PACED: Distillation at the Frontier of Student Competence

O artigo apresenta o PACED, um framework de destilação de modelos de linguagem que otimiza o aprendizado ao focar exclusivamente nos problemas na fronteira da competência do modelo estudante, utilizando uma função de ponderação baseada na teoria de sinal-ruído para maximizar a eficiência e evitar o esquecimento de capacidades já adquiridas.

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-13🤖 cs.AI

Bayesian Optimization of Partially Known Systems using Hybrid Models

Este artigo propõe uma abordagem de otimização bayesiana híbrida que integra modelos mecanísticos de física conhecidos com modelos probabilísticos para variáveis desconhecidas, demonstrando em simulações de destilação que essa estratégia converge significativamente mais rápido e produz melhores resultados do que a otimização bayesiana padrão.

Eike Cramer, Luis Kutschat, Oliver Stollenwerk, Joel A. Paulson, Alexander Mitsos2026-03-13🤖 cs.LG

DNS-GT: A Graph-based Transformer Approach to Learn Embeddings of Domain Names from DNS Queries

O artigo apresenta o DNS-GT, uma abordagem inovadora baseada em Transformers que aprende representações de nomes de domínio a partir de sequências de consultas DNS, superando métodos existentes ao capturar informações contextuais e demonstrar superioridade em tarefas como classificação de domínios e detecção de botnets.

Massimiliano Altieri, Ronan Hamon, Roberto Corizzo, Michelangelo Ceci, Ignacio Sanchez2026-03-13🤖 cs.LG

Representation Finetuning for Continual Learning

O artigo apresenta o CoRe, um novo paradigma de ajuste fino que opera no espaço de representações em vez do espaço de pesos, utilizando intervenções em subespaços lineares de baixo posto para alcançar eficiência paramétrica superior e mitigar o esquecimento catastrófico no aprendizado contínuo.

Haihua Luo, Xuming Ran, Tommi Kärkkäinen, Huiyan Xue, Zhonghua Chen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.LG

Reference-Guided Machine Unlearning

O artigo propõe o ReGUn, um framework de desaprendizagem de máquina que utiliza um conjunto de dados de referência para garantir a indistinguibilidade distribucional e superar as limitações de métodos aproximados existentes, alcançando um equilíbrio superior entre esquecimento e utilidade do modelo.

Jonas Mirlach, Sonia Laguna, Julia E. Vogt2026-03-13🤖 cs.LG

Security-by-Design for LLM-Based Code Generation: Leveraging Internal Representations for Concept-Driven Steering Mechanisms

Este artigo propõe o mecanismo SCS-Code, que utiliza as representações internas dos modelos de linguagem para orientar a geração de código em direção a conceitos de segurança, superando os métodos atuais ao garantir tanto a correção funcional quanto a segurança do código gerado.

Maximilian Wendlinger, Daniel Kowatsch, Konstantin Böttinger, Philip Sperl2026-03-13🤖 cs.LG

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

O artigo avalia a evolução de modelos de IA autônomos em cenários de ciberataques multi-etapa, revelando que o desempenho escala log-linearmente com o poder de computação e melhora significativamente entre gerações de modelos, permitindo que os mais recentes completem uma fração substancial de ataques complexos que antes exigiriam horas de um especialista humano.

Linus Folkerts, Will Payne, Simon Inman, Philippos Giavridis, Joe Skinner, Sam Deverett, James Aung, Ekin Zorer, Michael Schmatz, Mahmoud Ghanem, John Wilkinson, Alan Steer, Vy Hong, Jessica Wang2026-03-13🤖 cs.AI

Markovian Generation Chains in Large Language Models

Este artigo define e analisa as "cadeias de geração markovianas" em modelos de linguagem grandes, demonstrando que o processamento iterativo pode tanto aumentar quanto reduzir a diversidade das frases geradas, dependendo de fatores como a temperatura e a entrada inicial, o que oferece insights cruciais para sistemas multiagente.

Mingmeng Geng, Amr Mohamed, Guokan Shang, Michalis Vazirgiannis, Thierry Poibeau2026-03-13💬 cs.CL

Trustworthy predictive distributions for rare events via diagnostic transport maps

Este artigo apresenta mapas de transporte diagnóstico que recalibram distribuições preditivas iniciais para corrigir erros em regimes de eventos raros, fornecendo diagnósticos locais em tempo real e melhorando a previsão da intensidade de ciclones tropicais em comparação com os modelos operacionais atuais.

Elizabeth Cucuzzella, Rafael Izbicki, Ann B. Lee2026-03-13📊 stat

Monitoring and Prediction of Mood in Elderly People during Daily Life Activities

O artigo apresenta um sistema inteligente vestível que utiliza um pulsera para registrar atividades fisiológicas e um aplicativo móvel para avaliações ecológicas, empregando aprendizado de máquina para prever com precisão os estados de humor de idosos durante suas atividades diárias.

Daniel Bautista-Salinas, Joaquín Roca González, Inmaculada Méndez, Oscar Martinez Mozos2026-03-13🤖 cs.LG

Cough activity detection for automatic tuberculosis screening

O artigo propõe o uso de um modelo pré-treinado XLS-R, otimizado com apenas suas três primeiras camadas para eficiência computacional, que supera outras arquiteturas na detecção automática de segmentos de tosse em gravações de pacientes com suspeita de tuberculose, viabilizando assim ferramentas de triagem escaláveis para dispositivos móveis.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas Niesler2026-03-13⚡ eess

A Standardized Framework For Evaluating Gene Expression Generative Models

O artigo apresenta o GGE, um framework de código aberto em Python que estabelece um protocolo de avaliação padronizado e reprodutível para modelos generativos de expressão gênica em células únicas, abordando a inconsistência atual nas métricas e permitindo comparações justas entre diferentes abordagens.

Andrea Rubbi, Andrea Giuseppe Di Francesco, Mohammad Lotfollahi, Pietro Liò2026-03-13🧬 q-bio

Differentiable Thermodynamic Phase-Equilibria for Machine Learning

O artigo apresenta o DISCOMAX, um algoritmo diferenciável baseado em estatística termodinâmica que garante consistência termodinâmica durante o treinamento e inferência, permitindo o aprendizado eficaz de modelos de energia livre de excesso para prever equilíbrios de fases líquidas.

Karim K. Ben Hicham, Moreno Ascani, Jan G. Rittig, Alexander Mitsos2026-03-13🤖 cs.LG

A Machine Learning-Enhanced Hopf-Cole Formulation for Nonlinear Gas Flow in Porous Media

Este artigo apresenta um framework integrado de aprendizado de máquina que combina a transformação de Hopf-Cole e redes neurais para modelar com precisão o fluxo não linear de gás em meios porosos, permitindo a simulação eficiente e a inversão de parâmetros de permeabilidade dependentes da pressão em formações de baixa permeabilidade.

V. S. Maduru, K. B. Nakshatrala2026-03-13🔢 math

← Anterior Próximo →