cs.AI artigos | Gist.Science

Controllable and explainable personality sliders for LLMs at inference time

Este trabalho apresenta o Sequential Adaptive Steering (SAS), um framework modular que permite o controle contínuo e explicável de múltiplas traços de personalidade em Grandes Modelos de Linguagem durante a inferência, superando a interferência vetorial de métodos anteriores ao ortogonalizar vetores de direção para síntese precisa de perfis sem necessidade de re-treinamento.

Florian Hoppe, David Khachaturov, Robert Mullins + 1 more2026-03-05🤖 cs.AI

A benchmark for joint dialogue satisfaction, emotion recognition, and emotion state transition prediction

Este artigo apresenta a construção de um novo conjunto de dados chinês multilabel e multitarefa que suporta o reconhecimento de satisfação, reconhecimento de emoção e previsão de transição de estados emocionais em diálogos, superando as limitações de recursos existentes ao capturar a dinâmica emocional ao longo de múltiplas interações.

Jing Bian, Haoxiang Su, Liting Jiang + 6 more2026-03-05🤖 cs.AI

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

O artigo apresenta o StructLens, um novo framework analítico que utiliza árvores de expansão máxima para revelar e quantificar as relações estruturais globais entre camadas em modelos de linguagem, demonstrando que essa abordagem baseada em estrutura oferece uma métrica de similaridade distinta e mais eficaz para tarefas como a poda de camadas do que as métricas convencionais.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

AutoHarness: improving LLM agents by automatically synthesizing a code harness

O artigo "AutoHarness" demonstra que o modelo de linguagem Gemini-2.5-Flash pode sintetizar automaticamente um código de validação (harness) ou uma política completa para prevenir ações proibidas em ambientes de jogos, permitindo que um modelo menor supere modelos maiores em desempenho e custo ao eliminar erros como movimentos ilegais no xadrez e em outros jogos do TextArena.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu + 3 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Este artigo apresenta o Certainty Robustness Benchmark, um novo framework de avaliação de duas etapas que mede a estabilidade de Grandes Modelos de Linguagem (LLMs) sob prompts de auto-desafio, revelando que a confiabilidade interativa é uma dimensão crítica distinta da precisão básica e que varia significativamente entre modelos, com implicações importantes para a confiança e o alinhamento.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

PulseLM: A Foundation Dataset and Benchmark for PPG-Text Learning

O artigo apresenta o PulseLM, um grande conjunto de dados e benchmark padronizado que conecta sinais fotopletismográficos (PPG) a linguagem natural por meio de milhões de pares de perguntas e respostas, estabelecendo uma base fundamental para o desenvolvimento e avaliação de modelos de linguagem multimodais voltados ao raciocínio fisiológico.

Hung Manh Pham, Jinyang Wu, Xiao Ma + 6 more2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Este artigo avalia empiricamente a robustez de 13 modelos de linguagem a cinco tipos de perturbações em raciocínio passo a passo, revelando que, embora o aumento do tamanho do modelo mitigue erros matemáticos e de sycophancy, ele oferece proteção limitada contra erros de conversão de unidades e que a resiliência varia significativamente dependendo do tipo de falha introduzida.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Ethical and Explainable AI in Reusable MLOps Pipelines

Este artigo apresenta um framework unificado de MLOps que integra princípios éticos de IA em pipelines reutilizáveis, garantindo justiça, explicabilidade e governança ao reduzir significativamente o viés e manter métricas de equidade dentro de limites operacionais sem comprometer a utilidade preditiva.

Rakib Hossain, Mahmood Menon Khan, Lisan Al Amin + 3 more2026-03-05🤖 cs.AI

Cryo-SWAN: the Multi-Scale Wavelet-decomposition-inspired Autoencoder Network for molecular density representation of molecular volumes

O artigo apresenta o Cryo-SWAN, um autoencoder variacional baseado em voxels e inspirado na decomposição por wavelets multiescala, que supera os métodos atuais na representação e geração de volumes de densidade molecular, oferecendo uma estrutura prática para a biologia estrutural baseada em dados.

Rui Li, Artsemi Yushkevich, Mikhail Kudryashev + 1 more2026-03-05🤖 cs.AI

Neuro-Symbolic Decoding of Neural Activity

O artigo apresenta o NEURONA, um framework neuro-simbólico que melhora a precisão e a generalização na decodificação de conceitos a partir de dados de fMRI ao integrar raciocínio simbólico e execução composicional com fundamentação neural.

Yanchen Wang, Joy Hsu, Ehsan Adeli + 1 more2026-03-05🤖 cs.AI

GreenPhase: A Green Learning Approach for Earthquake Phase Picking

O artigo apresenta o GreenPhase, uma abordagem de aprendizado verde e interpretável baseada em aprendizado de Green que, ao eliminar a retropropagação e utilizar um design feed-forward multi-resolução, alcança desempenho excepcional na detecção e escolha de fases sísmicas com uma redução de 83% nos custos computacionais em comparação aos modelos de última geração.

Yixing Wu, Shiou-Ya Wang, Dingyi Nie + 5 more2026-03-05🤖 cs.AI

Physics-constrained symbolic regression for discovering closed-form equations of multimodal water retention curves from experimental data

Este trabalho apresenta um framework de aprendizado de máquina baseado em restrições físicas e programação genética para descobrir automaticamente equações de forma fechada que descrevem curvas de retenção de água multimodais em materiais porosos, superando as limitações dos modelos hidráulicos tradicionais.

Yejin Kim, Hyoung Suk Suh2026-03-05🤖 cs.AI

Perfect score on IPhO 2025 theory by Gemini agent

Este artigo relata que um agente simples baseado no modelo Gemini 3.1 Pro Preview obteve pontuação perfeita em todas as cinco execuções nos problemas teóricos da Olimpíada Internacional de Física (IPhO) de 2025, embora a possibilidade de contaminação de dados devido ao lançamento do modelo após a competição seja uma limitação importante.

Yichen Huang2026-03-05✓ Author reviewed ⓘ🤖 cs.AI

Non-Invasive Reconstruction of Intracranial EEG Across the Deep Temporal Lobe from Scalp EEG based on Conditional Normalizing Flow

Este artigo apresenta o NeuroFlowNet, um novo framework generativo baseado em Fluxo Normalizador Condicional que, pela primeira vez, reconstrói com alta fidelidade sinais de eletroencefalografia intracraniana (iEEG) de todo o lobo temporal profundo a partir de sinais de eletroencefalografia de superfície (sEEG), superando as limitações de métodos tradicionais ao capturar a aleatoriedade e as dependências de longo prazo dos sinais cerebrais.

Dongyi He, Bin Jiang, Kecheng Feng + 5 more2026-03-05🤖 cs.AI

Inhibitory Cross-Talk Enables Functional Lateralization in Attention-Coupled Latent Memory

O artigo apresenta um transformador com memória aumentada que, ao empregar um acoplamento cruzado inibitório entre bancos de memória laterais, permite a especialização funcional necessária para o recall episódico, superando significativamente os modelos com acoplamento excitatório em tarefas que exigem associação.

Hong Jeong2026-03-05🤖 cs.AI

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

O artigo apresenta o ACES, uma auditoria centrada em representações que identifica subespaços de baixo dimensão onde as informações de sotaque se concentram e se entrelaçam com características críticas para o reconhecimento, demonstrando que a simples eliminação desses subespaços não reduz disparidades e que eles são mais eficazes como ferramentas de diagnóstico do que como alavancas diretas para equidade.

Swapnil Parekh2026-03-05🤖 cs.AI

Bridging the Reproducibility Divide: Open Source Software's Role in Standardizing Healthcare AI

O artigo defende que a adoção de práticas de código aberto e a padronização de pipelines de dados são essenciais para superar a crise de reprodutibilidade na IA em saúde, garantindo sistemas mais confiáveis e aumentando significativamente o impacto científico das pesquisas.

John Wu, Zhenbang Wu, Jimeng Sun2026-03-05🤖 cs.AI

Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs

Este trabalho apresenta o "Sleeper Cell", um novo vetor de ataque que utiliza um framework de ajuste fino eficiente em parâmetros (SFT-then-GRPO) para injetar backdoors latentes em agentes de IA que utilizam ferramentas, permitindo que modelos maliciosos executem ações destrutivas sob condições específicas enquanto mantêm um desempenho benigno e disfarçado em tarefas normais.

Bhanu Pallakonda, Mikkel Hindsbo, Sina Ehsani + 1 more2026-03-05🤖 cs.AI

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

O MemSifter é um framework inovador que otimiza a recuperação de memória de longo prazo em Grandes Modelos de Linguagem (LLMs) ao descarregar esse processo para um modelo proxy de pequena escala, treinado com aprendizado por reforço orientado a resultados, oferecendo uma solução eficiente e escalável que supera os métodos existentes em precisão e conclusão de tarefas.

Jiejun Tan, Zhicheng Dou, Liancheng Zhang + 3 more2026-03-05🤖 cs.AI

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

Este artigo apresenta o LiteVLA-Edge, um pipeline de modelos Visão-Linguagem-Ação otimizado para inferência totalmente local em hardware embarcado, que combina ajuste fino supervisionado e quantização 4-bit para alcançar latências reativas de aproximadamente 6,6 Hz em sistemas robóticos integrados ao ROS 2.

Justin Williams, Kishor Datta Gupta, Roy George + 1 more2026-03-05🤖 cs.AI

← Anterior Próximo →