cs.AI artigos | Gist.Science

CycleChemist: A Dual-Pronged Machine Learning Framework for Organic Photovoltaic Discovery

Este trabalho apresenta o CycleChemist, um framework de aprendizado de máquina dual que integra o modelo de dados OPV2D, preditores de desempenho e um gerador de materiais (MatGPT) para acelerar a descoberta e o design de pares doador-aceitador de alta eficiência para células solares orgânicas.

Hou Hei Lam, Jiangjie Qiu, Xiuyuan Hu + 5 more2026-03-06🔬 cond-mat.mtrl-sci

Towards Trustworthy Legal AI through LLM Agents and Formal Reasoning

O artigo apresenta o L4L, um framework centrado em solucionadores que integra agentes de LLM com verificação baseada em SMT para alinhar formalmente o raciocínio legal à lei estatutária, garantindo decisões jurídicas auditáveis e confiáveis.

Linze Chen, Yufan Cai, Zhe Hou + 1 more2026-03-06💻 cs

Steering Awareness: Models Can Be Trained to Detect Activation Steering

O artigo demonstra que modelos de linguagem podem ser treinados para detectar e identificar vetores de direcionamento de ativação, revelando que essa intervenção não é invisível e que a capacidade de detecção não garante robustez comportamental, o que questiona a confiabilidade de avaliações de segurança baseadas em direcionamento.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

O artigo apresenta o DPAC, um método de controle adversarial para amostragem de difusão que preserva a distribuição ao projetar gradientes adversariais no espaço tangente definido pela geometria do escore, minimizando a divergência KL do caminho e melhorando a fidelidade perceptual (FID) sem comprometer a taxa de sucesso do ataque.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding

O artigo apresenta o Deep FlexQP, um solver de programação quadrática convexa acelerado por aprendizado profundo e baseado em relaxação elástica $\ell_1$ , que garante soluções ótimas viáveis ou minimiza violações de restrições de forma esparsa, resultando em um solver SQP mais rápido e robusto para problemas de otimização não linear e filtros de segurança preditiva.

Alex Oshin, Rahul Vodeb Ghosh, Augustinos D. Saravanos + 1 more2026-03-06🔢 math

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

O artigo apresenta a Guided Flow Policy (GFP), um método de aprendizado por reforço offline que combina um policy de fluxo de múltiplos passos com um ator destilado para focar na clonagem de ações de alto valor, alcançando desempenho de última geração em diversos benchmarks ao superar as limitações da regularização comportamental tradicional.

Franki Nguimatsia Tiofack, Théotime Le Hellard, Fabian Schramm + 2 more2026-03-06💻 cs

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Este artigo demonstra que a otimização pós-treinamento com aprendizado por reforço (RL) em quebra-cabeças Zebra é aprimorada ao combinar uma recompensa de tarefa esparsa com um sinal de recompensa de ordenação canônica, permitindo que o modelo aprenda trajetórias ideais mesmo quando treinado com sequências de soluções aleatórias.

Prakhar Gupta, Vaibhav Gupta2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Este artigo propõe um framework de aprendizado multi-perda que integra mixup adaptativo à energia e atenção em nível de quadro para superar desafios como complexidade emocional e dados escassos, alcançando desempenho de ponta em quatro conjuntos de dados de reconhecimento de emoções na fala.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

Sparse Attention Post-Training for Mechanistic Interpretability

O artigo apresenta um método de pós-treinamento que torna a atenção dos transformers esparsa sem comprometer o desempenho, revelando que a redução drástica das conexões expõe circuitos mais organizados e interpretáveis, sugerindo que grande parte do cálculo original é redundante.

Florent Draye, Anson Lei, Hsiao-Ru Pan + 2 more2026-03-06💻 cs

ClinNoteAgents: An LLM Multi-Agent System for Predicting and Interpreting Heart Failure 30-Day Readmission from Clinical Notes

O artigo apresenta o ClinNoteAgents, um sistema multiagente baseado em LLM que transforma notas clínicas em texto livre em representações estruturadas e abstrações interpretáveis para prever com precisão as readmissões hospitalares em 30 dias de pacientes com insuficiência cardíaca, superando as limitações dos modelos tradicionais que dependem de campos estruturados e anotação manual.

Rongjia Zhou, Chengzhuo Li, Carl Yang + 1 more2026-03-06💻 cs

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

O artigo apresenta o InternGeometry, um agente de modelo de linguagem baseado em Aprendizado por Reforço com Aumento de Complexidade (CBRL) e um mecanismo de memória dinâmica que, utilizando apenas 13 mil exemplos de treinamento, supera o desempenho de medalhistas de ouro no International Mathematical Olympiad em problemas de geometria ao propor construções auxiliares inovadoras e interagir iterativamente com um motor simbólico.

Haiteng Zhao, Junhao Shen, Yiming Zhang + 7 more2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

O artigo apresenta o ReFusion, um modelo de difusão mascarado inovador que integra reorganização de sequências e decodificação autoregressiva paralela em nível de slots, superando significativamente os modelos anteriores em desempenho e velocidade enquanto reduz a complexidade de aprendizado e permite o uso eficiente de cache KV.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

HydroGEM: A Self Supervised Zero Shot Hybrid TCN Transformer Foundation Model for Continental Scale Streamflow Quality Control

O artigo apresenta o HydroGEM, um modelo fundacional híbrido de TCN e Transformer, treinado de forma auto-supervisionada em escala continental, que supera os métodos existentes na detecção e reconstrução de anomalias em dados de vazão de rios, demonstrando robustez e capacidade de generalização transnacional.

Ijaz Ul Haq, Byung Suk Lee, Julia N. Perdrial + 1 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

O artigo apresenta o RePo, um mecanismo inovador que melhora o aprendizado em contexto de Grandes Modelos de Linguagem ao re-posicionar dinamicamente os tokens com base em dependências contextuais, reduzindo a carga cognitiva extrínseca e aprimorando o desempenho em tarefas com contextos ruidosos, estruturados e de longa duração.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

O artigo apresenta o MCP-SafetyBench, um benchmark abrangente baseado em servidores MCP do mundo real que avalia a segurança de modelos de linguagem em fluxos de trabalho multi-turno e revela que os principais modelos atuais permanecem vulneráveis a ataques, evidenciando um trade-off entre segurança e utilidade.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

O artigo apresenta o FluenceFormer, um framework baseado em transformadores que utiliza uma arquitetura de duas etapas e uma função de perda física para prever mapas de fluência em radioterapia, superando os métodos convencionais ao garantir consistência estrutural e conservação de energia com uma taxa de erro de apenas 4,5%.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Yukthi Opus: A Multi-Chain Hybrid Metaheuristic for Large-Scale NP-Hard Optimization

O artigo apresenta o Yukthi Opus, uma metaheurística híbrida multi-cadeia que integra MCMC, busca local gulosa e recozimento simulado para resolver problemas de otimização NP-difíceis sob restrições de orçamento de avaliação, demonstrando desempenho competitivo e robustez em benchmarks como Rastrigin, Rosenbrock e o Problema do Caixeiro Viajante.

SB Danush Vikraman, Hannah Abigail, Prasanna Kesavraj + 1 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Este estudo avalia o impacto do uso de ferramentas e planejamento em tempo de inferência em modelos de linguagem de grande escala, demonstrando que, embora essas abordagens possam melhorar significativamente a precisão em tarefas complexas de raciocínio baseadas em conhecimento, elas frequentemente resultam em aumentos drásticos de latência e custo sem benefícios consistentes em tarefas mais simples, destacando a necessidade de escolhas estratégicas e conscientes de custos entre o tamanho do modelo e a complexidade do agente.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Interleaved Tool-Call Reasoning for Protein Function Understanding

O artigo propõe o PFUA, um agente de raciocínio aumentado por ferramentas que supera as limitações dos modelos puramente textuais na previsão de funções proteicas ao integrar decomposição de problemas e ferramentas biológicas específicas, alcançando uma melhoria média de desempenho de 103% em quatro benchmarks.

Chuanliu Fan, Zicheng Ma, Huanran Meng + 6 more2026-03-06💻 cs

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

O artigo apresenta o NeuronLLM, um novo framework que identifica tanto neurônios facilitadores quanto inibidores em Grandes Modelos de Linguagem para tarefas específicas, utilizando aprendizado contrastivo e conjuntos de perguntas aumentados para superar as limitações dos métodos anteriores e oferecer uma compreensão mais holística da organização funcional desses modelos.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

← Anterior Próximo →