cs.AI artigos | Gist.Science

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

O artigo apresenta o FLoC, um método de compressão de tokens visuais livre de treinamento e agnóstico a modelos, baseado na função de localização de instalações e no algoritmo ganancioso preguiçoso, que seleciona eficientemente um subconjunto representativo de tokens para melhorar a compreensão de vídeos longos em Modelos Multimodais de Grande Escala.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

CytoNet: A Foundation Model for the Human Cerebral Cortex at Cellular Resolution

O artigo apresenta o CytoNet, um modelo fundamental treinado em um milhão de imagens microscópicas não rotuladas que permite a análise escalável da microarquitetura do córtex cerebral humano e a vinculação de sua estrutura celular à organização funcional em escala macroscópica.

Christian Schiffer, Zeynep Boztoprak, Jan-Oliver Kropp + 5 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

O artigo apresenta o RefAgent, um framework multiagente baseado em LLMs que supera abordagens de agente único e ferramentas tradicionais ao realizar refatoração de software automatizada e end-to-end, alcançando altas taxas de sucesso em testes, redução significativa de "code smells" e melhoria na qualidade do código.

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

O artigo apresenta o CoRPO, uma modificação simples ao GRPO que introduz um viés de correção ao limitar o baseline de vantagem, mitigando a superestimação de soluções incorretas e melhorando significativamente a generalização e a transferência de padrões de raciocínio entre diferentes domínios.

Anisha Garg, Claire Zhang, Nishit Neema + 3 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

O artigo propõe o SASG-DA, um método de aumento de dados baseado em difusão que utiliza representações semânticas orientadas a tarefas e amostragem esparsa para gerar amostras fiéis e diversas, melhorando significativamente o reconhecimento de gestos mioelétricos e a generalização em cenários com dados limitados.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

O artigo apresenta o DAP, um planejador autoregressivo de tokens discretos que, com um orçamento compacto de 160M de parâmetros, alcança desempenho de última geração ao prever conjuntamente semânticas BEV e trajetórias do veículo, utilizando também um ajuste fino baseado em aprendizado por reforço para otimizar a tomada de decisão no benchmark NAVSIM.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

O artigo propõe o framework CCSD, uma nova abordagem de auto-distilação composicional multimodal que utiliza arquiteturas codificador-decodificador compartilhadas e específicas, combinadas com mecanismos hierárquicos e progressivos de transferência de conhecimento, para alcançar segmentação robusta e de alto desempenho de tumores cerebrais em cenários clínicos onde modalidades de ressonância magnética estão ausentes.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

O artigo apresenta o FlashCache, um novo framework de compressão de cache KV para modelos de linguagem multimodal que utiliza uma abordagem guiada por domínio de frequência para identificar e preservar outliers críticos, resultando em uma aceleração de decodificação de até 1,69 vezes e uma redução de 80% no uso de memória sem comprometer o desempenho.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

O artigo apresenta o MambaTAD, um modelo inovador de detecção de ações temporais que integra modelos de espaço de estados estruturados com novos componentes, como o módulo DMBSS e uma cabeça de fusão global, para superar desafios de contexto temporal e eficiência computacional em vídeos não cortados.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

CycleChemist: A Dual-Pronged Machine Learning Framework for Organic Photovoltaic Discovery

Este trabalho apresenta o CycleChemist, um framework de aprendizado de máquina dual que integra o modelo de dados OPV2D, preditores de desempenho e um gerador de materiais (MatGPT) para acelerar a descoberta e o design de pares doador-aceitador de alta eficiência para células solares orgânicas.

Hou Hei Lam, Jiangjie Qiu, Xiuyuan Hu + 5 more2026-03-06🔬 cond-mat.mtrl-sci

Towards Trustworthy Legal AI through LLM Agents and Formal Reasoning

O artigo apresenta o L4L, um framework centrado em solucionadores que integra agentes de LLM com verificação baseada em SMT para alinhar formalmente o raciocínio legal à lei estatutária, garantindo decisões jurídicas auditáveis e confiáveis.

Linze Chen, Yufan Cai, Zhe Hou + 1 more2026-03-06💻 cs

Steering Awareness: Models Can Be Trained to Detect Activation Steering

O artigo demonstra que modelos de linguagem podem ser treinados para detectar e identificar vetores de direcionamento de ativação, revelando que essa intervenção não é invisível e que a capacidade de detecção não garante robustez comportamental, o que questiona a confiabilidade de avaliações de segurança baseadas em direcionamento.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

O artigo apresenta o DPAC, um método de controle adversarial para amostragem de difusão que preserva a distribuição ao projetar gradientes adversariais no espaço tangente definido pela geometria do escore, minimizando a divergência KL do caminho e melhorando a fidelidade perceptual (FID) sem comprometer a taxa de sucesso do ataque.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding

O artigo apresenta o Deep FlexQP, um solver de programação quadrática convexa acelerado por aprendizado profundo e baseado em relaxação elástica $\ell_1$ , que garante soluções ótimas viáveis ou minimiza violações de restrições de forma esparsa, resultando em um solver SQP mais rápido e robusto para problemas de otimização não linear e filtros de segurança preditiva.

Alex Oshin, Rahul Vodeb Ghosh, Augustinos D. Saravanos + 1 more2026-03-06🔢 math

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

O artigo apresenta a Guided Flow Policy (GFP), um método de aprendizado por reforço offline que combina um policy de fluxo de múltiplos passos com um ator destilado para focar na clonagem de ações de alto valor, alcançando desempenho de última geração em diversos benchmarks ao superar as limitações da regularização comportamental tradicional.

Franki Nguimatsia Tiofack, Théotime Le Hellard, Fabian Schramm + 2 more2026-03-06💻 cs

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Este artigo demonstra que a otimização pós-treinamento com aprendizado por reforço (RL) em quebra-cabeças Zebra é aprimorada ao combinar uma recompensa de tarefa esparsa com um sinal de recompensa de ordenação canônica, permitindo que o modelo aprenda trajetórias ideais mesmo quando treinado com sequências de soluções aleatórias.

Prakhar Gupta, Vaibhav Gupta2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Este artigo propõe um framework de aprendizado multi-perda que integra mixup adaptativo à energia e atenção em nível de quadro para superar desafios como complexidade emocional e dados escassos, alcançando desempenho de ponta em quatro conjuntos de dados de reconhecimento de emoções na fala.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

Sparse Attention Post-Training for Mechanistic Interpretability

O artigo apresenta um método de pós-treinamento que torna a atenção dos transformers esparsa sem comprometer o desempenho, revelando que a redução drástica das conexões expõe circuitos mais organizados e interpretáveis, sugerindo que grande parte do cálculo original é redundante.

Florent Draye, Anson Lei, Hsiao-Ru Pan + 2 more2026-03-06💻 cs

ClinNoteAgents: An LLM Multi-Agent System for Predicting and Interpreting Heart Failure 30-Day Readmission from Clinical Notes

O artigo apresenta o ClinNoteAgents, um sistema multiagente baseado em LLM que transforma notas clínicas em texto livre em representações estruturadas e abstrações interpretáveis para prever com precisão as readmissões hospitalares em 30 dias de pacientes com insuficiência cardíaca, superando as limitações dos modelos tradicionais que dependem de campos estruturados e anotação manual.

Rongjia Zhou, Chengzhuo Li, Carl Yang + 1 more2026-03-06💻 cs

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

O artigo apresenta o InternGeometry, um agente de modelo de linguagem baseado em Aprendizado por Reforço com Aumento de Complexidade (CBRL) e um mecanismo de memória dinâmica que, utilizando apenas 13 mil exemplos de treinamento, supera o desempenho de medalhistas de ouro no International Mathematical Olympiad em problemas de geometria ao propor construções auxiliares inovadoras e interagir iterativamente com um motor simbólico.

Haiteng Zhao, Junhao Shen, Yiming Zhang + 7 more2026-03-06💻 cs

← Anterior Próximo →