cs.AI artigos | Gist.Science

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

O artigo apresenta o EgoTraj-Bench, o primeiro benchmark do mundo real que alinha observações históricas ruidosas de visão em primeira pessoa com trajetórias futuras limpas, e propõe o modelo BiFlow, que utiliza um mecanismo de ancoragem ego-cêntrica para alcançar desempenho superior e maior robustez na previsão de trajetórias sob condições perceptivas imperfeitas.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

O artigo apresenta o Graph2Eval, um framework baseado em grafos de conhecimento que gera automaticamente tarefas multimodais escaláveis e semanticamente consistentes para avaliar agentes de IA, superando as limitações de alucinação e inconsistência dos métodos tradicionais de geração via LLM.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

O artigo apresenta o SpineMed, um ecossistema co-desenvolvido com cirurgiões que inclui o conjunto de dados SpineMed-450k e o benchmark SpineBench, os quais superam as limitações atuais de modelos de visão e linguagem em tarefas de raciocínio espinhal específico por nível vertebral, demonstrando melhorias significativas na precisão diagnóstica e utilidade clínica.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

MachaGrasp: Morphology-Aware Cross-Embodiment Dexterous Hand Articulation Generation for Grasping

O artigo apresenta o MachaGrasp, um framework de ponta a ponta baseado em eigengrasps que gera articulações de mãos dexterosas para apreensão de objetos, demonstrando alta taxa de sucesso e generalização entre diferentes embodiments através de uma representação de morfologia e uma perda de articulação consciente da cinemática.

Heng Zhang, Kevin Yuchen Ma, Mike Zheng Shou + 2 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

O artigo propõe o Graph-as-Memory Tuning (GMT), uma nova abordagem que supera as limitações da concatenação de prefixos ao representar a estrutura local de grafos de conhecimento como memórias explícitas e integrá-las dinamicamente em Grandes Modelos de Linguagem via atenção cruzada token a token, resultando em desempenho superior para a conclusão de grafos de conhecimento.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

O artigo apresenta o OmniVideoBench, um novo benchmark de grande escala com 1000 pares de perguntas e respostas anotados com raciocínio passo a passo, projetado para avaliar rigorosamente a compreensão sinérgica de áudio e vídeo em Modelos de Linguagem Multimodal (MLLMs), revelando uma lacuna significativa entre o desempenho dos modelos atuais e o raciocínio humano.

Caorui Li, Yu Chen, Yiyan Ji + 40 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Este artigo apresenta o XFactor, o primeiro modelo auto-supervisionado sem geometria capaz de verdadeira síntese de novas vistas, demonstrando que a transferibilidade de poses entre cenas é alcançável sem viéses 3D explícitos ou conceitos de geometria multivista.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

O artigo demonstra que o ajuste fino em domínios restritos deixa traços legíveis e fortes nos ativações de modelos de linguagem, que podem ser explorados para inferir o domínio de treinamento e que, embora a mistura de dados de pré-treinamento possa mitigar esses vieses, eles levantam preocupações sobre a segurança, a interpretabilidade e a validade do uso desses modelos como proxies para estudos de alinhamento mais amplos.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

O artigo apresenta o CBF-RL, um framework que integra Funções de Barreira de Controle (CBFs) durante o treinamento de Aprendizado por Reforço para internalizar restrições de segurança na política aprendida, permitindo a implantação segura em robôs reais, como o Unitree G1, sem a necessidade de filtros de segurança em tempo real.

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

O artigo apresenta o MSSR, um framework de dupla agente que supera os desafios do raciocínio espacial em modelos visão-linguagem ao construir iterativamente um Conjunto Mínimo Suficiente de informações 3D, eliminando redundâncias e garantindo a precisão necessária para alcançar desempenho state-of-the-art em benchmarks desafiadores.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

O artigo apresenta o framework SceneCOT, que introduz um método de raciocínio em cadeia de pensamento fundamentado em cenas 3D e o dataset SCENECOT-185K para superar as limitações atuais na resposta fundamentada de modelos de linguagem grandes em ambientes tridimensionais.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

O artigo apresenta o Schrödinger Bridge Mamba (SBM), um modelo inovador que combina o paradigma de Ponte de Schrödinger com a arquitetura Mamba para realizar aprimoramento de fala de alta qualidade em uma única etapa de inferência, superando métodos existentes em tarefas de remoção de ruído e reverberação com eficiência em tempo real.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

O artigo apresenta o Grasp Any Region (GAR), um modelo de linguagem multimodal que supera as limitações anteriores ao integrar contexto global e interações entre múltiplas regiões para permitir um entendimento visual preciso e raciocínio composicional avançado, validado pelo novo benchmark GAR-Bench e demonstrando capacidades superiores tanto em imagens quanto em vídeos.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?

O artigo apresenta o GhostEI-Bench, o primeiro benchmark projetado para avaliar a resiliência de agentes móveis baseados em Modelos de Linguagem e Visão contra ataques de injeção ambiental em dispositivos, revelando que os modelos atuais são altamente vulneráveis a elementos de interface adversários que corrompem sua percepção visual e levam a falhas críticas.

Chiyu Chen, Xinhao Song, Yunkai Chai, Yang Yao, Haodong Zhao, Lijun Li, Jie Li, Yan Teng, Gongshen Liu, Yingchun Wang2026-03-06🔒 cs.CR

LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery

O artigo apresenta o LLEMA, um framework unificado que combina o conhecimento de modelos de linguagem grandes com regras evolutivas e refinamento baseado em memória para descobrir materiais multiobjetivo quimicamente plausíveis e termodinamicamente estáveis com maior eficiência do que as abordagens existentes.

Nikhil Abhyankar, Sanchit Kabra, Saaketh Desai + 1 more2026-03-06🔬 cond-mat.mtrl-sci

FMint-SDE: A Multimodal Foundation Model for Accelerating Numerical Simulation of SDEs via Error Correction

O artigo apresenta o FMint-SDE, um modelo de fundação multimodal baseado em transformadores que utiliza aprendizado em contexto e correção de erros para acelerar e aprimorar a precisão da simulação de equações diferenciais estocásticas em diversos domínios científicos, superando as limitações de eficiência e generalização dos métodos tradicionais.

Jiaxin Yuan, Haizhao Yang, Maria Cameron2026-03-06🔢 math

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

O artigo apresenta o FLoC, um método de compressão de tokens visuais livre de treinamento e agnóstico a modelos, baseado na função de localização de instalações e no algoritmo ganancioso preguiçoso, que seleciona eficientemente um subconjunto representativo de tokens para melhorar a compreensão de vídeos longos em Modelos Multimodais de Grande Escala.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

CytoNet: A Foundation Model for the Human Cerebral Cortex at Cellular Resolution

O artigo apresenta o CytoNet, um modelo fundamental treinado em um milhão de imagens microscópicas não rotuladas que permite a análise escalável da microarquitetura do córtex cerebral humano e a vinculação de sua estrutura celular à organização funcional em escala macroscópica.

Christian Schiffer, Zeynep Boztoprak, Jan-Oliver Kropp + 5 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

O artigo apresenta o RefAgent, um framework multiagente baseado em LLMs que supera abordagens de agente único e ferramentas tradicionais ao realizar refatoração de software automatizada e end-to-end, alcançando altas taxas de sucesso em testes, redução significativa de "code smells" e melhoria na qualidade do código.

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

O artigo apresenta o CoRPO, uma modificação simples ao GRPO que introduz um viés de correção ao limitar o baseline de vantagem, mitigando a superestimação de soluções incorretas e melhorando significativamente a generalização e a transferência de padrões de raciocínio entre diferentes domínios.

Anisha Garg, Claire Zhang, Nishit Neema + 3 more2026-03-06💻 cs

← Anterior Próximo →