cs artigos | Gist.Science

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

O artigo propõe uma técnica de interpretabilidade mecânica para identificar cabeças de atenção especializadas em áudio em modelos de linguagem multimodal, permitindo a aplicação de uma intervenção de ativação durante a inferência que amplifica a atenção ao áudio e melhora a precisão em até 8 pontos percentuais sem atualizar os parâmetros do modelo.

Neta Glazer, Lenny Aharon, Ethan Fetaya2026-03-10💻 cs

What Does AI Do for Cultural Interpretation? A Randomized Experiment on Close Reading Poems with Exposure to AI Interpretation

Um experimento randomizado com 400 participantes revelou que, na leitura atenta de poemas, o uso de uma única interpretação gerada por IA aumenta tanto o desempenho quanto o prazer, enquanto múltiplas interpretações melhoram apenas o desempenho e a dependência excessiva da IA reduz o prazer, sugerindo que "menos é mais" para calibrar a assistência artificial na interpretação cultural.

Jiayin Zhi, Hoyt Long, Richard Jean So, Mina Lee2026-03-10💻 cs

Evaluating Multi-Agent LLM Architectures for Rare Disease Diagnosis

Este estudo avalia quatro topologias de agentes de IA para diagnóstico de doenças raras e conclui que, embora arquiteturas multi-agente complexas não garantam melhorias gerais na precisão, a topologia hierárquica supera as demais e todas as configurações multi-agente demonstram superioridade específica em categorias como doenças ósseas e torácicas, sugerindo a necessidade de seleção dinâmica de topologias.

Ahmed Almasoud2026-03-10💻 cs

Patch Validation in Automated Vulnerability Repair

O artigo apresenta o PVBench, um novo benchmark que revela que mais de 40% dos patches gerados por sistemas automáticos de reparo de vulnerabilidades, embora aprovados por testes básicos, falham em testes avançados ( $\text{PoC}^+$ ), evidenciando a necessidade de melhorar a análise de causas raízes, a aderência a especificações e a captura da intenção dos desenvolvedores.

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu Xing2026-03-10💻 cs

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Este artigo apresenta o ColonSplat, um novo framework de *Gaussian Splatting* dinâmico e o conjunto de dados sintético DynamicColon, projetados para superar as limitações dos métodos atuais na reconstrução 3D precisa de movimentos peristálticos durante colonoscopias, garantindo consistência geométrica global.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

A prior information informed learning architecture for flying trajectory prediction

Este artigo apresenta um novo framework de aprendizado eficiente em hardware para previsão de trajetórias de voo, que integra informações prévias ambientais a uma arquitetura de Transformer em cascata dupla (DTC) para prever com precisão pontos de aterrissagem, como demonstrado na trajetória de bolas de tênis.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

Robodimm: A Physics-Grounded Framework for Automated Actuator Sizing in Scalable Modular Robots

O artigo apresenta o Robodimm, um framework de software que automatiza o dimensionamento de atuadores para robôs modulares escaláveis, utilizando formulações de dinâmica e cinemática inversa para lidar com acoplamentos de torque e efeitos de peso próprio em cadeias cinemáticas fechadas.

J. L. Torres, M. Munoz, J. D. Alvarez, J. L. Blanco, A. Gimenez2026-03-10💻 cs

CAR: Cross-Vehicle Kinodynamics Adaptation via Mobility Representation

O artigo apresenta o CAR, um novo framework baseado em Transformers que utiliza um espaço latente de mobilidade compartilhado para permitir a rápida adaptação cinodinâmica de veículos autônomos heterogêneos com dados mínimos, reduzindo significativamente o erro de previsão em comparação com métodos tradicionais.

Tong Xu, Chenhui Pan, Xuesu Xiao2026-03-10💻 cs

LEAD: Breaking the No-Recovery Bottleneck in Long-Horizon Reasoning

O artigo propõe o método LEAD (Lookahead-Enhanced Atomic Decomposition), que supera o gargalo de não-recuperação em raciocínio de longo horizonte ao combinar validação futura de curto prazo e agregação de execuções sobrepostas, permitindo que modelos como o o4-mini resolvam problemas complexos de salto de damas com maior estabilidade do que as decomposições extremas.

Denys Pushkin, Emmanuel Abbe2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

O artigo apresenta o PICS, um paradigma auto-supervisionado de composição por decomposição que utiliza um Transformer de Interação com Mixture-of-Experts e aumentações geométricas para gerar composições de imagens em pares com relações espaciais coerentes e maior estabilidade, superando os métodos atuais em diversas configurações.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

Este estudo demonstra que o comprimento das respostas de modelos de linguagem influencia a capacidade dos usuários de detectar erros no raciocínio gerado por IA, revelando que explicações de tamanho médio são mais eficazes para manter o pensamento crítico quando o conteúdo da IA está incorreto.

Natalie Friedman, Adelaide Nyanyo, Kevin Weatherwax, Lifei Wang, Chengchao Zhu, Zeshu Zhu, S. Joy Mountford2026-03-10💻 cs

Material Driven HRI Design: Aesthetics as Explainability

Este artigo propõe um framework que utiliza a estética, especificamente cor, textura e materiais, como sinais de interação para explicar o papel e as capacidades de robôs, alinhando as expectativas dos usuários com a realidade funcional através de uma abordagem inspirada na moda.

Natalie Friedman, Kevin Weatherwax, Chengchao Zhu2026-03-10💻 cs

Notational Animating: An Interactive Approach to Creating and Editing Animation Keyframes

O artigo apresenta a "animação notacional", um paradigma interativo que permite a animadores esboçar notações de alto nível sobre desenhos estáticos para gerar automaticamente quadros-chave de animação, utilizando um sistema que formaliza esses esboços, oferece controles de parâmetros e resolve ambiguidades por meio de um ciclo de feedback.

Xinyu Shi, Li-Yi Wei, Nanxuan Zhao, Jian Zhao, Rubaiat Habib Kazi2026-03-10💻 cs

Distributed Legal Infrastructure for a Trustworthy Agentic Web

O artigo propõe uma infraestrutura legal distribuída composta por cinco camadas interligadas — incluindo identidades de agentes autosssoberanas, sistemas de restrição cognitiva e mecanismos de adjudicação descentralizada — para estabelecer a governança, a responsabilidade e a interoperabilidade jurídica necessárias em uma web de agentes de inteligência artificial.

Tomer Jordi Chaffer, Victor Jiawei Zhang, Sante Dino Facchini, Botao Amber Hu, Helena Rong, Zihan Guo, Xisen Wang, Carlos Santana, Giovanni De Gasperis2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

O artigo apresenta o OPTED, um conjunto de dados aberto e pré-processado de imagens oculares para classificação de tracoma, construído na África Subsaariana utilizando um pipeline automatizado de quatro etapas baseado no modelo de segmentação zero-shot SAM 3 para extrair e padronizar regiões de interesse.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

VertiAdaptor: Online Kinodynamics Adaptation for Vertically Challenging Terrain

O artigo apresenta o VertiAdaptor, um novo framework de adaptação online que integra elevação e representações semânticas para modelar a cinodinâmica de veículos autônomos em terrenos off-road não estruturados, permitindo uma adaptação rápida e precisa a ambientes desconhecidos que resulta em maior precisão de previsão e velocidade de adaptação.

Tong Xu, Chenhui Pan, Aniket Datar, Xuesu Xiao2026-03-10💻 cs

Enhancing the Detection of Coronary Artery Disease Using Machine Learning

Este estudo demonstra que um modelo híbrido de aprendizado de máquina combinando Bi-LSTM e GRU alcançou uma precisão de 97,07% na detecção da Doença Arterial Coronariana, superando métodos diagnósticos tradicionais e oferecendo uma ferramenta robusta para melhorar os resultados clínicos.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

SoK: Self-Sovereign Digital Identities

Este artigo apresenta uma sistematização abrangente do conhecimento sobre Identidades Digitais Soberanas (SSDI), identificando seis desafios principais que impedem sua adoção em escala, analisando a predominância de soluções baseadas em blockchain na literatura e catalogando aplicações reais para orientar pesquisas futuras e a transição de sistemas centralizados para modelos soberanos.

Sushanth Ambati, Kainat Adeel, Jack Myers, Nikolay Ivanov2026-03-10💻 cs

Collaborative Planning with Concurrent Synchronization for Operationally Constrained UAV-UGV Teams

O artigo apresenta o CoPCS, uma abordagem baseada em aprendizado que utiliza transformadores de grafos heterogêneos para permitir o planejamento colaborativo e sincronizado em tempo real entre equipes de UAVs e UGVs, superando restrições operacionais como energia e terreno para otimizar missões de grande escala.

Zihao Deng, Qianhuang Li, Peng Gao, Maggie Wigness, John Rogers, Donghyun Kim, Hao Zhang2026-03-10💻 cs

Empowering Locally Deployable Medical Agent via State Enhanced Logical Skills for FHIR-based Clinical Tasks

O artigo propõe o SELSM, um framework sem treinamento que aprimora a capacidade de raciocínio lógico de modelos de linguagem locais para tarefas clínicas baseadas em FHIR, superando limitações de privacidade e dados ao alcançar uma taxa de sucesso de 100% na conclusão de cadeias de tarefas.

Wanrong Yang, Zhengliang Liu, Yuan Li, Bingjie Yan, Lingfang Li, Mingguang He, Dominik Wojtczak, Yalin Zheng, Danli Shi2026-03-10💻 cs

← Anterior Próximo →