cs.AI artigos | Gist.Science

Multi-head automated segmentation by incorporating detection head into the contextual layer neural network

Este artigo propõe uma arquitetura Transformer de múltiplas cabeças com um mecanismo de "gate" baseado em detecção que integra contexto inter-corte para suprimir falsos positivos e melhorar a plausibilidade anatômica na segmentação automática de radioterapia, demonstrando superioridade significativa sobre modelos convencionais ao eliminar previsões alucinadas em cortes sem estruturas-alvo.

Edwin Kys, Febian Febian2026-03-11🤖 cs.AI

UAT-LITE: Inference-Time Uncertainty-Aware Attention for Pretrained Transformers

O artigo propõe o UAT-LITE, um framework de inferência que torna a atenção em transformers pré-treinados ciente da incerteza epistêmica por meio de dropout de Monte Carlo, permitindo a modulação da atenção e o diagnóstico de incerteza em nível de token sem alterar os pesos do modelo, resultando em melhor calibração e seleção preditiva sob mudanças de distribuição.

Elias Hossain, Shubhashis Roy Dipta, Subash Neupane, Rajib Rana, Ravid Shwartz-Ziv, Ivan Garibay, Niloofar Yousefi2026-03-11🤖 cs.AI

WebAccessVL: Violation-Aware VLM for Web Accessibility

O artigo apresenta o WebAccessVL, um modelo de linguagem e visão que corrige automaticamente violações de acessibilidade em sites (WCAG2) preservando o design original, alcançando uma redução de 96% nas violações e superando o desempenho do GPT-5 através de uma estratégia iterativa de refinamento guiada por detectores de erros.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

O artigo argumenta que a confiança em chatbots é frequentemente moldada por vieses cognitivos e escolhas de design que os posicionam como "vendedores habilidosos", em vez de refletir uma verdadeira confiabilidade normativa, exigindo uma distinção clara entre a formação psicológica da confiança e a confiabilidade real para ajudar os usuários a calibrar adequadamente sua interação com essas IAs.

Aditya Gulati, Nuria Oliver2026-03-11🤖 cs.AI

Monocular Normal Estimation via Shading Sequence Estimation

O artigo apresenta o RoSE, um novo método que reformula a estimativa de normais monoculares como uma tarefa de estimativa de sequências de sombreamento utilizando modelos generativos de imagem para vídeo, superando as limitações de alinhamento 3D dos métodos existentes e alcançando desempenho de última geração em benchmarks reais.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

O artigo apresenta o Infusion, um framework que utiliza aproximações escaláveis de funções de influência para realizar pequenas perturbações em documentos de treinamento, permitindo moldar sistematicamente o comportamento de modelos de visão e linguagem de forma sutil e eficaz.

J Rosser, Robert Kirk, Edward Grefenstette, Jakob Foerster, Laura Ruis2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artigo propõe um framework de orçamentação de picos consciente de energia para aprendizado contínuo em redes neurais de spiking, que integra replay de experiência e agendamento adaptativo para otimizar simultaneamente a precisão e a eficiência energética em sistemas de visão neuromórfica, demonstrando melhorias significativas tanto em dados baseados em quadros quanto em eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

O artigo apresenta o B-DENSE, um novo framework que utiliza alinhamento de trajetória multi-ramo para fornecer supervisão densa em modelos de difusão, mitigando erros de discretização e melhorando a qualidade da geração de imagens em comparação com métodos de destilação tradicionais.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Contextuality from Single-State Ontological Models: An Information-Theoretic No-Go Theorem

O artigo apresenta um teorema de impossibilidade de natureza informacional que demonstra que modelos ontológicos clássicos restritos a reutilizar um único espaço de estados onticos para múltiplas intervenções necessariamente incorrem em um custo informacional contextual irreduzível, estabelecendo a contextualidade como uma limitação fundamental das representações clássicas que a teoria quântica contorna ao relaxar essa premissa.

Song-Ju Kim2026-03-11⚛️ quant-ph

Continual uncertainty learning

Este artigo propõe um novo framework de aprendizado contínuo baseado em currículo que combina controle baseado em modelo e aprendizado por reforço profundo para decompor problemas de controle robusto com múltiplas incertezas em tarefas sequenciais, permitindo uma transferência eficiente do simulador para a realidade em aplicações industriais como o controle de vibração ativa de trens de força automotivos.

Heisei Yonezawa, Ansei Yonezawa, Itsuro Kajiwara2026-03-11🤖 cs.AI

ReDON: Recurrent Diffractive Optical Neural Processor with Reconfigurable Self-Modulated Nonlinearity

O artigo apresenta o ReDON, uma nova arquitetura de processador óptico neural recorrente que supera as limitações de expressividade das redes ópticas tradicionais ao incorporar não linearidades auto-moduladas reconfiguráveis, resultando em ganhos significativos de precisão em tarefas de visão computacional com consumo energético mínimo.

Ziang Yin, Qi Jing, Raktim Sarma, Rena Huang, Yu Yao, Jiaqi Gu2026-03-11🔬 physics.optics

SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems

O artigo apresenta o SafeGen-LLM, um modelo de linguagem grande com pós-treinamento em duas etapas (SFT e GRPO) que melhora a segurança e a generalização em tarefas de planejamento robótico, superando modelos proprietários em diversos domínios e formatos de entrada.

Jialiang Fan, Weizhe Xu, Mengyu Liu + 3 more2026-03-11🤖 cs.AI

Breaking the Factorization Barrier in Diffusion Language Models

O artigo apresenta o Coupled Discrete Diffusion (CoDD), um framework híbrido que supera a barreira de fatorização em modelos de linguagem de difusão ao substituir distribuições de saída totalmente fatoradas por uma camada de inferência probabilística leve, permitindo a modelagem eficiente de dependências conjuntas complexas e gerando textos coerentes em poucos passos com custo computacional reduzido.

Ian Li, Zilei Shao, Benjie Wang, Rose Yu, Guy Van den Broeck, Anji Liu2026-03-11🤖 cs.AI

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

O artigo apresenta o OrthoAI, uma estrutura neurosimbólica que integra segmentação de dentes por meio de supervisão esparsa, inferência de viabilidade biomecânica baseada em restrições e avaliação de tratamento multicritério para apoiar a decisão clínica automatizada na ortodontia com alinhadores transparentes.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Este artigo apresenta uma abordagem de duplo pipeline para segmentação de imagens de aves que utiliza modelos fundamentais de 2025, alcançando resultados supervisionados superiores e desempenho zero-shot inédito ao combinar Grounding DINO 1.5 ou YOLOv11 para detecção com o Segment Anything Model 2.1 para geração de máscaras, sem necessidade de retreinamento do modelo de segmentação.

Abhinav Munagala2026-03-11🤖 cs.AI

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

O artigo apresenta o Pri4R, uma abordagem que aprimora modelos Visão-Linguagem-Ação (VLA) ao incorporar dinâmicas do mundo por meio da previsão de rastros de pontos 3D durante o treinamento, resultando em melhor desempenho em tarefas de manipulação física sem adicionar custo computacional ou complexidade na inferência.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

O artigo apresenta o \textsc{Gome}, um agente de engenharia de aprendizado de máquina que substitui a busca em árvore tradicional por otimização baseada em gradientes, alcançando desempenho superior em modelos de raciocínio avançados e estabelecendo uma nova direção escalável para agentes de IA.

Yifei Zhang, Xu Yang, Xiao Yang, Bowen Xian, Qizheng Li, Shikai Fang, Jingyuan Li, Jian Wang, Mingrui Xu, Weiqing Liu, Jiang Bian2026-03-11🤖 cs.AI

Boltzmann-based Exploration for Robust Decentralized Multi-Agent Planning (Extended Version)

O artigo apresenta o CB-MCTS, um novo algoritmo de busca em árvore Monte Carlo descentralizada que utiliza uma política estocástica baseada em Boltzmann e um bônus de entropia decrescente para superar as limitações de exploração em ambientes de recompensa esparsa ou enganosa, superando o Dec-MCTS em cenários desafiadores.

Nhat D. A. Nguyen, Duong D. Nguyen, Gianluca Rizzo, Hung X. Nguyen2026-03-11🤖 cs.AI

FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing

O artigo apresenta o FinTexTS, um novo conjunto de dados de séries temporais financeiras emparelhadas com texto, construído por meio de um framework inovador que utiliza correspondência semântica baseada em contextos específicos de empresas e classificação multinível (macro, setor, empresas relacionadas e alvo) para capturar interdependências complexas do mercado e melhorar a previsão de preços de ações.

Jaehoon Lee, Suhwan Park, Tae Yoon Lim, Seunghan Lee, Jun Seo, Dongwan Kang, Hwanil Choi, Minjae Kim, Sungdong Yoo, SoonYoung Lee, Yongjae Lee, Wonbin Ahn2026-03-11🤖 cs.AI

SPARC: Spatial-Aware Path Planning via Attentive Robot Communication

O artigo propõe o SPARC, um método de planejamento de trajetória para múltiplos robôs que utiliza um mecanismo de atenção aprimorado por relações espaciais (RMHA) para priorizar dinamicamente a comunicação com vizinhos próximos, alcançando uma taxa de sucesso superior em ambientes congestionados e com alta densidade de obstáculos.

Sayang Mu, Xiangyu Wu, Bo An2026-03-11🤖 cs.AI

← Anterior Próximo →