cs.AI artigos | Gist.Science

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Este artigo demonstra que modelos de fundação visuais-linguísticos contêm representações geométricas precisas em suas características congeladas, acessíveis através de sondas lineares simples, revelando que a baixa precisão na saída textual decorre de um déficit no treinamento do caminho de geração e não de uma limitação na representação visual subjacente.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

O artigo apresenta o PONTE, um framework de inteligência artificial explicável (XAI) com interação humana que supera as limitações das abordagens padronizadas e dos modelos de linguagem, utilizando um processo de validação em loop fechado para gerar explicações naturalizadas, personalizadas e confiáveis adaptadas às necessidades específicas de cada usuário.

Vittoria Vineis, Matteo Silvestri, Lorenzo Antonelli, Filippo Betello, Gabriele Tolomei2026-03-09🤖 cs.AI

NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches

O artigo apresenta o NOBLE, uma arquitetura que adiciona ramificações de baixo rank não lineares permanentes às camadas lineares dos transformers para acelerar o pré-treinamento do zero, alcançando ganhos significativos de eficiência e velocidade de convergência com sobrecarga mínima de parâmetros e tempo.

Ethan Smith (Canva Research)2026-03-09🤖 cs.AI

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

O artigo apresenta o COLD-Steer, um framework livre de treinamento que controla o comportamento de Grandes Modelos de Linguagem (LLMs) em tempo de inferência ao aproximar as mudanças de representação resultantes do aprendizado em contexto, alcançando alta eficácia de direcionamento com até 50 vezes menos exemplos do que os métodos existentes.

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Este estudo apresenta um sistema de inteligência artificial treinado em mais de 45.000 imagens de ultrassom que não apenas diagnostica fendas orofaciais fetais com precisão superior à de radiologistas júnior e comparável à de especialistas seniores, mas também atua como um copiloto médico para aumentar a sensibilidade diagnóstica e acelerar o desenvolvimento de expertise clínica em condições raras.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

O artigo apresenta o RAMoEA-QA, um modelo generativo hierárquico que utiliza especialização condicional em duas etapas (combinando um Mixture-of-Experts para áudio e um Mixture-of-Adapters para linguagem) para superar as limitações de sistemas monolíticos existentes, oferecendo uma resposta robusta e generalizável a perguntas sobre áudio respiratório em diversos cenários clínicos.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia Mascolo2026-03-09🤖 cs.AI

LiveSense: A Real-Time Wi-Fi Sensing Platform for Range-Doppler on COTS Laptop

O artigo apresenta o LiveSense, uma plataforma que transforma adaptadores Wi-Fi comerciais em laptops em sensores de alcance e Doppler em tempo real com precisão centimétrica, permitindo a detecção de distância, velocidade, micro-movimentos e gestos sem comprometer a comunicação de rede.

Jessica Sanson, Rahul C. Shah, Maximilian Pinaroc, Cagri Tanriover, Valerio Frascolla2026-03-09🤖 cs.AI

Boosting deep Reinforcement Learning using pretraining with Logical Options

O artigo propõe o H²RL, uma abordagem híbrida de aprendizado por reforço profundo que utiliza pré-treinamento baseado em opções lógicas para alinhar agentes a objetivos de longo prazo, superando as limitações de métodos puramente simbólicos ou neurais em tarefas complexas.

Zihan Ye, Phil Chau, Raban Emunds, Jannis Blüml, Cedric Derstroff, Quentin Delfosse, Oleg Arenz, Kristian Kersting2026-03-09🤖 cs.AI

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

O artigo apresenta o SUREON, um grande conjunto de dados de perguntas e respostas sobre vídeos cirúrgicos extraídos de aulas acadêmicas, e dois modelos de visão e linguagem (SureonVLM e SureonVLM-R1) que demonstram capacidades superiores de raciocínio cirúrgico, superando modelos gerais em tarefas de percepção e previsão de procedimentos.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

Fly360: Omnidirectional Obstacle Avoidance within Drone View

O artigo apresenta o Fly360, um pipeline de percepção e decisão em duas etapas com treinamento de guinada aleatória fixa, que permite a drones panorâmicos realizar desvio de obstáculos omnidirecional estável e superar métodos baseados em visão frontal em cenários que exigem consciência espacial completa.

Xiangkai Zhang, Dizhe Zhang, WenZhuo Cao, Zhaoliang Wan, Yingjie Niu, Lu Qi, Xu Yang, Zhiyong Liu2026-03-09🤖 cs.AI

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

O artigo apresenta o BEVLM, um framework que integra representações de Visão de Pássaro (BEV) com Modelos de Linguagem de Grande Escala (LLMs) para superar limitações de consistência espacial e riqueza semântica, resultando em melhorias significativas de 46% na precisão de raciocínio em cenas de direção e de 29% no desempenho de condução autônoma em cenários críticos de segurança.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

Este artigo apresenta o modelo generativo EIGen, que utiliza redes neurais preditivas para criar ilusões de movimento que enganam humanos, apoiando a hipótese de que tais ilusões resultam da percepção das previsões do cérebro em vez da entrada visual bruta e destacando o valor de estudar falhas motivadas em sistemas artificiais.

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

O artigo apresenta o EHRSQL, um novo benchmark prático de texto-para-SQL para registros eletrônicos de saúde, construído a partir de consultas reais de profissionais hospitalares e adaptado para os bancos de dados MIMIC-III e eICU, visando abordar desafios específicos como a geração de consultas complexas, a compreensão de expressões temporais e a distinção entre perguntas respondíveis e não respondíveis.

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

Deep Learning Meets Mechanism Design: Key Results and Some Novel Applications

Este artigo apresenta uma revisão dos detalhes técnicos e resultados fundamentais da aplicação de aprendizado profundo para projetar mecanismos que aproximadamente satisfazem propriedades desejadas, demonstrando sua eficácia em estudos de caso de gestão de energia veicular, alocação de recursos em redes móveis e leilões de compras agrícolas.

V. Udaya Sankar, Vishisht Srihari Rao, Mayank Ratan Bhardwaj + 1 more2026-03-06💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

O artigo apresenta o FEP-Nav, um quadro inspirado biologicamente que utiliza o Princípio da Energia Livre para permitir a adaptação perceptiva em tempo real e melhorar a navegação robótica sob condições sensoriais ruidosas, minimizando a energia variacional sem necessidade de atualizações baseadas em gradiente.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

Large Language Models are Contrastive Reasoners

O artigo demonstra que a técnica de "Contrastive Prompting", que solicita ao modelo de linguagem grande (LLM) gerar simultaneamente uma resposta correta e uma errada, melhora significativamente o desempenho em tarefas de raciocínio complexo sem necessidade de exemplos pré-definidos, superando métodos existentes como o Chain-of-Thought.

Liang Yao2026-03-06💻 cs

Distilling Privileged Information for Dubins Traveling Salesman Problems with Neighborhoods

Este artigo apresenta um novo método de aprendizado que, ao utilizar duas fases de treinamento para distilar informações privilegiadas de um algoritmo heurístico, resolve o Problema do Caixeiro Viajante com Vizinhanças para veículos não holonômicos de forma 50 vezes mais rápida que o método original, superando outras abordagens de aprendizado por imitação e reforço.

Min Kyu Shin, Su-Jeong Park, Seung-Keol Ryu + 2 more2026-03-06💻 cs

Parallel Split Learning with Global Sampling

O artigo apresenta o GPSL, um esquema de aprendizado dividido paralelo que, ao fixar o tamanho do lote global e utilizar amostragem global, elimina vieses de arredondamento e estabiliza o treinamento em cenários de dados não-IID, alcançando precisão comparável à centralizada com overhead negligenciável.

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Why Is Anything Conscious?

O artigo propõe que a consciência emerge da necessidade de organismos vivos interpretarem informações sensoriais através de valências (bom/ruim) para garantir a sobrevivência, estabelecendo que o processamento qualitativo precede a representação neutra de propriedades e fundamenta uma ciência formal da consciência baseada na causalidade psicofísica.

Michael Timothy Bennett, Sean Welsh, Anna Ciaunica2026-03-06💻 cs

Path Planning for Masked Diffusion Model Sampling

Este artigo apresenta o Path Planning (P2), uma nova estratégia de amostragem para Modelos de Difusão Mascaramento (MDMs) que generaliza métodos existentes ao introduzir um estágio de planejamento para selecionar e refinar tokens, resultando em melhorias significativas no desempenho generativo em diversas tarefas como biologia, raciocínio matemático e geração de código.

Fred Zhangzhi Peng, Zachary Bezemek, Sawan Patel + 5 more2026-03-06💻 cs

← Anterior Próximo →