cs.AI artigos | Gist.Science

KARL: Knowledge Agents via Reinforcement Learning

O artigo apresenta o KARL, um sistema de agentes de busca empresarial treinados por aprendizado por reforço que, combinando dados sintéticos diversificados e um pipeline de pós-treinamento iterativo, alcança desempenho superior e Pareto-ótimo em tarefas complexas de raciocínio fundamentado, superando modelos fechados de ponta.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal + 23 more2026-03-06🤖 cs.AI

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

O artigo apresenta o SPyCer, uma rede semissupervisionada guiada por princípios físicos que utiliza atenção contextual e imagens de satélite para estimar com precisão e coerência física a temperatura do ar próxima à superfície, superando as limitações da distribuição esparsa de sensores terrestres.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

AI+HW 2035: Shaping the Next Decade

Este artigo de visão apresenta um roteiro de 10 anos para o co-design e desenvolvimento conjunto de IA e hardware, visando superar a fragmentação atual através de uma abordagem integrada que priorize a eficiência energética, a otimização de sistemas e a sustentabilidade para alcançar ganhos exponenciais de inteligência por joule até 2035.

Deming Chen, Jason Cong, Azalia Mirhoseini + 27 more2026-03-06🤖 cs.AI

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

Este estudo demonstra que a modificação intencional da topologia arquitetural de Transformers, especificamente ao impor uma topologia esférica limitada e substituir o roteamento de atenção dependente de dados por uma distribuição uniforme, elimina a fase de memorização e acelera drasticamente o fenômeno de "grokking" em tarefas de adição modular, evidenciando que alinhar os vieses geométricos da arquitetura com as simetrias intrínsecas da tarefa é crucial para a generalização imediata.

Alper Yıldırım2026-03-06🤖 cs.AI

Not All Trust is the Same: Effects of Decision Workflow and Explanations in Human-AI Decision Making

Este estudo investiga como o fluxo de decisão, as explicações e a experiência do usuário influenciam a confiança e a dependência comportamental em sistemas de IA, revelando que a confiança declarada e o comportamento de reliance são construtos distintos e que o fluxo de decisão de dois passos não reduz necessariamente a superconfiança.

Laura Spillner, Rachel Ringe, Robert Porzel + 1 more2026-03-06🤖 cs.AI

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

O artigo apresenta o ASR-TRA, um novo framework de adaptação em tempo de teste baseado em aprendizado por reforço e intervenção causal que utiliza recompensas de alinhamento semântico entre áudio e texto para superar o viés de confirmação e melhorar a robustez de sistemas de reconhecimento de fala em condições desafiadoras.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

Recursive Inference Machines for Neural Reasoning

Este trabalho apresenta as Máquinas de Inferência Recursiva (RIMs), um novo quadro de raciocínio neural que integra mecanismos de inferência recursiva clássica aos modelos recursivos existentes, resultando em melhor desempenho em benchmarks complexos de raciocínio e classificação de dados tabulares.

Mieszko Komisarczyk, Saurabh Mathur, Maurice Kraus + 2 more2026-03-06🤖 cs.AI

Reclaiming Lost Text Layers for Source-Free Cross-Domain Few-Shot Learning

Este artigo propõe um método inovador para o Aprendizado de Poucos Exemplos Fonte-Livre entre Domínios (SF-CDFSL) que, ao invés de simplesmente remover as camadas intermediárias "perdidas" do codificador de texto do CLIP, ensina o modelo a reutilizar e integrar efetivamente essas informações para superar lacunas visuais e melhorar o desempenho em tarefas de adaptação de domínio.

Zhenyu Zhang, Guangyao Chen, Yixiong Zou + 2 more2026-03-06🤖 cs.AI

GCAgent: Enhancing Group Chat Communication through Dialogue Agents System

O artigo apresenta o GCAgent, um sistema baseado em modelos de linguagem que aprimora a comunicação em chats de grupo através de agentes de diálogo personalizados, demonstrando, em experimentos e implantações reais, um aumento significativo na atividade e no engajamento dos usuários.

Zijie Meng, Zheyong Xie, Zheyu Ye + 5 more2026-03-06🤖 cs.AI

Visual-Informed Speech Enhancement Using Attention-Based Beamforming

O artigo propõe a rede neural de formação de feixe informada visualmente (VI-NBFNet), que integra processamento de sinais de microfone em array e redes neurais profundas utilizando movimentos labiais extraídos de modelos de reconhecimento visual para melhorar a robustez e o desempenho do aprimoramento de fala em cenários complexos e com ruído.

Chihyun Liu, Jiaxuan Fan, Mingtung Sun + 3 more2026-03-06🤖 cs.AI

Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts

Este artigo apresenta o Whisperer, um framework de prompting visual que utiliza um pré-processador baseado em difusão e um currículo de clonagem comportamental para melhorar significativamente a precisão de modelos OCR congelados ao aprender a transformar pixel a pixel imagens degradadas, reduzindo a taxa de erro de caracteres em 8% sem ajustar os pesos do modelo original.

Samandar Samandarov, Nazirjon Ismoiljonov, Abdullah Sattorov + 1 more2026-03-06🤖 cs.AI

X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

O artigo apresenta o X-RAY, um sistema explicável que utiliza sondas formalmente verificadas e calibradas para mapear a capacidade de raciocínio de modelos de linguagem, revelando uma assimetria sistemática onde esses modelos são robustos ao refinamento de restrições, mas degradam-se drasticamente sob reestruturação do espaço de soluções.

Gao Tianxi, Cai Yufan, Yuan Yusi + 1 more2026-03-06🤖 cs.AI

STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks

O artigo apresenta o STRUCTUREDAGENT, um framework de planejamento hierárquico que utiliza árvores AND/OR dinâmicas e um módulo de memória estruturada para superar as limitações de agentes web existentes em tarefas de longo horizonte, resultando em melhor desempenho e planos interpretáveis.

ELita Lobo, Xu Chen, Jingjing Meng + 5 more2026-03-06🤖 cs.AI

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

O artigo apresenta o WebChain, o maior conjunto de dados de código aberto com trajetórias de interação humana em websites reais, e propõe uma metodologia de treinamento que alcança desempenho superior na criação e avaliação de agentes web escaláveis.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

O artigo apresenta o WavSLM, um modelo de linguagem de fala de fluxo único que, ao quantizar e destilar representações do WavLM em um único código e otimizar a previsão autoregressiva de próximos blocos, consegue modelar conjuntamente informações semânticas e acústicas sem supervisão textual, alcançando desempenho competitivo com menos parâmetros e dados.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

UniSTOK: Uniform Inductive Spatio-Temporal Kriging

O artigo propõe o UniSTOK, um framework plug-and-play que aprimora modelos de krigagem indutiva espaciotemporal sob observações faltantes heterogêneas, utilizando uma arquitetura de dupla ramificação com realce de dados e atenção adaptativa para distinguir sinais reais de artefatos de missingness e restaurar a estrutura local distorcida.

Lewei Xie, Haoyu Zhang, Juan Yuan + 3 more2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

O artigo apresenta o Med-V1, uma família de modelos de linguagem pequenos e eficientes que, apesar de terem apenas três bilhões de parâmetros, superam seus modelos base e competem com modelos de ponta como o GPT-5 na atribuição de evidências biomédicas e na detecção de alucinações, oferecendo uma alternativa escalável e de baixo custo para aplicações práticas.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

O artigo apresenta o Latent-Mark, um novo framework de marcação d'água em áudio que supera a vulnerabilidade das técnicas existentes à ressíntese neural ao embutir a marca no espaço latente invariante dos codecs, garantindo robustez, imperceptibilidade e transferência zero-shot para codecs não vistos.

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou + 5 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Este artigo apresenta o PersianPunc, um grande conjunto de dados de 17 milhões de amostras para restauração de pontuação em persa, e demonstra que uma abordagem baseada no modelo ParsBERT supera modelos de linguagem grandes em precisão e eficiência, evitando edições indesejadas em pipelines de reconhecimento de fala.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering

O artigo apresenta o GALACTIC, o primeiro framework unificado que gera explicações contrafactuais locais e globais para agrupamento de séries temporais não supervisionado, utilizando otimização sensível a clusters e um algoritmo guloso baseado em MDL para produzir perturbações esparsas e resumos interpretáveis das transições entre clusters.

Christos Fragkathoulas, Eleni Psaroudaki, Themis Palpanas + 1 more2026-03-06🤖 cs.AI

← Anterior Próximo →