cs artigos | Gist.Science

Why iCloud Fails: The Category Mistake of Cloud Synchronization

Este artigo argumenta que as falhas do iCloud ao sincronizar dados com ferramentas como Time Machine e Git decorrem de um erro categórico fundamental: a projeção de um grafo causal distribuído em uma cadeia temporal linear, um problema estrutural que só pode ser resolvido alinhando os protocolos de rede com a realidade física através de semânticas transacionais reversíveis, como as do Open Atomic Ethernet.

Paul Borrill2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

O artigo apresenta o InfScene-SR, um método de super-resolução baseado em difusão que utiliza correção de variância espacialmente desacoplada para realizar a super-resolução contínua e sem costuras de imagens de tamanho arbitrário, eliminando artefatos de borda e melhorando o desempenho em tarefas de segmentação semântica.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Este artigo propõe um esquema de decomposição e recomposição online de objeto, cena e câmera para gerar dados de treinamento diversificados e combater o sobreajuste na detecção 3D de objetos monoculares, permitindo um aprendizado eficiente e escalável tanto em cenários totalmente quanto esparsamente supervisionados.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Este trabalho apresenta um framework de decomposição de imagens em camadas que utiliza modelos de difusão pré-treinados, adaptados via LoRA e uma estratégia de ajuste cíclico consistente, para separar eficazmente elementos complexos como logotipos de suas superfícies enquanto preserva a fidelidade de ambas as camadas.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

O artigo apresenta o "See It, Say It, Sorted", um framework leve e sem treinamento que aprimora o raciocínio multimodal em modelos LVLMs ao supervisionar iterativamente cada passo do pensamento com evidências visuais dinâmicas, reduzindo alucinações e melhorando a precisão sem necessidade de re-treinamento.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Este artigo apresenta o ARLArena, um framework unificado para análise e estabilização do aprendizado por reforço agêntico, que através da decomposição do gradiente de política em quatro dimensões, deriva o método SAMPO para garantir treinamento estável e de alto desempenho em tarefas complexas.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Este artigo apresenta uma abordagem unificada para segmentação semântica em imagens e vídeos que utiliza modelagem de linguagem para gerar máscaras como sequências de tokens discretos baseados em codificação por comprimento de execução (RLE), incorporando estratégias de compressão e informações de instância para alcançar desempenho competitivo com o estado da arte.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs

O artigo apresenta o EmoOmni, um framework unificado que introduz o Chain-of-Thought Emocional (E-CoT) para melhorar a compreensão e expressão emocional em modelos de linguagem multimodais, complementado por um conjunto de dados anotados e uma nova avaliação de benchmark.

Wenjie Tian, Zhixian Zhao, Jingbin Hu, Huakang Chen, Haohe Liu, Binshen Mu, Lei Xie2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

O artigo apresenta o CryoNet.Refine, um modelo de difusão de um único passo baseado em aprendizado profundo que automatiza e acelera o refinamento de modelos estrutuais de macromoléculas contra mapas de densidade de criomicroscopia eletrônica, superando em velocidade e qualidade as ferramentas tradicionais como o Phenix.real_space_refine.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Este artigo introduz o conceito de "vibe researching" mediado por agentes de IA, argumentando que, embora essas ferramentas possam automatizar tarefas de alta codificabilidade e acelerar o pipeline de pesquisa, elas não substituem a originalidade teórica e o conhecimento tácito dos cientistas sociais, exigindo, em vez disso, uma abordagem de augmentação responsável que considere riscos de estratificação e crises pedagógicas.

Yongjun Zhang2026-03-10💻 cs

Decomposing Physician Disagreement in HealthBench

O estudo demonstra que a maior parte da discordância entre médicos na avaliação de IA em saúde é estrutural e inerente a casos clínicos limítrofes, embora a redução de incertezas evitáveis, como falta de contexto, possa oferecer melhorias pontuais no design da avaliação.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

O WISER é um framework de recuperação de imagens composta zero-shot sem treinamento que supera os métodos existentes ao unificar as abordagens Texto-para-Imagem e Imagem-para-Imagem em um pipeline de "busca mais ampla, pensamento mais profundo e fusão adaptativa", utilizando verificação de confiança e auto-reflexão estruturada para refinar dinamicamente os resultados.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

O artigo apresenta o PackUV, um novo método de representação volumétrica 4D que mapeia atributos gaussianos em mapas UV estruturados para compatibilidade com codecs de vídeo padrão, introduzindo também o método de ajuste PackUV-GS e o conjunto de dados PackUV-2B para superar limitações de consistência temporal e escalabilidade em sequências longas.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

On Sample-Efficient Generalized Planning via Learned Transition Models

Este trabalho propõe formular o planejamento generalizado como um problema de aprendizado de modelos de transição explícitos, demonstrando que prever estados intermediários em vez de ações diretas resulta em maior generalização fora da distribuição e eficiência amostral com modelos menores do que as abordagens baseadas em Transformers que predizem sequências de ações diretamente.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

O artigo apresenta o HART, um quadro de aprendizado por reforço que permite que Modelos Multimodais de Grande Escala realizem raciocínio visual em alta resolução sem anotações humanas, otimizando a localização de regiões-chave e melhorando o desempenho em diversas tarefas complexas.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

PEPA: a Persistently Autonomous Embodied Agent with Personalities

O artigo apresenta o PEPA, uma arquitetura cognitiva de três camadas que utiliza traços de personalidade para permitir que agentes corporificados gerem objetivos internos e operem de forma autônoma e persistente em ambientes dinâmicos, validado experimentalmente em um robô quadrúpede real.

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

O artigo apresenta o Infinito Self-Attention (InfSA), uma reformulação espectral que modela a atenção como um processo de difusão em grafos de tokens para superar o custo quadrático do softmax, introduzindo a variante Linear-InfSA que alcança complexidade linear, permite processamento de imagens de ultra-alta resolução (até 9216x9216) e supera os Transformers convencionais em precisão e eficiência energética no ImageNet.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

O artigo apresenta o WildActor, um framework de geração de vídeos humanos que preserva a identidade corporal em condições desafiadoras de movimento e viewpoint, apoiado pelo novo conjunto de dados em larga escala Actor-18M e validado pelo benchmark Actor-Bench.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Este artigo de posicionamento defende que a avaliação de sistemas modernos de processamento visual deve abandonar a primazia de métricas objetivas de qualidade de imagem em favor de uma abordagem centrada no ser humano, contextual e detalhada, para evitar que a divergência entre resultados métricos e percepção humana restrinja a inovação e desvie o progresso da pesquisa.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

Sustainable Care: Designing Technologies That Support Children's Long-Term Engagement with Social Issues

Este workshop propõe a "cuidado sustentável" como uma lente de design para criar tecnologias que apoiem o engajamento de longo prazo das crianças em questões sociais, evitando a angústia e o esgotamento causados por abordagens atuais focadas no medo.

JaeWon Kim, Aayushi Dangol, Rotem Landesman, Alexis Hiniker, McKenna F. Parnes2026-03-10💻 cs

← Anterior Próximo →