cs artigos | Gist.Science

CinemaWorld: Generative Augmented Reality with LLMs and 3D Scene Generation for Movie Augmentation

O artigo apresenta o CinemaWorld, um sistema de realidade aumentada generativa que utiliza modelos de linguagem grandes e inteligência artificial para transformar cenas de filmes 2D em conteúdo 3D dinâmico e sincronizado no ambiente físico do usuário, demonstrando através de estudos que essa tecnologia aumenta a imersão e o prazer na experiência cinematográfica.

Keiichi Ihara, DaeHo Lee, Manato Abe, Hye-Young Jo, Ryo Suzuki2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Este artigo apresenta uma nova arquitetura de classificação plug-and-play que utiliza um Modelo de Visão e Linguagem de Grande Escala (LVLM) para realizar modelagem relacional conjunta entre imagens de drones e satélites, aprimorando significativamente a precisão da geolocalização por meio de uma função de perda relacional inovadora que fornece supervisão granular.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

Este trabalho propõe novas métricas de avaliação para modelos generativos baseadas em distribuições de tokens visuais discretos, introduzindo o CHD e o CMMS, e apresenta o benchmark VisForm para demonstrar que essas abordagens superam os métodos tradicionais em correlação com julgamentos humanos.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

O artigo propõe o Aprendizado por Reforço em Contexto (ICRL), uma abordagem que elimina a necessidade de ajuste fino supervisionado (SFT) ao utilizar exemplos em contexto durante o treinamento por reforço para ensinar modelos de linguagem a usar ferramentas externas, alcançando desempenho superior de forma escalável e eficiente em dados.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

Este artigo propõe um método prático e sem treinamento para gerar imagens sintéticas de defeitos em isoladores de linhas de energia utilizando modelos de linguagem multimodal, demonstrando que essa abordagem de aumento de dados melhora significativamente a precisão na classificação de defeitos em cenários com escassez de dados reais.

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

Geometric Give and Take

O artigo determina que, para qualquer arranjo de $n$ linhas em posição geral, o número mínimo de pedras necessário para que Alice garanta a vitória no jogo de equilíbrio geométrico é $\Theta(n^3)$ e pode ser calculado em tempo polinomial.

Oswin Aichholzer, Katharina Klost, Kristin Knorr, Viola Mészáros, Josef Tkadlec2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

O artigo TALON propõe um framework de aprendizado adaptativo em tempo de teste para descoberta de categorias sob demanda, que supera as limitações de métodos baseados em hash ao atualizar dinamicamente protótipos semânticos e o codificador, evitando a fragmentação de classes e melhorando significativamente a precisão na identificação de novas categorias.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval

O artigo argumenta que, embora os Sistemas de Julgamento de Relevância Baseados em LLM (LLM-RJS) tenham o potencial de superar as limitações de "visão curta" dos sistemas de recuperação por similaridade de embeddings ao utilizar raciocínio, essa superioridade não pode ser validada em conjuntos de dados padrão, pois as próprias anotações humanas de relevância compartilham as mesmas limitações.

Matei Benescu, Ivo Pascal de Jong2026-03-10💻 cs

Augmented Model Predictive Control: A Balance between Satellite Agility and Computation Complexity

Este artigo apresenta um método de Controle Preditivo Modelado (MPC) aumentado que equilibra a agilidade de satélites de observação terrestre com a complexidade computacional, combinando o alto desempenho do MPC não linear com a simplicidade do MPC linear, conforme validado por simulações e experimentos físicos.

Yiming Wang, Mihindukulasooriya Sheral Crescent Tissera, Haihong Yu, Kai Jie Ethan Foo, Sean Yeo Keyuan, Ankit Srivastava, Hao An2026-03-10💻 cs

M-ABD: Scalable, Efficient, and Robust Multi-Affine-Body Dynamics

Este artigo apresenta o M-ABD, um novo framework que utiliza a dinâmica de corpos afins e um mapeamento para um espaço dual compacto para simular de forma eficiente, estável e interativa grandes assembleias articuladas com milhares de corpos em um único núcleo de CPU, superando as limitações de rigidez numérica e complexidade geométrica dos métodos convencionais.

Zhiyong He (University of Utah), Dewen Guo (University of Utah), Minghao Guo (MIT), Yili Zhao (ByteDance), Wojciech Matusik (MIT), Hao Su (UCSD), Chenfanfu Jiang (UCLA), Peter Yichen Chen (UBC), Yin Yang (University of Utah)2026-03-10💻 cs

MRDrive: An Open Source Mixed Reality Driving Simulator for Automotive User Research

O artigo apresenta o MRDrive, um simulador de condução de realidade mista de código aberto que combina um habitáculo de veículo real com um ambiente virtual imersivo para facilitar a pesquisa em HCI sobre interação, atenção e explicabilidade na condução manual e automatizada.

Patrick Ebel, Michał Patryk Miazga, Martin Lorenz, Timur Getselev, Pavlo Bazilinskyy, Celine Conzen2026-03-10💻 cs

The AI Amplifier Effect: Defining Human-AI Intimacy and Romantic Relationships with Conversational AI

Este artigo define a intimidade humano-IA com base em entrevistas com usuários de companheiros românticos virtuais, introduzindo o conceito de "Efeito Amplificador da IA", no qual a inteligência artificial intensifica o estado emocional pré-existente do usuário, e propõe diretrizes para equilibrar a autonomia do usuário com a regulação de plataformas no design desses sistemas.

Ching Christie Pang, Yi Gao, Xuetong Wang, Pan Hui2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Este artigo propõe uma transição da inteligência artificial reativa para uma baseada em mapas, utilizando um modelo Llama-2 ajustado via LoRA para inferir zonas semânticas e integrar essas informações a um sistema de mapeamento híbrido, resultando em uma navegação a objetivos mais eficiente e com menor exploração redundante em ambientes desconhecidos.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

Adaptive Vision-Based Control of Redundant Robots with Null-Space Interaction for Human-Robot Collaboration

Este artigo propõe um novo esquema de controle adaptativo baseado em visão para robôs redundantes que combina uma ação em espaço de tarefas com interação no espaço nulo, permitindo colaboração segura e eficaz com humanos em ambientes desconhecidos sem calibração prévia, com estabilidade garantida e validada experimentalmente por meio de realidade aumentada.

Xiangjie Yan, Chen Chen, Xiang Li2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

O artigo apresenta o DSH-Bench, um novo benchmark abrangente para geração de imagens de texto orientada a sujeitos que supera as limitações existentes através de uma taxonomia hierárquica, uma avaliação granular de dificuldade e cenários, e uma nova métrica de consistência de identidade, oferecendo insights diagnósticos cruciais para o aprimoramento de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

O TrianguLang é um novo framework de inferência direta para localização 3D guiada por texto que alcança estado da arte em precisão e consistência geométrica sem exigir calibração de câmera ou otimização por cena, permitindo aplicações práticas em robótica e realidade aumentada.

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

PathBench: Speech Intelligibility Benchmark for Automatic Pathological Speech Assessment

O artigo apresenta o PathBench, um benchmark unificado para avaliação automática da inteligibilidade da fala patológica que utiliza conjuntos de dados públicos para comparar diferentes métodos e estabelecer baselines sistemáticas, introduzindo também a métrica DArtP que alcança a maior correlação média entre os métodos sem referência.

Bence Mark Halpern, Thomas Tienkamp, Defne Abur, Tomoki Toda2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

Este artigo propõe o método de Poda Adaptativa de MLP (AMP), que utiliza um critério de entropia de informação sem rótulos e uma busca binária para reduzir automaticamente cerca de 40% dos parâmetros e FLOPs de grandes Transformers de visão, como CLIP e DINOv2, mantendo o desempenho quase sem perdas.

Chengchao Shen2026-03-10💻 cs

''I don't want to break it'': An Exploration of Perceived Fragility in Shape-Changing Interfaces

Este artigo investiga como a percepção de fragilidade influencia a interação dos usuários com Interfaces que Mudam de Forma (SCIs), identificando fatores-chave por meio de estudos qualitativos e experimentais para desenvolver um framework que oriente o design de objetos mais robustos e confiáveis.

Eva Mackamul (IIHM), Tom Maillard (IIHM), Noé Marceaul (IIHM), Yelli Coulibaly (IIHM), Julien Pansiot (SED [Grenoble]), Laurence Boissieux (SED [Grenoble]), Dominique Vaufreydaz (LIG, M-PSI), Anne Roudaut (IIHM), Céline Coutrix (IIHM)2026-03-10💻 cs

Permutation Match Puzzles: How Young Tanvi Learned About Computational Complexity

Este artigo caracteriza a solvabilidade de um novo tipo de quebra-cabeça de ordenação em grades, fornecendo uma fórmula para contar soluções válidas, um algoritmo linear para corrigir configurações insolúveis e demonstrando que a generalização do problema para permutações arbitrárias é NP-completa.

Kshitij Gajjar, Neeldhara Misra2026-03-10💻 cs

← Anterior Próximo →