cs articles | Gist.Science

Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization

Ce papier présente COVec, un cadre de vectorisation d'images inspiré du principe du clair-obscur qui introduit pour la première fois la décomposition d'images intrinsèques dans le domaine vectoriel afin d'améliorer la fidélité visuelle et l'édition des images réelles complexes.

Xingyue Lin, Shuai Peng, Xiangyu Xie, Jianhua Zhu, Yuxuan Zhou, Liangcai Gao2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

Ce papier présente AD-R1, un cadre d'apprentissage par renforcement en boucle fermée pour la conduite autonome qui utilise un modèle de monde impartial, enrichi par une synthèse de contre-factuels, pour prédire et éviter les dangers en apprenant à « rêver » des conséquences négatives des actions.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

Ce papier présente TEAR, un cadre de red-teaming automatisé et temporellement conscient conçu pour révéler les risques de sécurité spécifiques aux modèles de texte-vidéo en exploitant leurs dynamiques temporelles, atteignant un taux de réussite d'attaque supérieur à 80 %.

Jiaming He, Guanyu Hou, Hongwei Li, Zhicong Huang, Kangjie Chen, Yi Yu, Wenbo Jiang, Guowen Xu, Tianwei Zhang2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

Cet article présente des algorithmes randomisés permettant d'obtenir des approximations $(1-\varepsilon)$ du problème du maximum de clique en temps quasi-linéaire pour les graphes de disques unitaires et en temps paramétré pour les graphes de disques à $t$ rayons distincts.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder

Ce papier présente AEIC, un cadre de compression d'images asymétrique qui utilise un encodeur peu profond couplé à un décodeur par diffusion en une étape pour atteindre une haute fidélité perceptuelle à des débits ultra-faibles tout en garantissant une efficacité d'encodage exceptionnelle pour les appareils aux ressources limitées.

Tianyu Zhang, Dong Liu, Chang Wen Chen2026-03-12💻 cs

Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

Cet article présente une méthode de contrôle par apprentissage par renforcement permettant à un manipulateur aérien sous-actionné et léger de réaliser un contrôle précis de la pose de son effecteur terminal en six degrés de liberté, même en présence de perturbations externes et de tâches de contact.

Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

Ce papier présente SVBench, le premier benchmark évaluant la capacité des modèles de génération vidéo à produire des comportements socialement cohérents en testant sept dimensions de la cognition sociale, et révèle un écart significatif entre le réalisme visuel actuel et la compréhension des dynamiques psychologiques et sociales.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Ce papier propose une approche novatrice pour surmonter la pénurie de données en robotique chirurgicale en utilisant le modèle de monde Cosmos-H-Surgical et le jeu de données SATA pour générer des vidéos synthétiques et en déduire des kinematics factices, permettant ainsi d'entraîner des politiques de robot chirurgical qui surpassent les modèles formés uniquement sur des démonstrations réelles.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

Le papier propose AFTER, une méthode d'édition d'activation adaptative guidée par des faits qui atténue efficacement les hallucinations d'objets dans les modèles vision-langage en combinant un guidage factuel et une optimisation spécifique aux requêtes pour corriger les biais linguistiques.

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

Cet article propose deux cadres basés sur des représentations neuronales implicites pour réaliser des analyses volumétriques d'OCT rétinien résolus de manière agnostique, permettant à la fois l'interpolation inter-B-scan et la création d'un atlas rétinien généralisable pour surmonter les limitations liées à l'anisotropie et à la résolution des données d'imagerie clinique.

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Ce papier présente OODEval, un benchmark manuel et des métriques unifiées pour évaluer les capacités de conception orientée objet de 29 grands modèles de langage, révélant qu'ils excellent en syntaxe mais peinent encore à égaler les meilleurs concepteurs humains sur le plan sémantique.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

PLANING est un cadre de reconstruction 3D en flux continu efficace qui couple lâchement des primitives géométriques explicites et des Gaussiens neuronaux pour obtenir simultanément une géométrie précise et un rendu de haute qualité, surpassant les méthodes existantes en termes de vitesse et de fidélité structurelle.

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Cette étude démontre que l'ordre de saisie des évaluations (notation avant ou après l'avis) polarise les notes des consommateurs en fonction de la qualité du service, un effet médié par l'heuristique affective et l'effort cognitif, et amplifié pour les produits hédoniques.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang Liu2026-03-12💻 cs

Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval

Le papier présente Paracosm, une méthode de recherche d'images composée sans entraînement qui surpasse l'état de l'art en générant directement des images mentales synthétiques via un grand modèle multimodal pour combler l'écart de domaine avec les images réelles.

Tong Wang, Yunhan Zhao, Shu Kong2026-03-12💻 cs

KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

KVSmooth est une méthode d'inférence sans entraînement qui atténue les hallucinations dans les modèles de langage multimodaux en appliquant un lissage adaptatif des états cachés guidé par l'entropie de l'attention, améliorant ainsi simultanément la précision et le rappel sans modifier le modèle.

Siyu Jiang, Feiyang Chen, Xiaojin Zhang, Kun He2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

Cet article analyse empiriquement l'utilisation du concept de travail « ennuyeux, sale et dangereux » (DDD) dans la littérature robotique de 1980 à 2024, révèle son manque de définitions claires, propose une clarification basée sur les sciences sociales et suggère un cadre pour mieux évaluer l'impact des robots sur le travail humain.

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

Le papier présente ThunderAgent, un système d'inférence agentielle simple et rapide qui optimise les performances et l'utilisation des ressources en traitant les flux de travail comme des programmes unifiés pour mieux gérer le cache KV et les environnements d'exécution des outils.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora2026-03-12💻 cs

OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

OmniVTON++ est un cadre de essayage virtuel universel sans entraînement qui surpasse les méthodes existantes en assurant une adaptation précise des vêtements, une cohérence structurelle humaine et une continuité des contours grâce à une morphologie structurée, un guidage de pose principal et un assemblage de contours continus, tout en s'appliquant à divers scénarios incluant plusieurs vêtements, plusieurs personnes et des personnages d'anime.

Zhaotong Yang, Yong Du, Shengfeng He, Yuhui Li, Xinzhe Li, Yangyang Xu, Junyu Dong, Jian Yang2026-03-12💻 cs

Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning

Le cadre Similarity-as-Evidence (SaE) améliore l'apprentissage actif médical en recalibrant les modèles vision-langage surconfiants via une tête d'évidence de similarité qui quantifie le manque et le conflit de preuves, permettant ainsi une sélection d'échantillons interprétable et une réduction des coûts d'annotation.

Zhuofan Xie, Zishan Lin, Jinliang Lin, Jie Qi, Shaohua Hong, Shuo Li2026-03-12💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

Ce papier propose un cadre de triangulation piloté par des modèles qui intègre les limites dérivées d'images dans une grille triangulaire régulière en ne retriangulant que les éléments intersectés, garantissant ainsi une discrétisation stable, parallèle et déterministe pour la résolution d'équations aux dérivées partielles sur des domaines complexes.

Wei Feng, Haiyong Zheng2026-03-12💻 cs

← Précédent Suivant →