Cette section explore les liens fascinants entre la chaleur spécifique à pression constante et celle à volume constant, des concepts fondamentaux qui régissent comment les gaz et les fluides absorbent l'énergie. Ces mesures, souvent notées Cp et Cv, sont essentielles pour comprendre les transformations thermodynamiques dans tout ce qui va des moteurs à l'atmosphère, sans avoir besoin de plonger immédiatement dans des équations complexes.

Sur Gist.Science, nous traitons chaque nouvelle prépublication de cette catégorie provenant directement d'arXiv. Notre équipe transforme ces articles bruts en résumés accessibles pour le grand public, tout en offrant des analyses techniques détaillées pour les experts. Cela vous permet de saisir l'essence de la recherche récente sans barrière de langage.

Voici la sélection la plus récente de ces travaux, où nous décomposons les découvertes récentes sur le comportement thermique de la matière.

On Pitfalls of RemOve-And-Retrain\textit{RemOve-And-Retrain}: Data Processing Inequality Perspective

Cet article démontre que la validité du benchmark RemOve-And-Retrain (ROAR) est compromise car les cartes d'attribution par post-traitement peuvent artificiellement améliorer les scores sans ajouter d'information, révélant un biais systématique envers les masques spatialement flous qui mine sa capacité à évaluer avec précision les méthodes d'attribution de caractéristiques.

Junhwa Song, Keumgang Cha, Junghoon Seo2026-06-12📊 stat

GetNetUPAM: Ecologically Informed Nested Cross-Validation and Noise-Robust Attention for Marine Bioacoustic Monitoring

L'article présente GetNetUPAM, un cadre de validation croisée imbriquée éco-informé associé à un CNN basé sur l'attention et robuste au bruit (ARPA-N), afin d'améliorer significativement la généralisation et la fiabilité de la surveillance bioacoustique marine en traitant efficacement les conditions de bruit élevé et en empênant le surapprentissage lié aux artefacts environnementaux localisés.

Nicholas R. Rasmussen, Rodrigue Rizk, Longwei Wang, KC Santosh2026-06-12⚡ eess

Acquisition state behaves as a structured, measurable variable governing lung-nodule AI: kernel-driven measurement instability and noise-driven detection fragility, invisible to DICOM metadata

Cet article démontre que la performance de l'IA pour les nodules pulmonaires est régie par un « état d'acquisition » structuré et mesurable (spécifiquement le noyau de reconstruction et le bruit) qui provoque des échecs de mesure ou de détection distincts, invisibles dans les métadonnées DICOM, nécessitant ainsi une validation côté entrée comme couche critique pour la gouvernance de l'IA.

Daniel Soliman2026-06-12⚡ eess

Perceive, Interact, Reason: Building Tool-Augmented Visual Agents for Spatial Reasoning

L'article présente PERIA, un agent visuel augmenté par des outils qui améliore le raisonnement spatial des modèles vision-langage en intégrant des outils de perception et d'interaction légers à une nouvelle recette d'entraînement, atteignant des performances de pointe sur divers benchmarks tout en rivalisant avec des modèles beaucoup plus grands.

Changye Li, Meng Lu, Yi Wu, Ligeng Zhu2026-06-12🤖 cs.AI

JSCGC: Joint Source-Channel-Generation Coding for Wireless Generative Communications

Ce document propose le Codage Conjoint de la Source, du Canal et de la Génération (JSCGC), un nouveau paradigme de communication qui remplace les décodeurs conventionnels par des modèles génératifs afin de transformer la transmission sans fil d'une minimisation déterministe de la distorsion en une génération sémantique contrôlée, atteignant ainsi une qualité perceptuelle et une robustesse supérieures sous diverses conditions de canal.

Tong Wu, Zhiyong Chen, Guo Lu, Li Song, Feng Yang, Meixia Tao, Wenjun Zhang2026-06-12🔢 math

Magnifying What Matters: Attention-Guided Adaptive Rendering for Visual Text Comprehension

Cet article introduit AGAR, une méthode sans entraînement et agnostique au modèle qui améliore la compréhension de texte visuel en exploitant les mécanismes d'attention internes d'un VLM pour identifier et agrandir de manière adaptative les régions textuelles critiques dans les images rendues, améliorant ainsi considérablement la précision des réponses à travers divers benchmarks sans nécessiter de réentraînement.

Shenglai Zeng, Qirui Wang, Kai Guo, Xinnan Dai, Xianxuan Long, Hui Liu2026-06-12💬 cs.CL

Bounding Boxes as Goals: Language-Conditioned Grasping via Neuro-Symbolic Planning

L'article présente GRASP, un cadre de planification neuro-symbolique qui exploite des modèles vision-langage pré-entraînés pour traduire le langage naturel en objectifs de boîtes englobantes ancrés, permettant une manipulation de table à vocabulaire ouvert et zéro-shot avec un taux de réussite de 73,3 % sur de vrais robots sans entraînement spécifique à la tâche.

Allison Andreyev, Landon Eum, Nestor Tiglao, Romel Gomez2026-06-12⚡ eess

OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models

OpenMedQ est un modèle de vision-langage médical de pointe préentraîné sur un vaste ensemble de données entièrement ouvert de 3,35 millions d'échantillons qui surpasse significativement des modèles beaucoup plus grands comme Med-PaLM M sur des benchmarks clés tout en atteignant une performance supérieure dans les tâches de classification médicale en aval.

Ibrahim Gulluk, Max Van Puyvelde, Olivier Gevaert2026-06-12⚡ eess

Efficient, Robust, and Anti-Collusion Fingerprinting of Image Diffusion Models

Cet article propose une méthode d'empreinte numérique robuste, efficace et anti-collusion pour les modèles de diffusion texte-image qui intègre des identifiants spécifiques à l'utilisateur dans un module de normalisation personnalisé, permettant une extraction fiable tout en dégradant la qualité des modèles issus de collusion afin d'empêcher toute redistribution non autorisée.

Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi2026-06-12🤖 cs.AI

Trajectory-Level Redirection Attacks on Vision-Language-Action Models

Cet article introduit et formalise la « redirection de trajectoire préservant la commande », une attaque inédite contre les modèles Vision-Langage-Action (VLA), où des perturbations de prompts quasi bénignes, découvertes via une méthode de recherche on-policy, redirigent avec succès l'exécution physique d'un robot vers un résultat spécifié par l'attaquant tout en maintenant l'apparence de la tâche initialement prévue.

Gokul Puthumanaillam, Vardhan Dongre, Pranay Thangeda, Hooshang Nayyeri, Dilek Hakkani-Tür, Melkior Ornik2026-06-12⚡ eess