TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

本論文は、拡散トランスフォーマー(DiT)が高解像度生成時に生じる構造的劣化やアティション希薄化の問題を、追加のサンプリングコストなしに解決し、任意の解像度とアスペクト比での高品質な画像生成を実現するトレーニング不要の手法「TIDE」を提案するものである。

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

この論文は、ドローン画像から植物シミュレーションの構成パラメータを生成するために、コンテキスト学習を活用したビジョン言語モデル(VLM)を初めて導入し、合成データと実世界のデータを用いてその性能と限界を評価した研究です。

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本論文は、自然言語による症例検索、自動コホート構築、臨床質問応答などを統合した大規模言語モデル駆動型の「PathoScribe」フレームワークを提案し、7 万件の病理報告データを用いた評価において、従来の手動レビューに比べて時間とコストを劇的に削減しつつ、高い精度で臨床意思決定を支援できることを実証したものである。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

本論文は、異なるドメイン間の画像特徴が少数のアンカーを用いて復元可能な幾何学的変換によって関連付けられているという仮説に基づき、極めてシンプルかつパラメータ効率の高い BiCLIP というフレームワークを提案し、11 のベンチマークで最先端のドメイン適応性能を達成したことを報告しています。

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

この論文は、音声と視覚信号の動的な変化に対応し、カタストロフィック・フォージングを回避するために、低ランクアンカリング(LRA)を用いた強固なベースライン「ATLAS」と、音声視覚セグメンテーションにおける最初のサンプルフリー継続学習ベンチマークを提案するものです。

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

本論文は、拡散トランスフォーマーにおけるスパースアテンションの計算コスト削減と情報損失の両立を可能にするため、クラスタセントロイドを用いたパラメータ不要の線形補償と、補償誤差を推定するエラー感知ルーティングを組み合わせた「SVG-EAR」を提案し、動画生成の品質を維持しつつ大幅な高速化を実現したものである。

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

本論文は、手術室の無菌環境やワークフローを乱すことなく、ガウススプラッティングに基づくマーカーレスな自動手眼較正フレームワーク「SurgCalib」を提案し、da Vinci 手術ロボットにおける高精度なツール位置推定を実現したものである。

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. SalcudeanWed, 11 Ma💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

本論文は、印刷物の真正性を判定するために、元のテンプレートと印刷されたコピー検出パターン、およびプリンター固有のシグネチャを統合的に活用し、ControlNet を拡張した拡散モデルに基づく新しい認証フレームワークを提案し、従来の手法や既存の深層学習アプローチを上回る性能と未知の偽造への汎化能力を実証したものである。

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-JuniorWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

本論文は、事前学習された正規化フロー(NF)モデルから導出されたカップリングを蒸留して学生モデルを訓練する「正規化フローマッチング(NFM)」を提案し、独立カップリングや最適輸送カップリングを用いた既存のフローモデルを凌駕する性能と、教師モデル自体の性能向上を実現することを示しています。

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

この論文は、畳み込みニューラルネットワーク(CNN)の幾何学的構造を正確に反映し、クロスエントロピー損失のヘッシアン行列のトレースの閉形式解を導出することで、モデルの汎化性能を評価し、アーキテクチャや訓練の設計を支援する新たな平坦性指標を提案しています。

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

この論文は、状態空間モデルと弱信号注意機構を統合した深層学習フレームワーク「WS-Net」を提案し、ハイパースペクトル画像の弱信号の崩壊を解決して、低 SNR 条件下でも主要なエンドメンバーと弱エンドメンバーの両方に対して高精度な豊度推定を実現することを示しています。

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

この論文は、9,860 枚の画像で学習した強化された YOLOv8 双モデルフレームワークを用いて、火災・煙の検出と周囲物体との距離推定を統合し、定量的なリスク評価スコアを生成する、工場の現場向けインテリジェントな火災ハザード推定システムを提案しています。

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan UbaidWed, 11 Ma💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

本論文は、2D パッチトークンに代わるアノトロピック 3D ガウスプリミティブを用いた「ガウス空間トークナイザー(GST)」と、3D 物体接地や把持幾何学などを明示的に生成する「3D 深度認識推論(DA-CoT)」を統合した VLA モデル「GST-VLA」を提案し、複雑な 3D 操作タスクにおいて既存モデルを上回る精度を達成したことを報告するものである。

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

OmniEdit は、事前学習済みモデルの教師あり微調整に依存せず、FlowEdit の編集シーケンスを目標シーケンスに置換することでバイアスを排除し、確率的要素を除去して滑らかな編集軌道を確立する、トレーニング不要のリップシンクおよび音声・映像編集フレームワークを提案するものです。

Lixiang Lin, Siyuan Jin, Jinshan ZhangWed, 11 Ma💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

この論文は、物理法則に基づく因果関係を明確化するための「物理駆動型イベント連鎖推論」と、イベント間の連続性を保つ「遷移認識型クロスモーダルプロンプティング」という 2 つのモジュールを導入することで、現実の物理現象を忠実に再現する動画生成を実現する新たな枠組みを提案しています。

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie LeiWed, 11 Ma💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

本論文は、マルチモーダル大規模言語モデルにおけるテキスト画像入力時の性能低下(モダリティギャップ)を体系的に分析し、その原因が計算やフォーマットなどの「読解エラー」の増幅にあることを明らかにするとともに、モデル自身のテキスト推論履歴を用いた自己蒸留法によって画像入力時の精度を劇的に向上させる手法を提案するものです。

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

本論文は、医療画像の分布シフト下での表現学習を改善するため、診断感度やクラス内代表性に基づくデータ順序付けと非対称コントラスト損失を組み合わせた「知識駆動型認知編成(MedKCO)」を提案し、多様な医療視覚言語タスクで既存手法を大幅に上回る性能を実証したものです。

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi ZhouWed, 11 Ma💻 cs

Training-free Motion Factorization for Compositional Video Generation

この論文は、複雑な動きを「静止」「剛体運動」「非剛体運動」の 3 つに分解し、生成前に動きの法則を推論して構造化する「計画先行」のフレームワークを提案することで、既存の手法が見過ごしていた多様な動きの指定を可能にするトレーニングフリーのコンポーザショナル動画生成手法を構築したことを示しています。

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie LeiWed, 11 Ma💻 cs