EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection

本論文は、意味的関連性を考慮した情報抽出、テキストの画像化によるトークン圧縮、および補助モデル不要なレイアウト違反検出という 3 つの革新技術により、学術ポスター生成における情報密度、トークン効率、およびレイアウトの信頼性を大幅に向上させるエンドツーエンドのフレームワーク「EfficientPosterGen」を提案するものである。

Wenxin Tang, Jingyu Xiao, Yanpei Gong + 6 more2026-03-03🤖 cs.AI

BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation

この論文は、限られたラベル付きデータや臨床的な画像劣化に強い頑健な医療画像セグメンテーションを実現するため、視覚的特徴によるテキスト表現の反復的洗練と拡張一貫性目的を備えた双方向マルチモーダル融合フレームワーク「BiCLIP」を提案し、主要ベンチマークで最先端の手法を上回る性能を示したことを報告しています。

Saivan Talaei, Fatemeh Daneshfar, Abdulhady Abas Abdullah + 1 more2026-03-03💻 cs

FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation

本論文は、マルチモーダル大規模言語モデルに基づく人間に合致した評価システムと群相対方策最適化(GRPO)を用いた強化学習フレームワーク「FlowPortrait」を提案し、音声駆動による肖像動画生成におけるリップシンクの精度、表現力、および自然さを大幅に向上させることを示しています。

Weiting Tan, Andy T. Liu, Ming Tu + 3 more2026-03-03🤖 cs.AI

SKINOPATHY AI: Smartphone-Based Ophthalmic Screening and Longitudinal Tracking Using Lightweight Computer Vision

本論文は、特殊な機器や専門家への依存を減らすため、一般的なスマートフォンと軽量なコンピュータビジョン技術を用いて、赤みの定量や瞬き率の推定など 5 つのモジュールによる説明可能な眼科スクリーニングおよび経時的追跡を実現する「SKINOPATHY AI」というシステムを提案し、そのアーキテクチャ、アルゴリズム、臨床的意義を詳述したものである。

S. Kalaycioglu, C. Hong, M. Zhu + 1 more2026-03-03🤖 cs.LG

GazeXPErT: An Expert Eye-tracking Dataset for Interpretable and Explainable AI in Oncologic FDG-PET/CT Scans

本論文は、がん診断における FDG-PET/CT 画像の読影パターンを捉えた大規模な眼球追跡データセット「GazeXPErT」を提示し、専門家の注視情報を統合することで AI による腫瘍セグメンテーションや病変局所化の精度向上、および説明可能な医療 AI の実現に貢献できることを示しています。

Joy T Wu, Daniel Beckmann, Sarah Miller + 15 more2026-03-03⚡ eess

A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance

本論文は、極端なクラス不均衡に直面するホワイトボードのストロークセグメンテーションにおいて、従来の領域指標では見逃されがちな細いストロークの失敗を可視化し、境界指標とサブセット公平性分析を統合した新しい評価プロトコルを提案し、重なりベースの損失関数や高解像度学習が精度と頑健性の両面で古典的手法を上回ることを実証しています。

Nicholas Korcynski2026-03-03🤖 cs.LG

ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering

本論文は、MLLMs における視覚的注意信号の断片化や冗長なテキストに依存する既存手法の課題を克服し、中間層での注意集約と簡潔な意味的手がかりを用いた ROI 抽出を行う「ConFoThinking」を提案し、複数の VQA ベンチマークで視覚認識性能を大幅に向上させることを示しています。

Zhaodong Wu, Haochen Xue, Qi Cao + 5 more2026-03-03💻 cs

Exploring the AI Obedience: Why is Generating a Pure Color Image Harder than CyberPunk?

本論文は、生成 AI が複雑な画像よりも単純な単色画像の生成で失敗する「単純さのパラドックス」を「服従性」の概念で体系化し、色生成に特化した初のベンチマーク「VIOLIN」を提案することで、モデルの指示遵守能力の限界を明らかにし、この課題への関心を喚起することを目的としています。

Hongyu Li, Kuan Liu, Yuan Chen + 6 more2026-03-03🤖 cs.AI

Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

本論文は、約 5,000 万の動画クリップからゼロから構築された大規模動画基盤モデル「Summer-22B」の開発において、データセットエンジニアリングが最も重要な要素であり、メタデータ駆動型のキュレーションやμP パラメータ化などの技術的知見を体系的に報告したものです。

Simo Ryu, Chunghwan Han2026-03-03🤖 cs.LG

Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

GUI 環境における KV キャッシュの過剰なメモリ使用量と遅延を解消するため、UI 要素の空間的注目度と操作軌道の意味的冗長性を考慮した新しいスコアリング手法「ST-Lite」を提案し、学習なしでキャッシュサイズを大幅に削減しながら高速な推論と高い性能を両立させることを実証した。

Bowen Zhou, Zhou Xu, Wanli Li + 2 more2026-03-03🤖 cs.LG

Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning

本論文は、LoRA ベースの継続的学習において、タスク共有とタスク固有の方向性をエネルギーに基づく目的関数で分離し、勾配整合最適化と閉形式の再較正を導入することで、知識の共有と干渉の回避を両立する新しい手法「LoDA」を提案し、既存手法を上回る性能を実証したものである。

Lingfeng He, De Cheng, Huaijie Wang + 3 more2026-03-03🤖 cs.LG

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

本論文は、動画生成モデルにおける透かし抽出の同期依存性と時間的歪みへの脆弱性を解決するため、フレーム順序に依存しないシャッフルキー方式と時間的歪みに耐性のある差分アテンション機構を導入した、高忠実度かつ高頑健なテキストから動画への生成透かしフレームワーク「SKeDA」を提案するものです。

Yang Yang, Xinze Zou, Zehua Ma + 2 more2026-03-03🤖 cs.AI

Stateful Token Reduction for Long-Video Hybrid VLMs

本論文は、アテンションと状態空間モデル(Mamba)を混在させるハイブリッド型長動画 VLM において、トークンの重要度が層間で変動する特性を踏まえ、段階的な削減スケジュールと言語意識型スコアリングを導入することで、精度を維持しつつプリフィル速度を大幅に向上させる手法を提案しています。

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko + 7 more2026-03-03🤖 cs.AI

Optimisation of SOUP-GAN and CSR-GAN for High Resolution MR Images Reconstruction

この研究は、アーキテクチャの改良やハイパーパラメータ調整、スペクトル正規化などの手法を用いて SOUP-GAN と CSR-GAN を最適化し、高解像度の MRI 画像再構成においてそれぞれ異なる長所(CSR-GAN は高周波詳細とノイズ低減、SOUP-GAN は構造保持とノイズ低減)を示すことで、医療診断の精度向上に寄与する画像品質改善手法を提案したものです。

Muneeba Rashid, Hina Shakir, Humaira Mehwish + 2 more2026-03-03⚡ eess