CrossLLM-Mamba: Multimodal State Space Fusion of LLMs for RNA Interaction Prediction

本論文は、生物学的大規模言語モデルの静的な融合の限界を克服し、双方向 Mamba エンコーダを用いた状態空間アライメント手法「CrossLLM-Mamba」を提案することで、RNA-タンパク質、RNA-小分子、RNA-RNA 間の相互作用予測において最先端の性能を達成したことを示しています。

Rabeya Tus Sadia, Qiang Ye, Qiang Cheng2026-02-27🧬 q-bio

Enabling clinical use of foundation models in histopathology

本研究は、基礎モデルの再学習を行わずに下流タスクのモデル訓練時に新しいロバスト性損失を導入することで、組織病理学における基礎モデルの技術的ばらつきへの感度を低減し、臨床実装に適した頑健で高精度な診断モデルの開発を可能にすることを示しています。

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee + 31 more2026-02-27🤖 cs.AI

AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

本論文は、単一 UAV 動画からの動的 4 次元再構成における深度曖昧性と不安定な運動推定という課題を、モノクロ幾何学的リフティングと物理的制約(接地、直立安定性、軌道滑らかさ)を組み合わせた最適化により解決し、実世界データセットを含めて最先端の性能を実現する「AeroDGS」を提案するものである。

Hanyang Liu, Rongjun Qin2026-02-27🤖 cs.AI

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

本論文は、手動セグメンテーションを不要としながら、臓器に焦点を当てたアテンション損失関数(OFA)を用いた深層学習フレームワークを開発することで、腎腫瘍の悪性度を従来手法よりも高精度に予測し、臨床意思決定を支援する新しいアプローチを提案しています。

Zhengkang Fan, Chengkun Sun, Russell Terry + 2 more2026-02-27🤖 cs.AI

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

本研究は、1 次元の SELFIES 配列、2 次元の分子グラフ、3 次元のコンフォーマー集合をクロスアテンションで統合し、実験的コンテキストを FiLM で条件付けることで、分子物性予測の精度を大幅に向上させるマルチモーダルモデル「MolFM-Lite」を提案し、その有効性を包括的な評価とオープンソース化によって実証したものである。

Syed Omer Shah, Mohammed Maqsood Ahmed, Danish Mohiuddin Mohammed + 2 more2026-02-27🤖 cs.LG

SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

本論文は、マルチモーダル大規模言語モデルが画像内のテキストを真に「読んでいる」か否かを検証し、テキスト提示に依存する「モダリティの怠惰」を発見した上で、学習サンプルを画像上にテキストを可視化して提示する「SimpleOCR」という構造制約付きのトレーニング戦略を提案し、アーキテクチャ変更なしに分布外タスクでの性能を大幅に向上させることを示しています。

Yibo Peng, Peng Xia, Ding Zhong + 6 more2026-02-27🤖 cs.LG

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

本論文は、プライバシーと遅延の懸念を解消するため、ストリーミング制約下で非同期スレッドを用いてビデオを軽量テキストに変換し、エッジデバイス上でリアルタイムにエピソード記憶に基づく質問応答を実現するマルチモーダル大規模言語モデルの手法を提案し、クラウドベースのソリューションと競合する精度と応答速度を達成したことを示しています。

Giuseppe Lando, Rosario Forte, Antonino Furnari2026-02-27💻 cs

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

本論文は、プライバシーと再現性を確保しつつ、オープンソースの視覚言語モデルと局所的な検索拡張生成(RAG)を活用して、マンモグラフィーのレポート生成および多タスク分類を可能にする拡張可能なローカルパイプライン「MammoWise」を提案し、その有効性を検証したものである。

Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar + 1 more2026-02-27💻 cs

Space Syntax-guided Post-training for Residential Floor Plan Generation

本論文は、住宅間取り生成において事前学習モデルが軽視しがちな公共空間の支配性や機能的階層性を、空間構文の知識を非微分可能なオラクルを通じて明示的に注入する「SSPT」という事後学習パラダイムを提案し、PPO による強化学習戦略が計算効率と性能の両面で優れていることを示しています。

Zhuoyang Jiang, Dongqing Zhang2026-02-27🤖 cs.LG

Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

この論文は、自己教師あり学習による視覚辞書の学習と意味分解を組み合わせて、参照画像と自然言語による編集指示から意図を正確に反映しつつ多様性のある画像を検索する新しいコンポーズ画像検索手法「Pix2Key」を提案し、DFMM-Compose ベンチマークで既存手法を上回る性能を示したことを報告しています。

Guoyizhe Wei, Yang Jiao, Nan Xi + 4 more2026-02-27💻 cs

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

この論文は、T1 強調 MRI と FLAIR MRI から Tau-PET を合成し、各モダリティの寄与を可視化することでアルツハイマー病の病態解析を可能にする、部分情報分解に基づくベクトル量子化エンコーダと構造エッジ条件付き Half-UNet デコーダを組み合わせた「DisQ-HNet」という新しいフレームワークを提案するものです。

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

本論文は、幾何条件間の依存関係を軽減する逐次学習戦略、多視点階層記述による微細なテキストガイダンス、および高周波要素への感度を高める周波数誘導構造損失という 3 つの革新を導入し、自律運転システムの検証に不可欠な多様な運転シーンの生成において最先端の忠実度と制御性を実現する「DrivePTS」を提案しています。

Zhechao Wang, Yiming Zeng, Lufan Ma + 4 more2026-02-27🤖 cs.AI

SwiftNDC: Fast Neural Depth Correction for High-Fidelity 3D Reconstruction

SwiftNDC は、ニューラル深度補正フィールドを用いてクロスビュー整合性のある深度マップを生成し、これにより 3D ガウシアンスプラッティングの初期化を改善することで、メッシュ再構築の高速化と新規視点合成の画質向上を実現する高速かつ汎用的な 3D 再構築フレームワークです。

Kang Han, Wei Xiang, Lu Yu + 3 more2026-02-27💻 cs

Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise

この論文は、実世界の複雑なノイズ環境において、連続的に変化する汚染強度を再構成誤差から推定し、品質スコアに基づく階層的学習戦略を採用することで、既存手法の限界を克服する「品質感知型ロバスト多視点クラスタリング(QARMVC)」フレームワークを提案し、複数のベンチマークデータセットで最先端の性能を実証したものである。

Peihan Wu, Guanjie Cheng, Yufei Tong + 2 more2026-02-27🤖 cs.AI

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

本論文は、拡散モデルの生成評価において従来の指標が大きなガイダンススケールへのバイアスを持つという致命的な欠陥を指摘し、公平な比較を可能にする新たな評価フレームワーク「GA-Eval」を提案するとともに、既存のガイダンス手法の多くが実際には標準的な CFG よりも劣ることを実証し、この分野の評価パラダイムの見直しを促しています。

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

本論文は、拡散モデルの事前知識を効率的に活用しつつ、カメラ姿勢やテスト時の勾配最適化を必要とせず、数秒の推論時間で少数の未 poses 画像から高品質な 3D ガウススプラッティングを生成する、反復的なフィードフォワードフレームワーク「GIFSplat」を提案しています。

Tianyu Chen, Wei Xiang, Kang Han + 4 more2026-02-27💻 cs