cs 件の論文 | Gist.Science

Why iCloud Fails: The Category Mistake of Cloud Synchronization

本論文は、iCloud が分散因果グラフを線形時系列に投影するというカテゴリーの誤りに起因し、Time Machine や Git などの開発ワークフローと根本的に互換性がなく、Open Atomic Ethernet のトランザクション意味論による物理的現実との整合性が解決策であると論じています。

Paul Borrill2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

本論文は、拡散モデルの計算コストとメモリ制約を克服し、可変サイズの画像に対して境界アーティファクトを排除した高品質な超解像を実現するために、重なり合うパッチ間での結合デノイジングを効率的に実行する「InfScene-SR」という手法を提案するものである。

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

本論文は、単眼 3D 物体検出のデータ効率を向上させるため、画像から物体・背景・カメラ姿勢を分解し、これらを動的に再構成して多様な合成訓練データを生成するオンライン手法を提案し、KITTI および Waymo データセットにおいて複数のモデルで有効性を検証したものである。

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

本論文は、拡散モデルの軽量微調整とサイクル整合性に基づく双方向学習、および自己改善プロセスを導入することで、ロゴと背景の複雑な相互作用を高精度に分解・再構成する汎用的な画像層分解フレームワークを提案するものです。

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

この論文は、強化学習を必要とせず、推論の各段階で視覚的証拠を動的に抽出・統合して多モーダル推論を反復的に補正する、軽量かつトレーニングフリーのプラグアンドプレイ型フレームワーク「See It, Say It, Sorted」を提案し、大規模視覚言語モデルの視覚的ハルシネーションを大幅に低減しながら推論精度を向上させることを実証しています。

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

本論文では、不安定な学習が課題である自律型強化学習（ARL）の安定性を制御された環境で分析するフレームワーク「ARLArena」を提案し、その知見に基づいて安定した学習を実現する手法「SAMPO」を開発し、多様なタスクで安定した学習と高い性能を達成することを示しています。

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

この論文は、セグメンテーションマスクをランレングス符号化（RLE）で離散化し、言語モデルによる自己回帰生成を通じて画像および動画のセマンティックセグメンテーションとパン옵ティックセグメンテーションを統一的に実現する新しい手法を提案し、限られた計算資源下でも最先端の性能を達成できることを示しています。

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs

本論文は、オムニモーダル大規模言語モデルにおける感情理解と表現の課題を解決するため、微細なマルチモーダル知覚からテキスト応答への推論を強制する「感情的チェーン・オブ・スーグト（E-CoT）」を導入し、実世界データと評価ベンチマークを構築した統合フレームワーク「EmoOmni」を提案するものである。

Wenjie Tian, Zhixian Zhao, Jingbin Hu, Huakang Chen, Haohe Liu, Binshen Mu, Lei Xie2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

本論文は、従来の手法に比べて計算コストが低く手動調整が不要な、Cryo-EM 密度マップ制約を組み込んだワンステップ拡散モデル「CryoNet.Refine」を開発し、タンパク質複合体や DNA/RNA-タンパク質複合体の構造精密化を大幅に高速化・自動化する手法を提案しています。

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

この論文は、AI エージェントが研究の速度や網羅性を向上させる一方で理論的独創性には限界があるとし、認知タスクの特性に基づいて「Vibe Researching」の概念を提唱し、社会科学における人間の役割と教育のあり方について考察しています。

Yongjun Zhang2026-03-10💻 cs

Decomposing Physician Disagreement in HealthBench

HealthBench における医師間の評価不一致の大部分は構造的な要因に起因するものの、文脈欠如や曖昧な表現といった「解消可能な不確実性」が不一致を有意に増大させる一方、本質的な医学的曖昧さは影響を与えないという見解から、評価シナリオにおける情報ギャップの解消が合意率向上への具体的な改善策となり得ると結論付けています。

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

この論文は、ゼロショット合成画像検索（ZS-CIR）において、テキストから画像（T2I）と画像から画像（I2I）の両方の利点を「検索・検証・洗練」というパイプラインで動的に統合し、トレーニング不要で既存の手法を大幅に上回る性能を実現するフレームワーク「WISER」を提案するものです。

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

本論文は、従来のガウススプラッティング手法が抱える長期シーケンスや大規模運動への対応困難、および既存の動画コーデックとの非互換性を解決するため、ガウス属性を構造化された UV アトラスに変換し標準動画コーデックと互換性のある効率的な 4 次元 volumetric video 表現「PackUV」とその最適化手法「PackUV-GS」を提案し、大規模データセット「PackUV-2B」を用いた実験で高品質かつ長期にわたるレンダリングの成功を実証したものである。

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

On Sample-Efficient Generalized Planning via Learned Transition Models

本論文は、Transformer ベースの直接行動予測アプローチの限界を克服し、学習された遷移モデルを用いて中間状態を予測する手法を提案することで、より少ないデータと小規模なモデルで分布外汎化性能を向上させることを実証したものである。

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

この論文は、高価なアノテーションを必要とせず、強化学習に基づく AP-GRPO 手法を用いて大規模マルチモーダルモデルが高解像度画像の重要な領域を自律的に特定・検証し、推論性能を向上させる「HART」というフレームワークを提案するものです。

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

PEPA: a Persistently Autonomous Embodied Agent with Personalities

本論文は、外部からの指示に依存せず、人格特性を内生的な組織原理として活用し、自律的に目標を生成・進化させることで、動的な環境における永続的な自律性を達成する新しい認知アーキテクチャ「PEPA」を提案し、実世界のロボットによる実証実験を通じてその有効性を立証したものである。

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

この論文は、アテンションの二次的な計算コストを回避し、高解像度画像処理においてスケーラビリティとエネルギー効率を大幅に向上させるために、拡散過程とマルコフ連鎖の中心性指標に基づいた「無限自己アテンション（InfSA）」とその線形近似版「Linear-InfSA」を提案し、ImageNet での精度向上と超大解像度推論の実現を実証しています。

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

本論文は、大規模データセット「Actor-18M」を基に、多様な視点や動きにおいても全身の同一性を維持する動画生成フレームワーク「WildActor」を提案し、既存手法が抱える顔中心の偏りや rigid な動きの問題を解決するものです。

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

この論文は、生成モデルや知覚指向の手法が主流となった現代において、画像処理システムの評価を単一の数値指標に依存するのではなく、人間の知覚やユーザーの好みに即した人間中心のアプローチへと転換すべきであると主張しています。

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

Sustainable Care: Designing Technologies That Support Children's Long-Term Engagement with Social Issues

本論文は、子供たちが社会的課題に関わる際に不安や燃え尽き症候群に陥らず、持続的な市民参加を促すための「持続可能なケア」という設計レンズを提案し、CCI 分野の研究者や実践者による研究アジェンダの策定を目的としたワークショップを報告するものである。

JaeWon Kim, Aayushi Dangol, Rotem Landesman, Alexis Hiniker, McKenna F. Parnes2026-03-10💻 cs

← 前へ次へ →