LiTo: Surface Light Field Tokenization
本論文は、RGB 深度画像を表面光場のサンプリングとして捉え、これをコンパクトな潜在ベクトルに符号化することで幾何形状と視点依存の見た目を統合的に表現する「LiTo」を提案し、単一画像から照明や材質を考慮した高品質な 3D 物体を生成する手法を示しています。
4777 件の論文
本論文は、RGB 深度画像を表面光場のサンプリングとして捉え、これをコンパクトな潜在ベクトルに符号化することで幾何形状と視点依存の見た目を統合的に表現する「LiTo」を提案し、単一画像から照明や材質を考慮した高品質な 3D 物体を生成する手法を示しています。
この論文は、YouTube のコメディ動画から学習した LLM 批評家と制作スタジオの役割を模倣したエージェント群を用いて、 iteratively な競争と評価を通じて SNL などのスケッチショーに匹敵する高品質なコメディ動画を自動生成する AI システム「COMIC」を提案しています。
本論文は、自動運転における複雑な交通環境での歩行者検出精度向上を目指し、視覚モデルではなく座標値の分布から欠損キープイントを学習する自己教師あり敵対学習フレームワーク「SDR-GAIN」を提案し、COCO および JAAD データセットでの実験により、既存手法を上回る高精度な欠損補完とマイクロ秒レベルのリアルタイム推論を両立したことを示しています。
この論文は、EEG 信号の時間・スペクトル特徴を融合するトランスフォーマーと、既存データから新規被験者への知識転移を可能にする被験者固有アダプターを組み合わせることで、RSVP-BCI のデコーディング性能を向上させつつ新規被験者の学習データを最小化し、システムの実用化を加速させる手法「TSformer-SA」を提案しています。
本論文は、複数のカメラ角度やフィールドの遮蔽といった課題に対処するため、3D サッカー場モデルとキーポイント、および検出されたラインを活用した非線形最適化パイプライン「PnLCalib」を提案し、既存手法を上回るカメラ較正精度とロバスト性を達成したことを示しています。
本論文は、事前学習済みの拡散モデルの強固な画像知覚能力を活用し、軽量な学生モデルへの知識蒸留を通じて汎化性能を維持・向上させることで、野生環境におけるブラインド画像品質評価(IQA)の最先端性能を達成する新たな手法「DP-IQA」を提案するものである。
本論文は、歴史的テストデータと地図ネットワークを活用して事前定義なしに高リスクシナリオを予測・生成する「ScenarioFuzz」を提案し、60.3% の時間削減と 103% のバグ発見率向上を実現するとともに、58 のバグと 54 の高リスクカテゴリを特定することで自動運転システムの安全性検証を革新したことを示しています。
本論文は、自動運転車における高解像度地図の更新を目的とした分散マルチエージェント環境でのQ学習単一エージェント手法の拡張性を評価し、個々のエージェントの学習負荷を軽減しつつ、ネットワーク全体の性能を向上させることで、音声・動画・HD地図などのトラフィックにおいて単一エージェント方式と比較して大幅な遅延改善を実現することを示しています。
この論文は、部分的観測性と報酬の希薄性という課題に直面する分散型マルチエージェント強化学習において、異種エージェント間の協調を促進するために、グラフニューラルネットワークを活用した新しい内在的報酬メカニズム「CoHet」を提案し、複数のベンチマークで最先端の手法を上回る性能を実証したものである。
本論文は、外れ値や重尾分布に対するロバスト性と大規模データへのスケーラビリティを両立するため、スパース誘導点法を Student-t プロセスに拡張した「スパース変分 Student-t プロセス(SVTP)」を提案し、UCI や Kaggle のデータセットを用いた実験で、スパースガウス過程と比較して外れ値を含むデータにおいて予測誤差を 40% 削減し、収束速度を最大 3 倍向上させることを実証しています。
この論文は、量子化とスパース化の不連続性が勾配伝搬に与える課題を、量子化を付加ノイズとして明示的にモデル化し、リッジ回帰に基づくノイズ除去デ量子化変換を導入することで解決し、任意の精度とスパース性で安定した超効率的なニューラルネットワークの訓練を可能にする統一フレームワークを提案しています。
本論文は、データセット凝縮において、従来のデータとラベルに加えて特徴量ラベルやアテンションラベルといった「特権情報」を合成して補助的な教師信号として活用する「DCPI」という手法を提案し、既存の手法と組み合わせることで画像認識タスクの性能を大幅に向上させることを示しています。
本論文は、テキストから物理的に整合性のある高品質な 3D 構成シーンを生成するために、3D ガウススプラッティングとシーングラフに基づく物理・レイアウト制約を統合した新しいフレームワーク「LayoutDreamer」を提案し、T3Bench などのベンチマークで最先端の性能を達成したことを示しています。
本論文では、MACHO 調査の 150 万の光曲線を用いて自己教師あり学習で事前学習された新しい基礎モデル「Astromer 2」を提案し、その埋め込み表現が先行モデルや既存モデルを大幅に凌駕し、特に少量のラベル付きデータでも高い分類性能を発揮することを示しています。
この論文は、セミバリューに基づくデータバリュエーションの有用性選択への依存性を解決するため、データポイントを低次元空間に埋め込む「空間的署名」の概念を導入し、有用性の変化に対する結果の堅牢性を定量化する実用的な手法を提案しています。
この論文は、中国語の電子カルテにおける ICD 自動コーディングの課題を解決するため、4 つのコーディング軸に基づく多軸知識と臨床エビデンスの検証を組み合わせた新しいフレームワーク「MKE-Coder」を提案し、その有効性を大規模データセットと実証評価で実証したものである。
本論文は、大規模言語モデル(LLM)を既存の経路計画アルゴリズムの事後処理アドバイザーとして活用し、幻覚を抑制する戦略を組み合わせることで、多様な地形におけるコスト効率の高い経路計画を可能にする「LLM-Advisor」というフレームワークを提案し、その有効性を検証した研究です。
この論文では、表形式データ向けに設計されたハイパーネットワークベースの分類モデル「HyConEx」を提案し、予測結果と並行して決定根拠を説明する対照的説明(counterfactual explanations)を生成する、予測と説明を統合した画期的な深層学習モデルを紹介しています。
この論文は、カテゴリー理論における「説明関手」を導入することで、既存のポストホック手法が抱える矛盾や忠実性の欠如を解決し、AI 分類器の論理的推論と説明の整合性を理論的に保証する手法を提案し、合成ベンチマークでその有効性を検証したものである。
本論文は、自然言語と実行可能コードの間の推論ギャップを解決し、自動車ソフトウェアリリース分析において既存手法を上回る精度と高速性を達成する、関係代数を中間表現として活用した新しい LLM エージェント「GateLens」を提案し、その有効性を実証したものである。