cs.AI 件の論文 | Gist.Science

Grounding Synthetic Data Generation With Vision and Language Models

本論文は、リモートセンシング分野における合成データの解釈可能な生成と評価を可能にするビジョン・言語統合フレームワークを提案し、実画像と合成画像、セグメンテーションマップ、説明文を含む大規模データセット「ARAS400k」を構築することで、合成データを用いた拡張学習が実データのみを用いた学習よりも高い性能を発揮することを示しました。

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

LLM エージェントが知識の検索劣化やルール合成の困難さ、古くなった知識の検出に直面する課題に対し、確定的なルール検索、ベイズ推論に基づく矛盾認識メモリ、そしてパレート最適化を用いたプロンプト進化ループ「COMPASS」を統合した PRECEPT 枠組みが、テスト時適応において大幅な性能向上と頑健性を達成することを示しています。

Arash Shahmansoori2026-03-11🤖 cs.AI

← 前へ次へ →

cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

When to Lock Attention: Training-Free KV Control in Video Diffusion

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Logics-Parsing-Omni Technical Report

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Ego: Embedding-Guided Personalization of Vision-Language Models

cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

MM-tau-p2^22: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

When to Lock Attention: Training-Free KV Control in Video Diffusion

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Logics-Parsing-Omni Technical Report

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Ego: Embedding-Guided Personalization of Vision-Language Models

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings