cs.AI 편의 논문 | Gist.Science

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

이 논문은 대규모 언어 모델의 도구 선택에서 발생하는 편향을 체계적으로 평가하고, 메타데이터 정렬과 사전 학습 노출이 주요 원인임을 규명하며, 이를 완화하기 위한 경량화된 필터링 및 균등 샘플링 전략을 제안합니다.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

이 논문은 광산 작업의 안전 위반을 감지하기 위해 도메인 특화 데이터셋과 효율적인 모듈을 도입한 멀티모달 비전 - 언어 프레임워크인 MonitorVLM 을 제안하며, 기존 모델 대비 정밀도, 재현율, F1 점수에서 크게 향상된 성능을 입증합니다.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

이 논문은 웨어러블 EEG 를 활용한 수면 단계 분류에서 라벨 효율성을 극대화하기 위해 자기지도 학습 (SSL) 을 체계적으로 평가한 결과, SSL 이 라벨이 부족한 상황에서도 기존 지도 학습보다 최대 10% 높은 성능을 달성하고 임상 수준 정확도를 보여준다는 것을 입증했습니다.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

이 논문은 기존 음성 활동 감지 (VAD) 모델의 특정 계층에 대해 하이퍼네트워크를 통해 개인화된 가중치를 생성하는 'HyWA'를 제안하여, 기존 스피커 조건부 방법보다 성능을 향상시키고 동일한 아키텍처 재사용을 통한 배포 용이성을 확보했다고 요약할 수 있습니다.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

이 논문은 교차 모달 어텐션 융합, Grad-CAM++ 기반 설명, 그리고 '발견 - 수정' 피드백 루프를 통합한 설명 가능하고 편향 감지형 생성 프레임워크를 제안하여, 다중 모달 데이터와 텍스트 분류 벤치마크에서 기존 모델보다 뛰어난 성능과 공정성을 입증했습니다.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

이 논문은 대규모 데이터 의존성 한계를 극복하고 기하학적 일관성을 유지하며 프롬프트 기반 커스터마이징을 가능하게 하는 새로운 다중 뷰 생성 프레임워크인 MVCustom 을 제안합니다.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

이 논문은 실제 데이터의 공분산 행렬과 타겟 함수의 다항식 분해 두 가지 통계량만으로 커널 회귀의 학습 곡선을 예측하는 '헤르미트 고유구조 가정 (HEA)'을 제안하고, 이를 통해 실제 이미지 데이터에서 MLP 의 학습 패턴까지 설명할 수 있음을 보여줍니다.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

본 논문은 LLM 추론 시 공유 접두사 프롬프트를 활용한 KV 캐시 재사용 시 발생하는 메모리 문제를 해결하기 위해, PCA 기반 특징 비상관화, 적응형 양자화 및 엔트로피 부호화를 결합하여 모델 정확도 저하 없이 최대 20 배 이상의 압축률을 달성하는 경량 변환 코더 'KVTC'를 제안합니다.

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

이 논문은 고온 초전도체 분야를 사례로 삼아, 전문가가 선별한 1,726 편의 논문과 67 개의 질문을 기반으로 구축된 평가 체계를 통해 RAG 기반 시스템이 기존 폐쇄형 LLM 보다 전문적인 과학적 질문에 대해 더 포괄적이고 증거 기반의 답변을 제공함을 입증했습니다.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

이 논문은 텍스트와 이미지 이해를 넘어 외부 도구를 능동적으로 활용하는 에이전트형 멀티모달 모델 'DeepEyesV2'를 제안하며, 도구 사용 패턴 확립을 위한 콜드스타트 단계와 정교화를 위한 강화학습 단계를 포함한 2 단계 학습 파이프라인과 새로운 벤치마크 'RealX-Bench'를 통해 실세계 다중 능력 통합의 효과를 입증합니다.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

이 논문은 조건부 안내 변수에 포함된 정보를 명시적으로 제거하여 잠재 흐름 정합 (latent flow matching) 을 기반으로 의미 있는 잔차 표현을 생성하고, 이를 통해 학습된 표현에서 포착되지 않은 변인들을 효과적으로 발견하고 제어할 수 있는 'What We Don't C'라는 새로운 접근법을 제시합니다.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

본 논문은 주파수 공간의 진폭과 픽셀 공간의 값을 모두 대상으로 그라디언트 기반의 민감도 맵을 활용하여 적응형 증강을 수행하는 D-GAP 을 제안함으로써, 도메인 간 편향을 줄이고 실세계 및 벤치마크 데이터셋에서 아웃오브도메인 강인성을 크게 향상시킵니다.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

이 논문은 자동차 원격 측정 데이터의 느린 드리프트와 빠른 스파이크 동역학을 분리하여 처리하는 듀얼 경로 라우팅 메커니즘을 도입한 STREAM-VAE 를 제안함으로써, 기존 재구성 기반 방법들의 한계를 극복하고 다양한 작동 모드에서 안정적인 이상 탐지 성능을 달성했습니다.

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

이 논문은 산재된 원격탐사 기초 모델 (RSFM) 정보를 체계화한 데이터베이스 'RS-FMD'를 구축하고, 이를 기반으로 제약 조건을 고려하여 자연어 질의에 맞춰 최적의 모델을 자동 선정하고 그 이유를 설명하는 에이전트 'REMSA'를 제안하며, 전문가 검증 벤치마크를 통해 기존 방법보다 우수한 성능을 입증했습니다.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

이 논문은 불완전하고 민감한 의료 데이터를 기반으로 대규모 언어 모델의 특정 지식을 정밀하게 삭제하면서도 핵심 의료 역량은 유지하기 위해 기하학적 제약과 개념 인식 토큰 개입을 통합한 계층적 이중 전략 언러닝 프레임워크를 제안하고, 이를 통해 높은 망각률과 지식 보존률을 달성함과 동시에 파라미터 수정을 최소화하여 규제 준수 및 윤리적 기준을 충족함을 보여줍니다.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

이 논문은 실제 상업적 타당성을 평가하기 위해 SEC filings 및 AIS 손상 보고서와 같은 산업 표준 데이터를 Isaac Sim 시뮬레이션과 결합한 최초의 물리 기반 경제 내비게이션 벤치마크인 'CostNav'를 제안하며, 기존 내비게이션 방법론들이 모두 경제적 손실을 초래한다는 점을 규명했습니다.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

← 이전 다음 →

cs.AI

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Predicting kernel regression learning curves from only raw data statistics

KV Cache Transform Coding for Compact Storage in LLM Inference

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

DeepEyesV2: Toward Agentic Multimodal Model

What We Don't C: Manifold Disentanglement for Structured Discovery

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Maximum Risk Minimization with Random Forests

cs.AI

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Predicting kernel regression learning curves from only raw data statistics

KV Cache Transform Coding for Compact Storage in LLM Inference

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

DeepEyesV2: Toward Agentic Multimodal Model

What We Don't C: Manifold Disentanglement for Structured Discovery

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Maximum Risk Minimization with Random Forests

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study