Axiomatic On-Manifold Shapley via Optimal Generative Flows
이 논문은 최적 생성 흐름을 기반으로 한 공리적 온-매니폴드 샤플리 가치 이론을 제시하여, 기존 방법의 오프-매니폴드 아티팩트를 해결하고 재매개변수화 불변성 및 기하학적 효율성을 보장하는 새로운 XAI 기법을 제안합니다.
4386 편의 논문
이 논문은 최적 생성 흐름을 기반으로 한 공리적 온-매니폴드 샤플리 가치 이론을 제시하여, 기존 방법의 오프-매니폴드 아티팩트를 해결하고 재매개변수화 불변성 및 기하학적 효율성을 보장하는 새로운 XAI 기법을 제안합니다.
이 논문은 이진 비디오 레벨 라벨만 사용하는 약한 지도 학습의 한계를 극복하기 위해 EM 기반 최적화, 학습 불필요한 시간적 일관성 정제, 그리고 제안 간 관계를 모델링하는 그래프 기반 정제 모듈을 도입하여 GEM-TFL 을 제안하고, 완전 지도 학습 방법과 유사한 성능으로 비디오 내 조작 구간을 정확하게 국소화하는 것을 목표로 합니다.
이 논문은 진화적 탐색을 통해 확산 모델의 단계별 희소성 스케줄을 자동 최적화하고 메모리 효율적인 가중치 라우팅을 적용하여, 이미지 품질 저하 없이 실제 가속화를 실현하는 새로운 구조적 가지치기 프레임워크인 Diff-ES 를 제안합니다.
이 논문은 NK 세포와 종양 세포 간의 상호작용 궤적을 학습하여 세포 사멸 결과를 예측하고 해석 가능한 잠재적 행동 모드를 제공하는 새로운 순환 상태 공간 모델인 'BLINK'를 제안합니다.
이 논문은 다양한 모달리티와 도메인 간 차이를 극복하고 단일 모델로 보행자 속성 인식 작업을 통합적으로 수행할 수 있는 Transformer 기반의 UniPAR 프레임워크를 제안하며, 실험을 통해 기존 최첨단 방법과 유사한 성능과 향상된 일반화 능력을 입증합니다.
이 논문은 그라디언트 불안정성과 날카로운 최소값 수렴 문제를 해결하기 위해 전역 의미적 가이드를 활용한 자기 재배향 적대적 스타일 교란 (SRasP) 을 제안하여, 교차 도메인 퓨샷 학습의 일반화 성능을 향상시키는 방법을 제시합니다.
이 논문은 비전-언어-행동 (VLA) 모델의 추론 시 복잡성을 동적으로 감지하여 단순 작업은 즉시 수행하고, 모호한 상황은 추론하며, 이상 징후가 감지되면 실행을 중단하는 '행동, 사고, 중단' 적응형 프레임워크를 제안합니다.
이 논문은 복잡한 조명 환경에서 반사광을 효과적으로 모델링하고 기하학적 사전 지식을 활용하여 광택 표면의 3D 재구성을 혁신적으로 개선한 'SSR-GS' 프레임워크를 제안합니다.
이 논문은 단순한 폐 영역 잘라내기 (lung cropping) 전처리 기법이 진단 정확도를 유지하면서 인종적 편향을 줄이는 효과적인 방법임을 규명하여, 공정한 AI 의료 모델 개발에 중요한 통찰을 제공합니다.
이 논문은 일반 카메라 보정 시 발생할 수 있는 모션 블러 문제를 해결하기 위해 기하학적 제약과 국소 파라미터 조명 모델을 활용하여 특징점 위치와 공간적으로 변하는 점 확산 함수를 동시에 추정하는 새로운 방법을 제안하고 그 유효성을 실험적으로 입증합니다.
이 논문은 그래프 토폴로지를 활용한 세밀한 교차 모달 대비 학습과 모달리티 적응형 그래프 지시 미세 조정을 통해 대규모 언어 모델이 멀티모달 그래프에서 효과적으로 추론할 수 있도록 하는 'Mario'라는 통합 프레임워크를 제안합니다.
이 논문은 시각적 단서에서 학습 가능한 논리 규칙을 도입하여 환자 활동 인식의 정확도를 높이고, 위험 요인의 원인을 설명하며 개입 효과를 시뮬레이션할 수 있는 새로운 프레임워크인 'Logi-PAR'을 제안합니다.
이 논문은 의료 이미지 세그멘테이션에서 발생하는 클래스 불균형 문제를 해결하기 위해, 학습 가능한 클래스 프록시와 레이블 데이터를 활용한 양방향 정렬 및 앵커 제약 기법을 통해 특징 분포를 구조화하는 '의미론적 클래스 분포 학습 (SCDL)' 프레임워크를 제안하고, Synapse 및 AMOS 데이터셋에서 소수 클래스를 포함한 전반적인 성능을 획기적으로 향상시킨 결과를 보여줍니다.
이 논문은 위성 영상과 물리 법칙을 결합한 SPyCer 모델을 통해 지상 센서의 희소성을 보완하고 물리적으로 일관된 근지면 기온을 연속적으로 추정하는 새로운 방법을 제시합니다.
이 논문은 RGB-D 센서, 촉각 피드백, 충돌 인식 모션 플랜닝을 갖춘 디지털 트윈 기반 양팔 로봇 시스템과 시각 언어 모델 (VLM) 을 통합하여, 변형 가능한 의류와 이물질을 실시간으로 분류 및 식별하는 자동화된 텍스타일 선별 시스템의 실현 가능성을 입증했습니다.
이 논문은 다양한 사이트와 프로토콜에 걸쳐 방대한 ASL CBF 데이터를 기반으로 3D 마스킹 오토인코더를 활용한 자기지도 학습 프레임워크인 ICHOR 을 제안하여, 하류 진단 및 품질 예측 작업에서 기존 방법들보다 우수한 성능을 입증했습니다.
이 논문은 다중 에이전트 시스템의 실시간 협업 인식에서 발생하는 시간적 지연과 잡음 문제를 해결하기 위해, 비동기적 특징 정렬, 잡음 제거, 적응형 특징 선택을 통합한 CATNet 을 제안하고 다양한 데이터셋에서 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 noisy 한 검색과 체계적인 지식베이스의 특성으로 인해 기존 멀티모달 모델이 지식 기반 시각 질문 답변 (KB-VQA) 에서 겪는 어려움을 해결하기 위해, 데이터 생성과 샘플링 커리큘럼을 통해 추론 능력을 체계적으로 고취시키는 'Wiki-R1' 프레임워크를 제안하고, 이를 통해 Encyclopedic VQA 와 InfoSeek 벤치마크에서 새로운 최첨단 성능을 달성했음을 보여줍니다.
이 논문은 사전 학습된 비전 트랜스포머 (ViT) 의 중간 레이어가 분포 변화에 따라 최적의 성능을 내는 위치가 달라지며, 심한 분포 변화 시에는 피드포워드 네트워크 내부 활성화가, 약한 변화 시에는 멀티헤드 셀프 어텐션의 정규화된 출력이 각각 최적의 OOD 탐지 지점임을 규명합니다.
이 논문은 웹 에이전트 연구를 가속화하기 위해 시각, 구조, 행동 데이터의 삼중 정렬을 포함한 대규모 인간 주석 웹 상호작용 데이터셋 'WebChain'을 소개하고, 이를 활용한 듀얼 미드-트레이닝 기법으로 웹 에이전트의 성능을 획기적으로 개선했음을 보고합니다.