Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models
이 논문은 의료 영상 분할 모델의 블랙박스 문제를 해결하기 위해 인과 추론 프레임워크를 활용하여 입력 영역과 네트워크 구성 요소가 분할 결과에 미치는 영향을 정량화하는 새로운 설명 기법을 제안하고, 기존 방법보다 더 충실한 설명을 제공하며 다양한 모델의 인지 전략 차이를 규명함을 보여줍니다.
9967 편의 논문
이 논문은 의료 영상 분할 모델의 블랙박스 문제를 해결하기 위해 인과 추론 프레임워크를 활용하여 입력 영역과 네트워크 구성 요소가 분할 결과에 미치는 영향을 정량화하는 새로운 설명 기법을 제안하고, 기존 방법보다 더 충실한 설명을 제공하며 다양한 모델의 인지 전략 차이를 규명함을 보여줍니다.
이 논문은 대규모 이미지 데이터셋의 저장 공간을 줄이면서도 모델 학습에 필수적인 정보를 보존하기 위해, 이미지 내 색상 중복성을 제거하고 모델이 인식하는 중요한 색상을 선택적으로 유지하는 '데이터셋 색상 양자화 (DCQ)'라는 새로운 프레임워크를 제안하고 다양한 벤치마크에서 그 효과를 입증합니다.
이 논문은 안전하지 않은 텍스트 프롬프트의 악의적 의도를 참조 이미지의 시각적 지시문으로 위장하여 이미지 - 비디오 생성 모델을 우회하는 '시각적 지시 주입 (VII)'이라는 새로운 훈련 없는 탈옥 프레임워크를 제안하고, 네 가지 상용 모델에서 83.5% 의 높은 공격 성공률을 입증합니다.
이 논문은 Gaussian Splats 와 Mesh 를 결합한 3D 표현과 비디오 확산 모델을 활용하여, 다양한 궤적과 차량을 자유롭게 편집하면서도 높은 사실감과 일관성을 유지하는 자율주행 시뮬레이션 프레임워크 'HorizonForge'를 제안합니다.
이 논문은 단안 깊이 정보에서 계산된 빛 - 기하학적 상호작용 (LGI) 맵을 도입하여 물리적으로 일관된 그림자 생성과 재조명을 위한 통합 파이프라인을 제안하고, 이를 학습하기 위한 대규모 데이터셋을 구축하여 현실감과 일관성을 크게 향상시켰습니다.
이 논문은 사용자로부터의 상세한 지시 없이도 미적 의도를 추론하고 트리 탐색을 통해 다단계 편집을 계획하며 폐루프 피드백을 통해 결과를 정제하는 자율적 사진 편집 시스템인 PhotoAgent 와 이를 평가하기 위한 UGC-Edit 벤치마크를 제안합니다.
이 논문은 비전, 오디오, 언어를 통합한 심층 추론과 도구 사용을 평가하기 위한 벤치마크 'OmniGAIA'와 이를 기반으로 한 원천 오모달 에이전트 'OmniAtlas'를 제안하여 차세대 범용 AI 어시스턴트 개발을 위한 중요한 진전을 이루었다고 요약할 수 있습니다.
이 논문은 UI 디자인 시스템을 위해 CIE XYZ 를 지각적으로 조직화된 Lab 표현으로 변환하는 72 매개변수 분석적 색상 공간인 HELMLAB 을 제안하며, COMBVD 데이터셋에서 CIEDE2000 대비 20.2% 의 STRESS 감소와 높은 정밀도의 역변환을 통해 지각적 거리 측정을 개선하고 다양한 디자인 시스템 도구를 제공함을 보여줍니다.
이 논문은 기존 벤치마크의 한계를 극복하고 현실적이고 복잡한 시각적 시나리오에서 장기적 도구 활용 능력을 평가하기 위해 25 개의 하위 도메인과 7 개 카테고리에 걸친 'AgentVista'라는 새로운 멀티모달 에이전트 벤치마크를 소개하며, 최신 모델들이 이러한 과제를 해결하는 데 여전히 큰 격차가 있음을 보여줍니다.
이 논문은 상태 정보 없이 이미지 기반 궤적 데이터만으로 잠재 공간에서 도달 가능 영역 (ROA) 을 추정하는 새로운 방법인 V-MORALS 를 제안합니다.
이 논문은 전 슬라이드 이미지 (WSI) 내의 다중 스케일 상호작용과 공간적 계층 구조를 모델링하여 기존 MIL 기반 모델보다 생존 예측 성능을 크게 향상시킨 계층적 다중 스케일 지식 인식 그래프 네트워크 (HMKGN) 를 제안하고 TCGA 코호트에서 그 유효성을 입증합니다.
이 논문은 스마트폰과 클라우드 - 엣지 협업 아키텍처를 활용하여 저비용으로 대규모 고품질 안구 중심 (Egocentric) 상호작용 데이터를 수집하는 'AoE' 시스템을 제안함으로써, embodied AI 의 확장성을 높이고 실세계 일반화 성능을 향상시키는 방법을 제시합니다.
이 논문은 40 명의 소규모 fMRI 데이터를 활용한 전구기 파킨슨병 탐지 연구에서, 피험체 단위의 엄격한 분할 평가가 필수적임을 입증하고, 데이터 부족 환경에서는 모델의 용량이 깊이보다 일반화 성능에 더 중요한 영향을 미치며 경량 모델인 MobileNet 이 가장 우수한 성능을 보임을 규명했습니다.
이 논문은 이산적 의사결정 시스템에서 표준 정확도 지표가 놓치는 '확신 있는 오류'를 식별하기 위해 확신과 유효성을 구분하는 '확신 - 유효성 (CVS)' 프레임워크를 제안하고, 모호한 데이터에 대한 모델의 확신 유보가 오히려 필수적인 기능임을 입증합니다.
이 논문은 자율주행 열차용 다중 센서 데이터의 품질을 자동으로 검증하여 수동 작업량을 줄이고 시스템 개발을 가속화하는 오픈소스 도구를 제안하며, 9 가지 일반 오류를 탐지하는 데 높은 정밀도를 입증했습니다.
이 논문은 데이터가 부족한 환경에서 비주얼-언어 모델을 활용하여 에너지 성능 증명서 (EPC) 평가를 위한 비용 효율적인 자동화 프레임워크인 '다중 모달 모듈 체인 오브 생각 (MMCoT)'을 제안하고, 영국 주거용 건물 데이터셋을 통해 기존 프롬프팅 방식보다 통계적으로 유의미한 성능 향상을 입증했습니다.
본 논문은 고차원 3D 형상 표현의 학습 난이도와 기존 모델의 모드 붕괴 문제를 해결하기 위해, 확산 모델을 활용해 절단면을 기반으로 내부 구조를 확률적으로 추정하고 이를 통해 배터리나 모터와 같은 내부 부품을 비파괴적으로 추출하는 'VoxelDiffusionCut' 방법을 제안합니다.
이 논문은 고해상도 복원 성능과 낮은 모델 복잡도 사이의 균형을 해결하기 위해, 다중 스케일 공간 적응 어텐션 모듈과 같은 새로운 구성 요소를 도입하여 기존 최첨단 방법보다 뛰어난 성능과 효율성을 보이는 경량 이미지 초해상도 네트워크인 MSAAN 을 제안합니다.
이 논문은 엣지 하드웨어에서 실시간 의료 영상 분할을 가능하게 하기 위해 경량화된 이중 경로 U-Net 아키텍처인 BiSe-UNet 을 제안하고, Kvasir-Seg 데이터셋에서 30 FPS 이상의 처리 속도와 높은 정확도를 달성함을 입증합니다.
이 논문은 GPU 없이도 CPU 에서 고속으로 실행 가능한 NovaLAD 라는 문서 추출 파이프라인을 제안하며, 동시 YOLO 모델과 규칙 기반 그룹화, 선택적 비전 언어 모델을 활용해 DP-Bench 벤치마크에서 상용 및 오픈소스 파서보다 우수한 성능을 달성한 것을 설명합니다.