SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection
이 논문은 단일 이미지 기반 3D 객체 감지의 성능을 향상시키기 위해, 분해된 속성 예측 간의 기하학적 불일치를 해결하고 2D-3D 정렬을 강화하는 '공간 - 투영 정렬 (SPAN)' 프레임워크와 계층적 작업 학습 전략을 제안합니다.
1418 편의 논문
이 논문은 단일 이미지 기반 3D 객체 감지의 성능을 향상시키기 위해, 분해된 속성 예측 간의 기하학적 불일치를 해결하고 2D-3D 정렬을 강화하는 '공간 - 투영 정렬 (SPAN)' 프레임워크와 계층적 작업 학습 전략을 제안합니다.
이 논문은 의료 교육 시나리오에서 다중 라운드 추론을 지원하기 위해 대규모 데이터셋 MR-MedSeg 과 오류 전파를 완화하는 '판단 및 수정 메커니즘'을 갖춘 새로운 모델 MediRound 를 제안합니다.
이 논문은 추가 학습 없이도 추론 단계에서 클래스별 특징을 적응적으로 축적하여 희귀 상호작용의 성능을 향상시키는 '적응형 다양성 캐시 (ADC)' 모듈을 제안함으로써 인간 - 객체 상호작용 (HOI) 검출의 장기 꼬리 편향을 완화합니다.
이 논문은 LVLM 의 패치 토큰 표현에 내재된 의미적 얽힘 문제를 해결하기 위해, 전역 문맥을 억제하고 해리된 지역적 의미 정보를 유지하는 '가치 (Value) 특징'을 표적으로 하는 정밀한 제어형 적대적 공격 기법인 V-Attack 을 제안하고, 이를 통해 기존 최첨단 방법 대비 평균 36% 높은 공격 성공률을 달성함을 보여줍니다.
이 논문은 다양한 비전 - 언어 - 행동 (VLA) 모델과 실제 환경에서 전이 가능한 범용 물리적 패치 공격을 가능하게 하는 'UPA-RFAS'라는 새로운 프레임워크를 제안하고, 이를 통해 로봇 시스템의 취약성을 규명합니다.
본 논문은 로봇 조작 작업의 성능 향상을 위해 상태-행동-상태 동역학을 모델링하고 명시적 기하학적 재구성을 배제하여 자기지도식 3D 표현을 학습하는 새로운 프레임워크인 AFRO 를 제안하고, 이를 통해 다양한 시뮬레이션 및 실세계 작업에서 기존 방법보다 우수한 조작 성공률을 달성함을 보여줍니다.
이 논문은 시각과 청각 정보를 통합한 최초의 공식적인 오디오 - 비주얼 월드 모델 (AVWM) 프레임워크를 제안하고, 이를 위해 새로운 데이터셋 AVW-4k 와 3 단계 학습 전략을 갖춘 AV-CDiT 모델을 개발하여 멀티모달 미래 상태 예측 및 내비게이션 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 VGGT 와 모델의 글로벌 어텐션 역할을 분석하여 초기 층을 프레임 어텐션으로 변환하고 K/V 를 서브샘플링하는 훈련 없는 2 단계 가속화 기법을 제안함으로써, 기존 희소 어텐션 방식이 실패하는 고밀도 다중 뷰 환경에서도 정확도를 유지하면서 최대 10 배까지 추론 속도를 획기적으로 향상시켰습니다.
이 논문은 위성 영상 내 선박 검출의 극심한 크기 차이와 높은 종횡비 문제를 해결하기 위해, 기존 YOLO 아키텍처의 피라미드 레벨을 P3-P5 에서 P2-P4 로 전환하고 그룹 정규화를 적용하여 정확도와 효율성을 동시에 극대화한 'LiM-YOLO'를 제안합니다.
이 논문은 강화학습의 학습 안정성과 효율성을 높이기 위해 샘플 난이도를 기반으로 힌트 비율을 동적으로 조정하고, 일관성 기반 그래디언트 조절과 롤아웃 난이도 사후확률을 활용한 이점 추정을 도입한 'ADHint'라는 새로운 방법을 제안합니다.
이 논문은 사전 정규화 (pre-norm) Transformer 에서 토큰의 크기 팽창으로 인한 실패를 해결하기 위해 임베딩 크기를 고정하고 방향성만 최적화하는 '방향성 텍스트 인버전 (DTI)'을 제안하여, 텍스트 충실도와 개념 간 매끄러운 보간을 동시에 달성합니다.
이 논문은 인간 선호도 기반 강화학습을 통한 텍스트-이미지 생성 모델의 '선호도 모드 붕괴 (Preference Mode Collapse)' 현상을 규명하고, 이를 해결하기 위해 보상 신호를 방향적으로 보정하여 생성 다양성을 유지하는 새로운 프레임워크인 '방향성 분해 정렬 (D²-Align)'을 제안합니다.
이 논문은 딥페이크 탐지의 일반화 문제를 해결하기 위해, 위조와 무관한 저랭크 편향을 제거하고 진짜 위조 흔적에 초점을 맞추는 인과적 표현 학습 기반의 'SeLop'이라는 새로운 방법을 제안합니다.
이 논문은 다양한 AI 이미지 생성기가 공유하는 최종 구성 요소를 이용해 실물을 '오염'시켜 학습하는 새로운 탐지 방식을 제안함으로써, 훈련되지 않은 생성 모델에서도 높은 일반화 성능을 달성하는 것을 목표로 합니다.
이 논문은 단일 모드, 미세 병변 패턴, 장비 간 편차로 인한 한계를 극복하기 위해 하이퍼네트워크 기반 적응적 조건부 레이어 (HaC) 와 증거 불확실성 학습 기반 신뢰성 예측 체계 (RaP) 를 도입한 CLEAR-Mamba 프레임워크를 제안하여, FFA 및 ICGA 영상을 포함한 대규모 안과 혈관조영 데이터셋에서 기존 모델보다 뛰어난 분류 성능과 신뢰성을 입증했습니다.
이 논문은 다중 턴 시각 추론을 위한 새로운 벤치마크 'RegionDial-Bench'를 제안하고, 각 추론 단계에서 명시적인 바운딩 박스 인용과 전역 - 지역 일관성 보상을 통해 강화 학습을 수행하는 'RegionReasoner' 프레임워크를 소개함으로써 시각적 추론의 정확성과 공간적 근거 능력을 획기적으로 향상시킵니다.
이 논문은 웹 콘텐츠 접근성 가이드라인 (WCAG2) 위반 사항을 자동으로 수정하면서도 원본 디자인을 유지하는 비전 - 언어 모델 'WebAccessVL'을 제안하고, 위반 조건을 입력으로 활용하는 반복적 개선 전략을 통해 기존 모델 대비 접근성 오류를 87% 이상 감소시킨 효과를 입증했습니다.
이 논문은 증류된 자기회귀 모델의 장기간 비디오 생성 시 발생하는 오류 누적을 해결하기 위해, 초기 프레임을 안정적 기준점으로 활용하여 샘플링 경로를 보정하는 훈련 없는 '테스트 시간 보정 (TTC)' 방법을 제안하고, 이를 통해 30 초 길이의 비디오 생성에서 기존 훈련 기반 방법과媲美하는 품질을 낮은 오버헤드로 달성함을 입증합니다.
이 논문은 단일 RGB 이미지에서 기하학적 정합성을 개선하기 위해 정상 추정 문제를 그림자 시퀀스 추정으로 재정의하고, 이미지-비디오 생성 모델을 활용하여 RoSE 라는 새로운 방법을 제안합니다.
이 논문은 기존 방법론이 간과했던 정확도와 에너지 효율성의 동시 최적화를 위해 경험 재생, 가변적 누적 - 적분 - 방출 뉴런 매개변수, 적응형 스파이크 스케줄러를 통합한 에너지 인식 스파이크 예산 관리 프레임워크를 제안하여, 프레임 기반 및 이벤트 기반 데이터셋 모두에서 지속적 학습 성능을 향상시키고 동적 전력 소비를 최소화하는 뉴로모픽 비전 시스템의 실용성을 입증합니다.