Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning
본 논문은 로봇 조작 작업의 성능 향상을 위해 상태-행동-상태 동역학을 모델링하고 명시적 기하학적 재구성을 배제하여 자기지도식 3D 표현을 학습하는 새로운 프레임워크인 AFRO 를 제안하고, 이를 통해 다양한 시뮬레이션 및 실세계 작업에서 기존 방법보다 우수한 조작 성공률을 달성함을 보여줍니다.
1863 편의 논문
본 논문은 로봇 조작 작업의 성능 향상을 위해 상태-행동-상태 동역학을 모델링하고 명시적 기하학적 재구성을 배제하여 자기지도식 3D 표현을 학습하는 새로운 프레임워크인 AFRO 를 제안하고, 이를 통해 다양한 시뮬레이션 및 실세계 작업에서 기존 방법보다 우수한 조작 성공률을 달성함을 보여줍니다.
이 논문은 시각과 청각 정보를 통합한 최초의 공식적인 오디오 - 비주얼 월드 모델 (AVWM) 프레임워크를 제안하고, 이를 위해 새로운 데이터셋 AVW-4k 와 3 단계 학습 전략을 갖춘 AV-CDiT 모델을 개발하여 멀티모달 미래 상태 예측 및 내비게이션 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 VGGT 와 모델의 글로벌 어텐션 역할을 분석하여 초기 층을 프레임 어텐션으로 변환하고 K/V 를 서브샘플링하는 훈련 없는 2 단계 가속화 기법을 제안함으로써, 기존 희소 어텐션 방식이 실패하는 고밀도 다중 뷰 환경에서도 정확도를 유지하면서 최대 10 배까지 추론 속도를 획기적으로 향상시켰습니다.
이 논문은 위성 영상 내 선박 검출의 극심한 크기 차이와 높은 종횡비 문제를 해결하기 위해, 기존 YOLO 아키텍처의 피라미드 레벨을 P3-P5 에서 P2-P4 로 전환하고 그룹 정규화를 적용하여 정확도와 효율성을 동시에 극대화한 'LiM-YOLO'를 제안합니다.
이 논문은 강화학습의 학습 안정성과 효율성을 높이기 위해 샘플 난이도를 기반으로 힌트 비율을 동적으로 조정하고, 일관성 기반 그래디언트 조절과 롤아웃 난이도 사후확률을 활용한 이점 추정을 도입한 'ADHint'라는 새로운 방법을 제안합니다.
이 논문은 사전 정규화 (pre-norm) Transformer 에서 토큰의 크기 팽창으로 인한 실패를 해결하기 위해 임베딩 크기를 고정하고 방향성만 최적화하는 '방향성 텍스트 인버전 (DTI)'을 제안하여, 텍스트 충실도와 개념 간 매끄러운 보간을 동시에 달성합니다.
이 논문은 인간 선호도 기반 강화학습을 통한 텍스트-이미지 생성 모델의 '선호도 모드 붕괴 (Preference Mode Collapse)' 현상을 규명하고, 이를 해결하기 위해 보상 신호를 방향적으로 보정하여 생성 다양성을 유지하는 새로운 프레임워크인 '방향성 분해 정렬 (D²-Align)'을 제안합니다.
이 논문은 딥페이크 탐지의 일반화 문제를 해결하기 위해, 위조와 무관한 저랭크 편향을 제거하고 진짜 위조 흔적에 초점을 맞추는 인과적 표현 학습 기반의 'SeLop'이라는 새로운 방법을 제안합니다.
이 논문은 다양한 AI 이미지 생성기가 공유하는 최종 구성 요소를 이용해 실물을 '오염'시켜 학습하는 새로운 탐지 방식을 제안함으로써, 훈련되지 않은 생성 모델에서도 높은 일반화 성능을 달성하는 것을 목표로 합니다.
이 논문은 단일 모드, 미세 병변 패턴, 장비 간 편차로 인한 한계를 극복하기 위해 하이퍼네트워크 기반 적응적 조건부 레이어 (HaC) 와 증거 불확실성 학습 기반 신뢰성 예측 체계 (RaP) 를 도입한 CLEAR-Mamba 프레임워크를 제안하여, FFA 및 ICGA 영상을 포함한 대규모 안과 혈관조영 데이터셋에서 기존 모델보다 뛰어난 분류 성능과 신뢰성을 입증했습니다.
이 논문은 다중 턴 시각 추론을 위한 새로운 벤치마크 'RegionDial-Bench'를 제안하고, 각 추론 단계에서 명시적인 바운딩 박스 인용과 전역 - 지역 일관성 보상을 통해 강화 학습을 수행하는 'RegionReasoner' 프레임워크를 소개함으로써 시각적 추론의 정확성과 공간적 근거 능력을 획기적으로 향상시킵니다.
이 논문은 웹 콘텐츠 접근성 가이드라인 (WCAG2) 위반 사항을 자동으로 수정하면서도 원본 디자인을 유지하는 비전 - 언어 모델 'WebAccessVL'을 제안하고, 위반 조건을 입력으로 활용하는 반복적 개선 전략을 통해 기존 모델 대비 접근성 오류를 87% 이상 감소시킨 효과를 입증했습니다.
이 논문은 증류된 자기회귀 모델의 장기간 비디오 생성 시 발생하는 오류 누적을 해결하기 위해, 초기 프레임을 안정적 기준점으로 활용하여 샘플링 경로를 보정하는 훈련 없는 '테스트 시간 보정 (TTC)' 방법을 제안하고, 이를 통해 30 초 길이의 비디오 생성에서 기존 훈련 기반 방법과媲美하는 품질을 낮은 오버헤드로 달성함을 입증합니다.
이 논문은 단일 RGB 이미지에서 기하학적 정합성을 개선하기 위해 정상 추정 문제를 그림자 시퀀스 추정으로 재정의하고, 이미지-비디오 생성 모델을 활용하여 RoSE 라는 새로운 방법을 제안합니다.
이 논문은 기존 방법론이 간과했던 정확도와 에너지 효율성의 동시 최적화를 위해 경험 재생, 가변적 누적 - 적분 - 방출 뉴런 매개변수, 적응형 스파이크 스케줄러를 통합한 에너지 인식 스파이크 예산 관리 프레임워크를 제안하여, 프레임 기반 및 이벤트 기반 데이터셋 모두에서 지속적 학습 성능을 향상시키고 동적 전력 소비를 최소화하는 뉴로모픽 비전 시스템의 실용성을 입증합니다.
이 논문은 정보 이론적 관점에서 모달리티 간 경쟁을 완화하고 상호작용을 포착하기 위해 총 상관관계 (Total Correlation) 를 최대화하는 새로운 다중 모달 분류 방법인 TCMax 를 제안하고, 이를 통해 기존 최첨단 기법들을 능가하는 성능을 입증합니다.
이 논문은 확산 모델의 고해상도 추론 지연과 희소 감독의 한계를 해결하기 위해, 교사의 궤적 중간 단계를 모두 학습하는 밀집 앙상블 네트워크 (B-DENSE) 를 제안하여 이미지 생성 품질을 향상시킵니다.
이 논문은 임상 환경에서 외부 가이드 없이도 결손 상태를 스스로 인식하여 3D MRI 의 완전성을 파악하고 생성할 수 있도록 설계된 'CoPeDiT'라는 새로운 잠재 확산 모델을 제안하며, 이를 통해 다양한 결손 패턴에서도 높은 정확도와 구조적 일관성을 갖춘 고품질 3D MRI 합성을 가능하게 합니다.
이 논문은 희소 데이터 환경에서 클래스 공유 LoRA 와 이미지별 LoRA 를 결합하고 의미 강화 기법을 도입하여 다양성과 세부 묘사를 모두 갖춘 고품질 합성 데이터를 생성함으로써 하류 분류 작업의 정확도를 향상시키는 'ChimeraLoRA' 방법을 제안합니다.
이 논문은 희소 주석과 도메인 지식 기반 제약 조건 추론, 다기준 의사결정 분석을 통합한 신경심볼릭 프레임워크 'OrthoAI'를 제안하여, 3D 치아 분할과 생역학적 실행 가능성 추론을 연결하는 증거 기반 교정 치료 지원 시스템을 개발했습니다.