SGG-R: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation
이 논문은 MLLM 기반의 구조적 추론, 관계 증강 전략, 그리고 미세/대분류 보상 체계를 통합한 강화 학습 프레임워크인 SGG-R를 제안하여, 희소성과 편향 문제를 해결하고 종단간 편향 없는 장면 그래프 생성을 달성하는 방법을 제시합니다.
3892 편의 논문
이 논문은 MLLM 기반의 구조적 추론, 관계 증강 전략, 그리고 미세/대분류 보상 체계를 통합한 강화 학습 프레임워크인 SGG-R를 제안하여, 희소성과 편향 문제를 해결하고 종단간 편향 없는 장면 그래프 생성을 달성하는 방법을 제시합니다.
이 논문은 언어만으로는 해결할 수 없는 지시적 상호작용의 공백을 메우기 위해, 말과 손짓의 시간적·공간적 정렬을 필수적으로 요구하는 새로운 평가 기준인 'EcoG-Bench'를 제안하고, 이를 통해 현재 멀티모달 모델들이 인간에 비해 지시어 기반의 상황적 이해에서 심각한 격차를 보이며, 특히 멀티모달 인터페이스의 한계가 시간적 정렬 정보의 관측을 저해할 수 있음을 밝혔습니다.
이 논문은 가림 현상이 빈번한 수술 환경에서 다양한 센서와 동적 장면 그래프를 융합하여 증강현실 기반 수술 도구 추정의 견고성과 일관성을 향상시키는 장치 무관 프레임워크를 제안합니다.
이 논문은 앵커와 비최대 억제 (NMS) 와 같은 수동 설계 요소 없이 LiDAR 기반 3D 객체 탐지를 시퀀스 생성 문제로 재정의하여 근거리에서 원거리로 순차적으로 객체를 생성하는 'AutoReg3D'를 제안하고, 이를 통해 기존 모델과 경쟁력 있는 성능을 달성하면서도 언어 모델의 최신 기법을 3D 인식에 적용할 수 있는 가능성을 보여줍니다.
이 논문은 단일 분산 정책으로 다양한 팀 크기와 물체 기하학적 구조를 가진 인간 - 물체 상호작용 (HOI) 을 가능하게 하는 Transformer 기반의 TeamHOI 프레임워크를 제안하며, 단일 인간 모션을 기반으로 한 마스킹된 적대적 운동 우선순위 (AMP) 전략과 형성 보상을 통해 현실적이고 일관된 협력 행동을 학습합니다.
이 논문은 대형 언어 모델 (LLM) 의 추론 능력을 활용하고 새로운 궤적 토큰화 기법과 자동화된 사고 연쇄 (CoT) 생성 메커니즘을 도입하여, 인간이 거주하는 환경에서 로봇의 장기 궤적 예측 정확도와 일반화 성능을 획기적으로 개선한 'AutoTraces'를 제안합니다.
이 논문은 기존 항공 비전 - 언어 항법 (VLN) 방법의 공간 추론 및 언어적 모호성 문제를 해결하기 위해 추가 학습 없이 이미지 평면에서 직접 추론할 수 있는 시각 - 공간 추론 (ViSA) 강화 프레임워크를 제안하고, CityNav 벤치마크에서 기존 최첨단 방법 대비 성공률을 70.3% 향상시킨 결과를 입증했습니다.
이 논문은 현실 세계의 다양한 환경에서 시계 읽기 능력을 향상시키기 위해 실제 시계 데이터를 포함한 'TickTockVQA' 데이터셋과 모델의 추론을 정렬하는 'Swap-DPO' 미세조정 프레임워크를 제안합니다.
이 논문은 적외선 (IR) 데이터가 누락된 상황에서도 해석 가능한 공유 딕셔너리와 계수 도메인 추론을 활용하여 가시광선 이미지를 기반으로 적외선 정보를 추론하고 융합하는 새로운 프레임워크를 제안합니다.
이 논문은 복잡한 장면에서 기하학적 일관성을 유지하며 사실적인 그림자를 생성하기 위해 가시성 사전 지식을 통합한 2 단계 프레임워크인 VSDiffusion 을 제안하고, DESOBAv2 데이터셋에서 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 3D 객체 기하학과 텍스트 지시 간의 모달리티 격차를 해소하고 물리적 안정성과 의미론적 일관성을 갖춘 인간 잡기 자세를 생성하기 위해, 정교한 언어 라벨링 파이프라인과 affordance 인지 잠재 표현을 통합한 확산 기반 프레임워크인 AffordGrasp 을 제안합니다.
이 논문은 Mamba 기반 확산 모델과 가우시안 기반 비트 표현을 도입하여 기존 트랜스포머 기반 방법의 한계를 극복하고, 음악의 리듬과 비트에 정확히 동기화된 고품질 춤 동작을 생성하는 'MambaDance'를 제안합니다.
이 논문은 자연어 설명을 복잡한 2D 동작 시퀀스로 변환하는 자동회귀 모델과 참조 이미지 및 생성된 스켈레톤을 기반으로 고품질 비디오를 합성하는 포지션 기반 확산 모델을 결합한 2 단계 캐스케이드 프레임워크를 제안하여, 기존 텍스트 기반 방법의 정밀도 부족과 포지션 기반 방법의 데이터 수집 비용 문제를 동시에 해결하고 복잡한 인간 동작 비디오 생성의 한계를 극복합니다.
이 논문은 불완전한 의사 레이블의 품질을 명시적으로 조건으로 활용하여 저품질 아티팩트의 모방을 방지하고 더 높은 품질의 복원 결과를 생성할 수 있도록 하는 새로운 'QualiTeacher' 프레임워크를 제안합니다.
이 논문은 시각 및 오디오 모달리티의 손실과 클래스 불균형 문제를 해결하기 위해 안전 교차 주의 메커니즘과 모달리티 드롭아웃 전략을 도입한 강건한 멀티모달 프레임워크를 제안하여 ABAW 10 차 챌린지에서 60.79% 의 정확도를 달성한 내용을 담고 있습니다.
이 논문은 기존 밀집 어텐션의 계산 병목 현상을 해결하기 위해, 구조로부터 운동 (SfM) 의 원리를 차용하여 중요한 토큰만 선택적으로 어텐션하는 이중 분기 메커니즘을 도입함으로써 대규모 3D 재구성의 추론 속도를 12.4 배까지 향상시킨 'Speed3R'을 제안합니다.
이 논문은 시각 정보를 기반으로 분기 선택과 이상 감지를 수행하여 다양한 조작 작업에서 초보 사용자의 자연스러운 시연과 복구를 가능하게 하는 대화형 로봇 기술 프로그래밍 프레임워크인 'See & Switch'를 제안하고 실험을 통해 그 유효성을 입증합니다.
이 논문은 강화 학습을 통해 전문적인 비전 - 언어 및 생성 에이전트 간의 협업을 조정하여 복잡한 사용자 지시를 정교하게 수행하는 새로운 다중 에이전트 이미지 편집 프레임워크인 ImageEdit-R1 을 제안하고, 기존 단일 모델 및 다른 다중 에이전트 방식보다 우수한 성능을 입증합니다.
이 논문은 LVLM(대형 시각 - 언어 모델) 의 능력을 활용하여 UAV 와 위성 이미지 간의 심층적 시각 - 의미 상관관계를 명시적으로 모델링하고, 부드러운 라벨을 사용하는 관계 인식 손실 함수를 도입함으로써 교차 뷰 UAV 지리 위치 추정 성능을 획기적으로 향상시키는 새로운 플러그 - 앤 - 플레이 순위 아키텍처를 제안합니다.
이 논문은 FID 와 같은 기존 연속적 특징 기반 평가의 한계를 극복하기 위해 이산적 시각 토큰 공간에서 코드북 히스토그램 거리 (CHD) 와 코드 혼합 모델 점수 (CMMS) 를 제안하고, VisForm 벤치마크를 통해 인간 평가와의 높은 상관관계를 입증합니다.