v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound
이 논문은 시각적 단서와 환경음을 활용한 비디오 유머 이해를 평가하기 위한 새로운 벤치마크 'v-HUB'를 제안하고, 이를 통해 멀티모달 대형 언어 모델들이 시각 정보만으로는 유머를 이해하는 데 어려움을 겪지만 음향 정보를 통합할 경우 성능이 향상됨을 입증했습니다.
1863 편의 논문
이 논문은 시각적 단서와 환경음을 활용한 비디오 유머 이해를 평가하기 위한 새로운 벤치마크 'v-HUB'를 제안하고, 이를 통해 멀티모달 대형 언어 모델들이 시각 정보만으로는 유머를 이해하는 데 어려움을 겪지만 음향 정보를 통합할 경우 성능이 향상됨을 입증했습니다.
이 논문은 비전 - 언어 모델의 멀티턴 대화 안전성을 강화하기 위해 새로운 위험 분류 체계와 자동화된 적대적 테스트 프레임워크를 포함한 'MMDS' 데이터셋을 구축하고, 이를 기반으로 사용자 입력과 응답을 실시간으로 감시하는 'LLaVAShield'라는 새로운 안전 보호 메커니즘을 제안합니다.
이 논문은 Scan Histo 역사 지도 (1925-1950 년) 에서 텍스트 및 도로와 같은 복잡한 아티팩트를 효과적으로 제거하기 위해 이중 통과 U-Net 기반 딥러닝 파이프라인을 개발하여 1970 년대 이전 프랑스 전역의 도시 발자국 데이터를 최초로 공개함으로써 장기 도시화 역동성 연구를 위한 기반을 마련했습니다.
이 논문은 내비게이션 에이전트의 공간 지능을 체계적으로 평가하기 위해 'NavSpace' 벤치마크를 제안하고, 이를 통해 기존 모델들의 한계를 드러내며 새로운 공간 지능 내비게이션 모델인 'SNav'를 개발하여 우수한 성능을 입증했습니다.
이 논문은 LiDAR 기반 3D 의미 분할에서 노이즈가 있는 라벨과 도메인 일반화 문제를 동시에 해결하기 위해 제안된 듀얼 뷰 프레임워크 'DuNe'를 소개하며, 기존 방법들의 한계를 극복하고 여러 데이터셋에서 최첨단 성능을 입증합니다.
이 논문은 시각적 추론의 정확성과 검증 가능성을 높이기 위해 이미지를 실행 가능한 코드로 역추적하는 'RECODE'라는 에이전트 프레임워크를 제안하고, 이를 통해 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증했습니다.
이 논문은 기존 신경망 기반 비디오 압축의 한계를 극복하기 위해 단일 모델로 적응적 인트라/인터 코딩을 수행하고 양방향 중복성을 활용하는 통합 프레임워크를 제안하여, 실시간 성능을 유지하면서 DCVC-RT 대비 평균 12.1% 의 BD-rate 감소를 달성함을 보여줍니다.
이 논문은 2D 인코더의 공간적 한계를 극복하고 RGB 만으로 강력한 3D 기하학적 사전 지식을 제공하며, 언어 추론을 보존하기 위해 공간 토큰을 행동 헤드로만 주입하는 새로운 패러다임인 FALCON 을 제안하여 다양한 시뮬레이션 및 실세계 작업에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 경량화된 신체 랜드마크 검출기(MediaPipe) 에 최적화된 랜드마크 부분집합을 선택하고 스플라인 기반 보간법을 적용함으로써, 기존 방법 대비 5 배 이상 빠른 속도를 유지하면서 LIBRAS(브라질 수화) 고립 수어 인식의 정확도를 동등하거나 더 높은 수준으로 달성할 수 있음을 입증했습니다.
이 논문은 자연어 지시를 기반으로 관절형 물체의 변형과 장기 조작 시퀀스를 고려하여 손 그립을 생성하는 새로운 프레임워크 'SynHLMA'를 제안하고, 이를 통해 HAOI 생성, 예측, 보간 작업 및 로봇 그리핑 적용에서 최첨단 성능을 입증합니다.
이 논문은 사전 학습된 Stable Diffusion 모델의 특징을 활용하여 새로운 생성 모델에 대한 일반화 능력을 갖춘 경량 데이터 효율적 프레임워크인 FRIDA 를 제안하고, 이를 통해 AI 생성 이미지의 탐지와 소스 모델 추적을 동시에 수행하는 방법을 제시합니다.
이 논문은 단일 이미지 기반 3D 객체 감지의 성능을 향상시키기 위해, 분해된 속성 예측 간의 기하학적 불일치를 해결하고 2D-3D 정렬을 강화하는 '공간 - 투영 정렬 (SPAN)' 프레임워크와 계층적 작업 학습 전략을 제안합니다.
이 논문은 의료 교육 시나리오에서 다중 라운드 추론을 지원하기 위해 대규모 데이터셋 MR-MedSeg 과 오류 전파를 완화하는 '판단 및 수정 메커니즘'을 갖춘 새로운 모델 MediRound 를 제안합니다.
이 논문은 추가 학습 없이도 추론 단계에서 클래스별 특징을 적응적으로 축적하여 희귀 상호작용의 성능을 향상시키는 '적응형 다양성 캐시 (ADC)' 모듈을 제안함으로써 인간 - 객체 상호작용 (HOI) 검출의 장기 꼬리 편향을 완화합니다.
이 논문은 LVLM 의 패치 토큰 표현에 내재된 의미적 얽힘 문제를 해결하기 위해, 전역 문맥을 억제하고 해리된 지역적 의미 정보를 유지하는 '가치 (Value) 특징'을 표적으로 하는 정밀한 제어형 적대적 공격 기법인 V-Attack 을 제안하고, 이를 통해 기존 최첨단 방법 대비 평균 36% 높은 공격 성공률을 달성함을 보여줍니다.
이 논문은 다양한 비전 - 언어 - 행동 (VLA) 모델과 실제 환경에서 전이 가능한 범용 물리적 패치 공격을 가능하게 하는 'UPA-RFAS'라는 새로운 프레임워크를 제안하고, 이를 통해 로봇 시스템의 취약성을 규명합니다.
본 논문은 로봇 조작 작업의 성능 향상을 위해 상태-행동-상태 동역학을 모델링하고 명시적 기하학적 재구성을 배제하여 자기지도식 3D 표현을 학습하는 새로운 프레임워크인 AFRO 를 제안하고, 이를 통해 다양한 시뮬레이션 및 실세계 작업에서 기존 방법보다 우수한 조작 성공률을 달성함을 보여줍니다.
이 논문은 시각과 청각 정보를 통합한 최초의 공식적인 오디오 - 비주얼 월드 모델 (AVWM) 프레임워크를 제안하고, 이를 위해 새로운 데이터셋 AVW-4k 와 3 단계 학습 전략을 갖춘 AV-CDiT 모델을 개발하여 멀티모달 미래 상태 예측 및 내비게이션 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 VGGT 와 모델의 글로벌 어텐션 역할을 분석하여 초기 층을 프레임 어텐션으로 변환하고 K/V 를 서브샘플링하는 훈련 없는 2 단계 가속화 기법을 제안함으로써, 기존 희소 어텐션 방식이 실패하는 고밀도 다중 뷰 환경에서도 정확도를 유지하면서 최대 10 배까지 추론 속도를 획기적으로 향상시켰습니다.
이 논문은 위성 영상 내 선박 검출의 극심한 크기 차이와 높은 종횡비 문제를 해결하기 위해, 기존 YOLO 아키텍처의 피라미드 레벨을 P3-P5 에서 P2-P4 로 전환하고 그룹 정규화를 적용하여 정확도와 효율성을 동시에 극대화한 'LiM-YOLO'를 제안합니다.