v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound
이 논문은 시각적 단서와 환경음을 활용한 비디오 유머 이해를 평가하기 위한 새로운 벤치마크 'v-HUB'를 제안하고, 이를 통해 멀티모달 대형 언어 모델들이 시각 정보만으로는 유머를 이해하는 데 어려움을 겪지만 음향 정보를 통합할 경우 성능이 향상됨을 입증했습니다.
2385 편의 논문
이 논문은 시각적 단서와 환경음을 활용한 비디오 유머 이해를 평가하기 위한 새로운 벤치마크 'v-HUB'를 제안하고, 이를 통해 멀티모달 대형 언어 모델들이 시각 정보만으로는 유머를 이해하는 데 어려움을 겪지만 음향 정보를 통합할 경우 성능이 향상됨을 입증했습니다.
이 논문은 음성 토큰을 잠재적 패치로 집계하여 텍스트와 음성의 시퀀스 모델링 세분성을 일치시키고 계산 효율성을 높임으로써, 음성 및 텍스트 성능을 동시에 향상시키는 '잠재 음성 - 텍스트 트랜스포머 (LST)'를 제안합니다.
이 논문은 복잡한 문제 해결 능력과 신뢰할 수 있는 검증 없는 테스트 시간 진화의 한계를 극복하기 위해, 구조화된 도구 호출을 통한 다중 턴 추론, 도구 사용과 응답을 분리한 강화 학습, 그리고 도구 기반 검증을 포함한 제안 - 판정 - 업데이트 루프를 통합한 'AlphaApollo'라는 에이전트 추론 시스템을 제시합니다.
이 논문은 내비게이션 에이전트의 공간 지능을 체계적으로 평가하기 위해 'NavSpace' 벤치마크를 제안하고, 이를 통해 기존 모델들의 한계를 드러내며 새로운 공간 지능 내비게이션 모델인 'SNav'를 개발하여 우수한 성능을 입증했습니다.
이 논문은 시각적 추론의 정확성과 검증 가능성을 높이기 위해 이미지를 실행 가능한 코드로 역추적하는 'RECODE'라는 에이전트 프레임워크를 제안하고, 이를 통해 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증했습니다.
이 논문은 기존 전문가 병합 기법보다 정교한 라우팅 제어가 가능한 전문가 가지치기가 생성 작업에서 더 우수하다는 점을 규명하고, 라우터 게이트 값과 전문가 활성화 노름을 고려한 새로운 가지치기 기준인 REAP 를 제안하여 대규모 SMoE 모델의 압축 성능을 획기적으로 개선했음을 보여줍니다.
이 논문은 인간 숙련도 수준의 신뢰성과 효율성을 갖춘 실세계 로봇 조작을 위해 모방 학습과 강화 학습을 통합하고 증류 기법을 통해 실시간 제어를 가능하게 한 'RL-100' 프레임워크를 제안하며, 다양한 실물 로봇 작업에서 100% 성공률을 기록하고 인간 개입 없이도 장기적으로 안정적으로 작동하는 것을 입증했습니다.
이 논문은 2D 인코더의 공간적 한계를 극복하고 RGB 만으로 강력한 3D 기하학적 사전 지식을 제공하며, 언어 추론을 보존하기 위해 공간 토큰을 행동 헤드로만 주입하는 새로운 패러다임인 FALCON 을 제안하여 다양한 시뮬레이션 및 실세계 작업에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 자연어 지시를 기반으로 관절형 물체의 변형과 장기 조작 시퀀스를 고려하여 손 그립을 생성하는 새로운 프레임워크 'SynHLMA'를 제안하고, 이를 통해 HAOI 생성, 예측, 보간 작업 및 로봇 그리핑 적용에서 최첨단 성능을 입증합니다.
이 논문은 그래프 기반 모델이 여러 도메인에서 순차적으로 학습할 때 발생하는 catastrophic forgetting 문제를 해결하기 위해, 임베딩 시프트와 결정 경계 편향을 방지하는 지식 분리와 보존 메커니즘을 제안한 GraphKeeper 를 소개합니다.
이 논문은 다중 클래스 분류에서 과적합을 방지하면서도 기존 로지스틱 기반 보정 기법보다 우수한 성능을 달성하기 위해 구조적 정규화, 견고한 전처리 및 효율적 최적화를 결합한 새로운 사후 보정 방법론을 제안하고 그 유효성을 실험을 통해 입증합니다.
이 논문은 토크나이저 효율성을 고려한 새로운 효율성 지표인 '정보 용량 (Information Capacity)'을 제안하고, 이를 통해 다양한 크기와 아키텍처의 오픈소스 대규모 언어 모델들의 추론 효율성을 평가하고 성능 예측 및 언어 편향을 분석했습니다.
이 논문은 시계열 기반 모델의 성능 향상을 위해 기존 방법의 계산적 한계를 극복하고 시간적 의존성을 보존하는 경량 데이터 가치 평가 기법인 LTSV를 제안하며, 인-컨텍스트 파인튜닝을 통해 효율적이고 강력한 데이터 기여도 측정을 가능하게 합니다.
이 논문은 의료 교육 시나리오에서 다중 라운드 추론을 지원하기 위해 대규모 데이터셋 MR-MedSeg 과 오류 전파를 완화하는 '판단 및 수정 메커니즘'을 갖춘 새로운 모델 MediRound 를 제안합니다.
이 논문은 베어링 건강 상태 분류를 위해 미세 조정 없이 시계열 기반 모델의 인-컨텍스트 학습을 활용하여 다양한 운영 조건에서 효과적으로 작동하는 새로운 방법을 제안합니다.
이 논문은 Google Gemini 2.0 Flash 기반의 챗봇을 활용하여 Gmsh 와 GetDP 를 통해 2 차원 와전류 유한요소 시뮬레이션 모델을 자동으로 생성하고 해석하는 워크플로우를 제안함으로써 전자기 시뮬레이션 모델 설정에 소요되는 시간을 단축하는 방법을 연구합니다.
이 논문은 추가 학습 없이도 추론 단계에서 클래스별 특징을 적응적으로 축적하여 희귀 상호작용의 성능을 향상시키는 '적응형 다양성 캐시 (ADC)' 모듈을 제안함으로써 인간 - 객체 상호작용 (HOI) 검출의 장기 꼬리 편향을 완화합니다.
이 논문은 추론과 학습을 분리하여 비동기 파이프라인을 구축하고, 오프-폴리시 편향 없이 온-폴리시 정확도를 유지하며 NPU 환경에서 기존 RL 프레임워크 대비 3~5 배의 학습 처리량을 달성하는 주기적 비동기 방식을 제안합니다.
이 논문은 다양한 비전 - 언어 - 행동 (VLA) 모델과 실제 환경에서 전이 가능한 범용 물리적 패치 공격을 가능하게 하는 'UPA-RFAS'라는 새로운 프레임워크를 제안하고, 이를 통해 로봇 시스템의 취약성을 규명합니다.
이 논문은 다양한 시나리오의 통신 조건을 통합적으로 모델링하고 손실 유무 메시지를 구분하여 학습 사전 지식으로 활용함으로써, 손실 통신 환경에서도 협력적 다중 에이전트 강화학습의 확장성과 견고성을 향상시키는 새로운 프레임워크를 제안합니다.