Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
이 논문은 할루시네이션을 줄이고 이미지 편집 및 생성의 충실도를 높이기 위해 고품질 데이터셋과 벤치마크를 구축하고, 새로운 보상 전략을 통해 강화학습을 최적화하는 'FIRM' 프레임워크를 제안합니다.
5245 편의 논문
이 논문은 할루시네이션을 줄이고 이미지 편집 및 생성의 충실도를 높이기 위해 고품질 데이터셋과 벤치마크를 구축하고, 새로운 보상 전략을 통해 강화학습을 최적화하는 'FIRM' 프레임워크를 제안합니다.
이 논문은 생성적 사전 지식을 활용하여 기존 비디오 깊이 추정 모델의 한계를 극복하고, 제로샷 성능과 데이터 효율성을 극대화하는 최초의 결정론적 프레임워크인 DVD 를 제안합니다.
이 논문은 비디오의 중복 패치를 제거하여 토큰 수를 획기적으로 줄이고 처리 속도를 높임으로써 장고해고 고해상도 비디오 이해를 가능하게 하는 경량 모듈 'AutoGaze'를 제안하고, 이를 통해 멀티모달 대규모 언어 모델의 성능과 확장성을 크게 향상시켰음을 보여줍니다.
이 논문은 다중 객체의 정체성 유지와 다양한 수준의 모션 제어를 동시에 가능하게 하기 위해 조건 인식 3D 회전 위치 임베딩, 계층적 모션 주입 전략, 그리고 잠재 공간에서의 정체성 보상 학습을 도입한 'DreamVideo-Omni' 프레임워크를 제안합니다.
이 논문은 이동성과 정밀도를 동시에 확보한 IMU 기반 휴대용 원격 조작 시스템 'HumDex'와 학습 기반 손 동작 재매핑, 그리고 인간 운동 데이터를 활용한 2 단계 모방 학습 프레임워크를 제안하여, 인간형 로봇의 전신 정교 조작 데이터 수집의 병목 현상을 해결하고 새로운 환경과 객체에 대한 일반화 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 실시간 응답성과 논리적 추론을 동시에 달성하기 위해 입력되는 비디오 클립에 대한 추론을 활성화하는 'Video Streaming Thinking(VST)' 패러다임을 제안하고, 이를 위한 포스트 트레이닝 파이프라인과 자동 데이터 생성 방법을 통해 기존 오프라인 모델 대비 응답 속도를 획기적으로 단축하면서도 다양한 비디오 이해 작업에서 뛰어난 성능을 입증했습니다.
이 논문은 인간과 휴머노이드 로봇 간의 운동학적 차이로 인한 기존 접근법의 한계를 극복하기 위해, 대규모 인간 시점 데이터를 활용한 사전 학습과 고품질 로봇 데이터를 통한 후속 학습이라는 2 단계 훈련 패러다임을 도입하여, 훨씬 적은 데이터로 기존 모델보다 40% 이상 뛰어난 성능을 보이는 오픈 소스 휴머노이드 로코-조작 기초 모델 ''을 제안합니다.
이 논문은 자연과학부터 사회과학까지 10 개 학문 분야의 520 개 샘플로 구성된 이미지 편집 벤치마크 'GRADE'를 제안하여, 기존 모델이 구조화된 학문적 지식과 추론이 필요한 편집 작업에서 심각한 한계를 보임을 입증하고 향후 연구 방향을 제시합니다.
이 논문은 29 개 데이터셋의 다중 태스크 사전 학습을 통해 이미지, 비디오, 3D 기하학적 재구성, 로봇 조작 등 다양한 시공간적 추론 작업에서 전문 모델과 경쟁하는 성능을 보이는 단일 범용 비전 백본 'OmniStream'을 제안합니다.
이 논문은 시각적 근거에 기반한 심층적 구성적 추론 능력을 평가하기 위해 프로그래머블하게 검증 가능한 벤치마크 'MM-CondChain'을 제안하고, 에이전트 합성 파이프라인을 통해 구축된 이 벤치마크를 통해 현재 최첨단 멀티모달 대형 언어 모델들조차 심층적 구성적 추론에서 여전히 심각한 한계를 겪고 있음을 실증합니다.
본 논문은 다양한 비디오의 복잡도에 따라 토큰 할당을 동적으로 조절하여 재구성 품질과 생성 효율성을 극대화하는 적응형 비디오 토큰화 프레임워크인 EVATok 을 제안하고, 이를 통해 기존 최첨단 모델 대비 토큰 사용량을 24.4% 이상 절감하면서도 우수한 성능을 달성함을 보여줍니다.
이 논문은 팀 의사결정에서 투표가 동등한 비중을 가질 경우, 이전 결정들을 무시하고 비밀투표를 하는 것이 사회적 학습을 통한 정보 공유보다 최적의 성능을 보장함을 보여줍니다.
이 논문은 순차적 의사결정 과정에서 마지막 에이전트의 정확도를 높이기 위해 초기 신념을 실제 확률과 다르게 설정하여, 에이전트들이 '옳은' 결정보다는 '정보 제공'에 중점을 두는 것이 베이지안 위험을 최소화할 수 있음을 보여줍니다.
이 논문은 베르누이 과정의 매개변수 추정을 위해 최적의 자원 할당 전략을 제안하고, 오라클 지원 할당과 유사한 성능을 내는 간단한 정지 규칙을 개발하여 활성 이미징 시나리오에서 평균 제곱 오차를 크게 개선하는 방법을 제시합니다.
이 논문은 현대의 다중 객체 추적 (MOT) 시스템이 직면한 과제를 해결하기 위한 다양한 패러다임과 아키텍처를 종합적으로 검토하고, 벤치마크 및 평가 지표의 변화를 분석하며, 향후 연구 방향과 실용적 배포를 위한 전망을 제시합니다.
이 논문은 어휘적 접근 가능 모달리티가 확장된 호모토피 타입 이론을 통해 -로고스들의 다이어그램을 재구성하여, 단일 -로고스뿐만 아니라 그 다이어그램에 대한 추론을 가능하게 하고 고차원 합성 Tait 계산성을 제시함을 보여줍니다.
이 논문은 2004 년 DARPA 그랜드 챌린지 이후 AI 응용 분야에서 가장 활발한 자율주행 기술의 주요 분야와 개방된 문제들을 데이터 폐쇄 루프 프레임워크를 통해 종합적으로 개관하고 있습니다.
이 논문은 대규모 라이브 콘텐츠 스트리밍 시 발생하는 확장성 문제를 해결하기 위해, 암호화, 무결성 검증 및 자동 유니캐스트 폴백 기능을 갖춘 QUIC 프로토콜의 멀티캐스트 확장 기능인 MCQUIC 을 제안합니다.
이 논문은 대규모 텍스트 분석을 통해 유럽연합의 건강 연구 자금 지원이 인구 및 건강 시스템 중심의 연구로 전환되는 경향을 보인 반면, 미국 NIH 와 유럽의 ERC 는 기초 생물의학 연구의 안정성을 유지했음을 규명하고, 자금 지원 정책과 실제 연구 성과 간의 괴리를 분석합니다.
이 논문은 회로 표현을 기반으로 하여 부정을 포함한 결합 쿼리 (conjunctive queries) 에 대한 직접 접근 (direct access) 의 계산적 난이도를 분석하고, 기존 긍정 쿼리의 가용성 결과를 일반화하여 음수 쿼리 (negative queries) 의 새로운 가용성 클래스를 규명합니다.