FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models
이 논문은 지도 해석에 필요한 다단계 추론 능력을 평가하기 위해 FRIEDA 라는 새로운 벤치마크를 제안하고, 최신 대규모 시각-언어 모델들이 인간에 비해 지도 기반 공간 추론에서 여전히 큰 성능 격차를 보이고 있음을 입증합니다.
7481 편의 논문
이 논문은 지도 해석에 필요한 다단계 추론 능력을 평가하기 위해 FRIEDA 라는 새로운 벤치마크를 제안하고, 최신 대규모 시각-언어 모델들이 인간에 비해 지도 기반 공간 추론에서 여전히 큰 성능 격차를 보이고 있음을 입증합니다.
이 논문은 단일 이미지에서 1 초 미만으로 3D 가우스 표현을 회귀하여 실시간 고해상도 시점 합성을 가능하게 하고, 기존 최첨단 모델 대비 LPIPS 와 DISTS 지표를 크게 개선한 SHARP 라는 새로운 방법을 제안합니다.
이 논문은 이벤트 카메라의 고해상도 시간 정보를 활용하기 위해 기하학적 렌더링과 광도 렌더링을 분리하는 새로운 3D 가우스 스플래팅 프레임워크를 제안하여, 사전 정보나 초기화 없이도 정밀하고 빠른 3D 재구성을 가능하게 합니다.
이 논문은 자율주행의 실시간성, 안전성, 해석 가능성을 동시에 확보하기 위해 텍스트 추론을 잠재 공간으로 전환하고 계층적 병렬 경로를 생성하는 통합 비전 - 언어 - 행동 프레임워크인 ColaVLA 를 제안하며, nuScenes 벤치마크에서 기존 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 잠재 세계 모델 (VJEPA-2) 을 보상 신호로 활용하여 추론 시 여러 생성 경로를 탐색하고 조정하는 'WMReward'를 제안함으로써, 기존 비디오 생성 모델의 물리 법칙 위반 문제를 해결하고 ICCV 2025 Perception Test PhysicsIQ 챌린지에서 1 위를 차지한 성과를 거두었음을 보여줍니다.
이 논문은 채널 순서에 의존하지 않고 데이터로부터 채널 간 구조를 추론하여 재학습 없이도 구조적 변화와 미시적 채널에 대한 일반화 성능을 보장하는 다변량 시계열 예측 프레임워크인 CPiRi 를 제안하고, 이를 통해 기존 방법론의 한계를 극복하고 최첨단 성능을 달성함을 보여줍니다.
이 논문은 자연 이미지 에지와 인위적인 감싸기 불연속성을 구분하여 고동적 범위 (HDR) 모듈로 이미징의 재구성 정확도를 획기적으로 개선하기 위해, 노출 변화에 대한 일관성을 강제하는 스케일 공변성 정규화와 원시 모듈로 이미지, 감싸기 유한 차분, 폐형식 초기화를 결합한 특징 리프팅 입력 설계를 도입한 학습 기반 HDR 복원 프레임워크를 제안합니다.
이 논문은 자연어 기반의 계층적 절차적 생성 프레임워크인 CityGenAgent 를 제안하여, 지도 학습과 강화 학습을 결합해 고해상도 3D 도시의 구조적 정확성과 시각적 일관성을 보장하면서도 자연어 편집이 가능한 자동 생성 및 조작 기술을 실현합니다.
이 논문은 기존 기계적 망각 방법들이 내부 특징 표현을 남기는 '피상적 망각' 문제를 해결하기 위해, 네트워크의 모든 계층에서 대비 학습과 심층 감독 학습을 결합하여 원본 모델의 표현적 유사성을 효과적으로 제거하는 'Erase at the Core (EC)' 프레임워크를 제안합니다.
이 논문은 기존 고해상도 이미지 생성 방법의 높은 계산 비용을 해결하고, 패치 기반 역추적 없이 20 초 내에 4K 이미지를 생성하면서도 뛰어난 화질을 유지하는 훈련 불필요 (training-free) 프레임워크인 'PixelRush'를 제안합니다.
이 논문은 UAV 의 비 GNSS 환경에서 고정밀 재로컬라이제이션을 가능하게 하는 맵 없는 LiDAR 프레임워크 MAILS 와 이를 평가하기 위한 대규모 데이터셋을 제안하며, 기존 자율주행 중심 방법론의 한계를 극복하고 UAV 비행 특성에 최적화된 성능을 입증합니다.
이 논문은 협동 지각 시스템의 대역폭 제한 문제를 해결하기 위해 시간적 연속성을 활용한 적응형 데이터 선택 프레임워크인 COOPERTRIM 을 제안하여, 불필요한 정보 전송을 줄이면서도 정확도를 유지하거나 향상시키는 방법을 제시합니다.
Diff-Aid 는 텍스트와 이미지 특징 간의 동적 상호작용을 추론 시 적응적으로 조절하여 텍스트-이미지 생성 모델의 프롬프트 준수도와 시각적 품질을 향상시키는 경량 플러그인 모듈입니다.
이 논문은 기존 3D 표현 방식보다 압축률이 1~3 배 높고 재구성 품질이 우수하며, 5 초 내 생성이 가능한 새로운 3D 씬 토크나이저 'SceneTok'을 제안합니다.
이 논문은 대규모 학습과 최적화 없이 CLIP 과 unCLIP 을 활용한 프로토타입 기반 데이터 합성 방식을 통해, 멀티모달 데이터 증류의 효율성과 아키텍처 간 일반화 성능을 획기적으로 개선하는 새로운 프레임워크를 제안합니다.
이 논문은 단일 이미지로부터 기하학적 일관성을 갖춘 탐험 가능한 3D 장면을 생성하기 위해 파노라마 생성, 3D 기하학적 구조 구축, 그리고 새로운 뷰 생성이라는 세 단계로 이루어진 One2Scene 프레임워크를 제안합니다.
이 논문은 테스트 시간 훈련 (TTT) 이 단순한 기억 메커니즘이 아니라, 학습된 선형 어텐션 연산자로 재해석될 수 있음을 보임으로써 모델의 동작을 설명하고 효율성을 개선하는 실용적 이점을 제시합니다.
본 논문은 데이터 이질성으로 인한 클라이언트 드리프트 문제를 해결하기 위해 공개 검증 세트를 기반으로 레이어별 그래디언트 노름을 계산하여 클라이언트별 일반화 능력을 평가하고 이를 통해 적응적 집계 방식을 제안하는 'FedVG' 프레임워크를 소개합니다.
이 논문은 스케일과 관점 변화로 인해 손실된 세부 정보를 복원하기 위해 언어 프롬프트의 모호성을 피하고 자기지도 학습 데이터 생성 및 키 포인트 매칭 기반 평가를 도입한 'FlowFixer'라는 정제 프레임워크를 제안하여 고충실도 주제 주도 생성의 새로운 기준을 제시합니다.
이 논문은 물리 법칙을 고려한 이미지 편집의 한계를 극복하기 위해 3 만 8 천 개의 물리 전이 데이터를 구축하고, 텍스트-시각 이중 추론 메커니즘을 갖춘 'PhysicEdit' 프레임워크를 제안하여 오픈소스 모델 중 물리적 사실성과 지식 기반 편집 성능을 획기적으로 개선했음을 보여줍니다.