Grounding Synthetic Data Generation With Vision and Language Models

이 논문은 원격 탐사 분야에서 생성 모델, 시맨틱 분할, 이미지 캡셔닝을 결합하여 해석 가능한 합성 데이터 증강 및 평가를 가능하게 하는 'ARAS400k'라는 대규모 데이터셋과 프레임워크를 제안하며, 이를 통해 합성 데이터와 실데이터를 함께 학습한 모델이 기존 실데이터 기반 모델보다 우수한 성능을 보임을 입증했습니다.

Ümit Mert Ça\u{g}lar, Alptekin TemizelWed, 11 Ma🤖 cs.AI

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

이 논문은 저조도 및 저텍스처 환경에서 기존 점 기반 VIO 의 한계를 극복하기 위해, 학습이 필요 없는 선분 디스크립터와 엔트로피 정규화 최적 수송을 활용한 선분 매칭, 그리고 신뢰도 적응적 가중치 기법을 도입하여 강인성과 정확도를 동시에 향상시킨 스테레오 비전 - 관성 오도메트리 (VIO) 시스템 'OTPL-VIO'를 제안합니다.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan WangWed, 11 Ma💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

이 논문은 배경 일관성을 유지하면서 전경 품질을 향상시키기 위해, 할루시네이션 감지를 통해 캐시된 배경 키 - 값과 생성된 키 - 값의 융합 비율 및 CFG 스케일을 동적으로 조절하는 훈련 불필요 KV-Lock 프레임워크를 제안합니다.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

이 논문은 비디오 관측을 통해 바람과 물체의 상호작용을 물리 법칙에 기반한 미분 가능한 프레임워크인 DiffWind 로 모델링하여, 3D 가우스 스플래팅과 MPM, LBM 을 활용하여 바람의 힘장을 재구성하고 새로운 바람 조건에서의 시뮬레이션 및 바람 리타게팅을 가능하게 하는 WD-Objects 데이터셋을 포함해 기존 방법보다 뛰어난 정확도와 충실도를 달성함을 제시합니다.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng CuiWed, 11 Ma💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

이 논문은 저조도 영역이나 반사 표면과 같은 신뢰할 수 없는 측정값으로 인한 드리프트를 줄이기 위해, 3D 가우스 스플래팅 기반 SLAM 시스템이 각 스플랫의 불확실성을 명시적으로 학습하고 이를 통해 신뢰할 수 있는 영역에 초점을 맞춘 강건한 추론 및 매핑을 가능하게 하는 'VarSplat'을 제안합니다.

Anh Thuan Tran, Jana KoseckaWed, 11 Ma💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

이 논문은 부정확한 주석과 제한된 데이터로 인해 기존 방법들이 한계를 보였던 발의 정밀한 3D 모션 재구성을 위해, 2D 발 키포인트를 3D 로 승격시키고 무릎 및 발 모션 맥락을 활용하는 'FootMR'과 복잡한 발 움직임을 평가할 수 있는 새로운 데이터셋 'MOOF'를 제안하여 기존 최첨단 방법보다 발 관절 각도 오차를 최대 30% 까지 줄이는 성과를 거두었다고 요약할 수 있습니다.

Tom Wehrbein, Bodo RosenhahnWed, 11 Ma💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

이 논문은 PhoBERT 와 비전 트랜스포머를 활용한 대규모 자동 구축 베트남어 시각 질문 답변 (VQA) 데이터셋 'AutoViVQA'를 제안하고, 다양한 자동 평가 지표와 다국어 설정 하에서 트랜스포머 기반 아키텍처의 성능을 체계적으로 비교 분석합니다.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung LeWed, 11 Ma🤖 cs.AI

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

이 논문은 시계열적 인과관계를 명시적으로 모델링하여 외과 영상의 자연스러운 언어적 변형에 강인한 질문 응답을 가능하게 하는 새로운 PEFT 방법론인 TemporalDoRA 를 제안하고, 이를 검증하기 위한 새로운 데이터셋 REAL-Colon-VQA 를 공개합니다.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. HoqueWed, 11 Ma💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

이 논문은 MRI, CT, PET 와 같은 3 가지 의료 영상 모달리티의 해상도 저하와 모달리티 간 불일치 문제를 해결하기 위해, 웨이블릿 변환을 기반으로 한 조건부 확산 프레임워크인 TriFusion-SR 을 제안하여 융합과 초해상도 (SR) 를 동시에 수행하고 기존 방법 대비 PSNR 을 4.8~12.4% 향상시킨 성능을 입증합니다.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu TimofteWed, 11 Ma💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

이 논문은 3D 가우스 스플래팅 (3DGS) 의 대용량 데이터 전송 문제를 해결하기 위해, 다중 사용자의 협업 및 역사적 데이터를 기반으로 한 뷰포트 예측 모듈과 심층 강화 학습 기반의 비트레이트 적응 모듈을 통합한 새로운 볼륨 장면 스트리밍 시스템인 'GSStream'을 제안하고 그 우수성을 입증합니다.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu WangWed, 11 Ma💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

이 논문은 전역 시공간 구조를 보존하면서도 효율성을 유지하기 위해 프레임 단위의 행렬 어텐션 메커니즘을 도입한 'FrameDiT'를 제안하여, 기존 확산 트랜스포머 모델의 성능과 효율성 간의 트레이드오프를 해결하고 비디오 생성 분야에서 최첨단 결과를 달성했다고 요약할 수 있습니다.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen TranWed, 11 Ma💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

이 논문은 실제 1 인칭 비디오를 기반으로 한 'EXPLORE-Bench' 벤치마크를 제안하여, 다중 모달 대규모 언어 모델이 1 인칭 관점에서 행동의 장기적 물리적 결과를 추론하는 데 여전히 한계가 있음을 규명하고, 단계별 추론을 통한 성능 개선 가능성을 제시합니다.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

이 논문은 진단, 측정, 분할 및 비디오 스트림 요약 등 다양한 임상 작업을 통합적으로 수행하여 기존 자동화 도구의 한계를 극복하고, 다중 전문가 에이전트 조정을 통해 가장 정확하고 견고한 태아 초음파 분석 및 보고 솔루션을 제시하는 'FetalAgents' 시스템을 제안합니다.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan TianWed, 11 Ma💻 cs

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

이 논문은 다중 모달 대형 언어 모델 기반의 연속 환경 비전 - 언어 내비게이션 (VLN-CE) 에서 발생하는 누적 오류와 희소한 보상 문제를 해결하기 위해, 불완전한 궤적에서 밀집된 감독 신호를 추출하여 단계별 정렬을 수행하는 '단계 인식 대비 정렬 (SACA)' 프레임워크를 제안하고 이를 통해 최첨단 성능을 달성함을 보여줍니다.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs