cs.CV 편의 논문 | Gist.Science

Multi-Context Fusion Transformer for Pedestrian Crossing Intention Prediction in Urban Environments

이 논문은 보행자 행동, 환경, 위치, 차량 운동 등 네 가지 핵심 차원의 다양한 맥락 정보를 점진적 융합 전략과 상호 주의 메커니즘을 통해 통합하는 '다중 맥락 융합 트랜스포머 (MFT)'를 제안하여 도시 환경에서의 보행자 횡단 의도 예측 정확도를 획기적으로 향상시켰음을 보여줍니다.

Yuanzhe Li, Hang Zhong, Steffen Müller2026-03-24🤖 cs.AI

Real-Time Long Horizon Air Quality Forecasting via Group-Relative Policy Optimization

이 논문은 동아시아 지역의 복잡한 대기 역학을 고려한 고해상도 CMAQ-OBS 데이터셋을 구축하고, 그룹 상대적 정책 최적화 (GRPO) 를 도입하여 장기 예보의 오탐지율을 크게 줄이면서도 신뢰성을 높인 실시간 대기질 예보 프레임워크를 제안합니다.

Inha Kang, Eunki Kim, Wonjeong Ryu, Jaeyo Shin, Seungjun Yu, Yoon-Hee Kang, Seongeun Jeong, Eunhye Kim, Soontae Kim, Hyunjung Shim2026-03-24🤖 cs.AI

Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation

이 논문은 다양한 모달리티 간의 분포 변화로 인한 복잡성을 해결하기 위해, 프롬프트 튜닝을 활용한 단일 모달리티 정렬과 신뢰도 높은 의사레이블 기반의 대비 학습을 점진적으로 결합한 새로운 멀티모달 테스트 시간 적응 프레임워크인 BriMPR 을 제안합니다.

Jiacheng Li, Songhe Feng2026-03-24🤖 cs.LG

Satellite to Street : Disaster Impact Estimator

이 논문은 불균형 데이터와 미세한 구조 변화 탐지의 한계를 극복하기 위해 수정된 듀얼 입력 U-Net 아키텍처와 클래스 인식 가중 손실 함수를 활용한 'Satellite-to-Street: Disaster Impact Estimator'를 제안하여, 재해 전후 위성 이미지를 분석해 피해 정도를 픽셀 단위로 정밀하게 추정하고 분류하는 자동화된 프레임워크를 제시합니다.

Sreesritha Sai, Sai Venkata Suma Sreeja, Sai Sri Deepthi, Nikhil2026-03-24🤖 cs.AI

PhysGen: Physically Grounded 3D Shape Generation for Industrial Design

이 논문은 산업 디자인을 위해 물리 법칙을 명시적으로 통합한 새로운 유동 매칭 모델과 물리 인식 정규화 항을 도입하여, 기존 생성 모델이 놓친 물리적 현실성을 향상시킨 통합 물리 기반 3D 형상 생성 파이프라인 'PhysGen'을 제안합니다.

Yingxuan You, Chen Zhao, Hantao Zhang, Ming Xu, Pascal Fua2026-03-24💻 cs

FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing

이 논문은 다중 턴 이미지 편집 시 발생하는 고주파 정보의 점진적 손실 문제를 해결하기 위해, 참조 속도장 기반의 고주파 특징 주입, 적응형 주입 전략, 경로 보상 메커니즘을 통해 10 회 이상의 연속 편집에서도 안정적인 품질을 유지하는 훈련 없는 프레임워크 'FreqEdit'을 제안합니다.

Yucheng Liao, Jiajun Liang, Kaiqian Cui, Baoquan Zhao, Haoran Xie, Wei Liu, Qing Li, Xudong Mao2026-03-24💻 cs

Denoise to Track: Harnessing Video Diffusion Priors for Robust Correspondence

이 논문은 사전 훈련된 비디오 확산 모델의 시각적 사전 지식을 활용하여 주석 데이터 없이도 최첨단 성능을 달성하는 제로샷 포인트 추적 프레임워크인 'HeFT'를 제안하며, VDiT 의 어텐션 헤드와 저주파 성분을 선택적으로 활용하여 강인한 대응 관계를 추정하는 방법을 제시합니다.

Tianyu Yuan, Yuanbo Yang, Lin-Zhuo Chen, Yao Yao, Zhuzhong Qian2026-03-24💻 cs

LatentFM: A Latent Flow Matching Approach for Generative Medical Image Segmentation

이 논문은 잠재 공간에서 작동하는 흐름 매칭 (Flow Matching) 기반 모델인 LatentFM 을 제안하여 의료 영상 분할의 정확도를 높이고 불확실성을 정량화하는 신뢰도 지도를 생성함으로써 임상 분석을 지원함을 보여줍니다.

Huynh Trinh Ngoc, Hoang Anh Nguyen Kim, Toan Nguyen Hai, Long Tran Quoc2026-03-24💻 cs

M4-RAG: A Massive-Scale Multilingual Multi-Cultural Multimodal RAG

이 논문은 42 개 언어와 189 개 국가를 아우르는 대규모 다문화·다모달 RAG 벤치마크인 M4-RAG 를 소개하고, RAG 가 소형 모델에는 유익하지만 대형 모델에는 성능 저하를 초래할 수 있으며 비영어권 언어 환경에서 성능이 크게 떨어진다는 중요한 발견을 제시합니다.

David Anugraha, Patrick Amadeus Irawan, Anshul Singh, En-Shiun Annie Lee, Genta Indra Winata2026-03-24💬 cs.CL

sim2art: Accurate Articulated Object Modeling from a Single Video using Synthetic Training Data Only

이 논문은 단일 비디오만으로도 합성 데이터만으로 학습된 시뮬레이션 기반 프레임워크 'sim2art'를 통해 관절형 물체의 3D 부분 분할 및 조인트 파라미터를 정확하게 복원하고, 기존 방법들의 한계를 극복하며 새로운 벤치마크 데이터셋을 제안합니다.

Arslan Artykov, Tom Ravaud, Corentin Sautier, Vincent Lepetit2026-03-24💻 cs

← 이전 다음 →