cs.CV 편의 논문 | Gist.Science

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

PhysDrape 는 충돌 처리를 위한 소프트 페널티 대신 명시적인 힘과 충돌 제약을 통합한 차분 가능한 하이브리드 신경 - 물리 솔버를 제안하여 기존 방법들의 한계를 극복하고 물리적으로 정밀한 의류 드레이핑을 실현합니다.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

이 논문은 V2X 협업 인식의 도메인 적응 문제를 해결하기 위해 최적 수송 이론을 기반으로 불필요한 샘플을 필터링하고 의미론적 손실을 완화하는 'FlowAdapt'라는 파라미터 효율적 프레임워크를 제안하며, 학습 가능한 파라미터의 1% 만으로 최첨단 성능을 달성함을 보여줍니다.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

이 논문은 자율주행 환경에서 다중 모달 LLM 의 연산 비용을 최대 30 배까지 줄이면서도 모든 토큰을 사용할 때와 동등한 성능을 유지하기 위해, 토큰 중요도 예측, 감독 학습, 그리고 어노커 - 컨텍스트 병합 모듈을 활용한 'SToRM'이라는 새로운 프레임워크를 제안합니다.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

이 논문은 2D 기반의 다중모달 대형 언어 모델을 3D CT 데이터 분석에 적용할 수 있도록 다양한 시각 및 텍스트 도구를 조정하고 장기 구조적 메모리를 통해 점진적 추론을 가능하게 하는 통합 에이전트 '3DMedAgent'를 제안하며, 이를 통해 40 개 이상의 다양한 작업에서 기존 모델들을 능가하는 성능을 입증했습니다.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

이 논문은 회전 및 이동이 포함된 MNIST 데이터셋을 통해 잠재 공간에서 등변 연산자를 학습하는 아키텍처가 기존 및 등변 신경망의 한계를 극복하고 분포 외 객체 인식에 성공할 수 있음을 보이지만, 더 복잡한 데이터셋으로 확장하는 데는 여전히 과제가 있음을 논의합니다.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

이 논문은 위성 영상과 자연어 명령을 기반으로 사전 정의된 지식 없이도 자율 항해를 위한 전역 비용 지도를 생성하는 제로샷 모듈러 프레임워크인 OVerSeeC 를 제안하며, 이를 통해 다양한 미션 요구사항과 새로운 지형 객체에 유연하게 대응하는 확장 가능한 글로벌 경로 계획이 가능함을 보여줍니다.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

이 논문은 자율주행 환경에서 미시적 도메인과 미시적 카테고리 모두에 대한 일반화 문제를 해결하기 위해 새로운 벤치마크를 제안하고, 사전 훈련된 비전 - 언어 모델의 도메인 왜곡을 완화하는 상태 공간 기반 텍스트 - 이미지 상관관계 정제 메커니즘인 S2-Corr을 도입한 오픈-보카불러리 도메인 일반화 (OVDG-SS) 설정을 제시합니다.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

이 논문은 클래스 무관 3D 세그멘테이션과 다중 모달 언어 모델을 활용하여 사전 정의된 부분 제안 없이도 강한 비등거리적 (non-isometric) 객체 간에 밀도 있는 의미론적 대응 관계를 구축하는 'UniMatch'라는 새로운 프레임워크를 제안합니다.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

본 논문은 고정된 입력 크기 제한과 경계 아티팩트 문제를 해결하기 위해, 가변 크기 이미지 초해상도를 위해 중첩 패치 간 결합 디노이징을 수행하는 'Variance-Corrected Fusion(VCF)'과 메모리 복잡도를 획기적으로 낮추는 'Spatially-Decoupled Variance Correction(SDVC)' 기법을 제안한 InfScene-SR 모델을 소개합니다.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

이 논문은 단안 3D 객체 감지 (M3OD) 모델의 데이터 효율성을 높이기 위해 객체, 장면, 카메라 포즈를 분리하고 재조합하여 다양한 훈련 데이터를 생성하는 온라인 분해 및 재구성 기법을 제안합니다.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

이 논문은 사전 훈련된 확산 모델을 경량 LoRA 적응과 순환 일관성 튜닝 전략을 통해 미세 조정하여, 복잡한 상호작용을 가진 로고와 배경을 정확하게 분리하고 재구성하는 강력한 계층적 이미지 분해 프레임워크를 제안합니다.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

이 논문은 강화학습 없이 시각적 증거를 기반으로 추론 단계마다 환각을 검증하고 필요한 경우 동적으로 추가 증거를 추출하는 'See It, Say It, Sorted'라는 경량화 플러그인 프레임워크를 제안하여 대형 시각 - 언어 모델의 환각을 줄이고 추론 정확도를 크게 향상시킨다는 내용입니다.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

이 논문은 언어 모델링을 활용하여 RLE(런 길이 부호화) 토큰 시퀀스로 이미지 및 비디오의 세그멘테이션 마스크를 생성하는 통합 접근법을 제시하며, 토큰화 전략을 통해 비디오 확장성을 높이고 팬옵틱 세그멘테이션도 지원함을 보여줍니다.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

본 논문은 텍스트 기반 이미지 검색 (T2I) 과 이미지 기반 이미지 검색 (I2I) 의 상호 보완적 강점을 활용하여, '더 넓은 검색 (Wider Search)', '더 깊은 사고 (Deeper Thinking)', '적응형 융합 (Adaptive Fusion)'을 통해 학습 없이도 다양한 쿼리 의도에 맞춰 정확도를 극대화하는 제로샷 합성 이미지 검색 프레임워크인 WISER 를 제안합니다.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

이 논문은 기존 가우시안 스플래팅 방법의 한계를 극복하고 표준 비디오 코덱과 호환되는 고품질 4D 볼륨 비디오 스트리밍을 가능하게 하는 'PackUV'라는 새로운 4D 가우시안 표현법과 이를 위한 최적화 기법, 그리고 대규모 평가 데이터셋을 제안합니다.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

이 논문은 외부 시각적 주석 없이 고해상도 멀티모달 모델의 추론 능력을 향상시키기 위해, 주요 영역을 스스로 식별하고 검증하는 폐루프 프레임워크인 HART 와 이를 위한 AP-GRPO 최적화 기법을 제안합니다.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

이 논문은 고해상도 비전 작업에서 기존 소프트맥스 어텐션의 이차적 계산 비용 문제를 해결하기 위해, 토큰 간 다중 홉 상호작용을 누적하는 무한 자기어텐션 (InfSA) 과 선형 시간 복잡도를 갖는 Linear-InfSA 를 제안하여 ImageNet-1K 에서 84.7% 의 정확도를 달성하면서도 4096x4096 해상도까지 메모리 없이 처리할 수 있는 효율적인 비전 트랜스포머 아키텍처를 소개합니다.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

이 논문은 대규모 데이터셋 'Actor-18M'과 비대칭 정체성 보존 어텐션 및 시점 적응 몬테카를로 샘플링 전략을 활용한 'WildActor' 프레임워크를 제안하여, 기존 방법들의 한계를 극복하고 다양한 각도와 동작에서도 일관된 신원 정보를 유지하는 고품질 인간 비디오 생성을 실현합니다.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

이 논문은 생성 및 지각 중심의 시각 처리 시스템 평가가 단일 이미지 품질 지표에 의존하기보다 인간의 지각과 사용자 선호도를 반영한 인간 중심의 접근 방식으로 재편되어야 한다고 주장합니다.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

이 논문은 기존 계층 중심의 가정을 넘어 어텐션 헤드의 역할을 세분화하여 '개념 엔트로피'로 분류하고 역할 기반 어텐션 마스크를 통해 일반화 능력을 유지하면서 과세밀한 VLM 적응을 가능하게 하는 'DeAR' 프레임워크를 제안합니다.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

← 이전 다음 →