cs.CV 편의 논문 | Gist.Science

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

이 논문은 임의의 그리드 데이터를 위한 텐서 링 함수 분해를 제안하고, 주파수 분석을 통해 고주파 모델링 능력을 제한하는 요인을 규명한 후, 잠재 텐서와 고정 기저의 구조적 결합을 통해 학습 동역학을 개선한 재매개변수화 기법을 도입하여 이미지 및 점군 복원 작업에서 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

이 논문은 모델 크기와 추론 단계를 동시에 압축하여 기존 비디오 생성 모델의 높은 계산 비용을 해결하고, 4 단계 샘플링과 30% 파라미터 가지치기로 최적의 시각적 품질을 달성하는 새로운 최첨단 방법론인 'FastLightGen'을 제안합니다.

Shitong Shao, Yufei Gu, Zeke Xie2026-03-09💻 cs

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

이 논문은 강화 학습과 반복적 데이터 합성 파이프라인을 활용하여 정적 멀티모달 모델을 웹 검색, 이미지 검색, 웹 브라우징 등 장기적 다턴 도구 사용을 수행하는 자율 에이전트인 VSearcher 로 변환하고, MM-SearchExam 벤치마크를 통해 최신 상용 모델을 능가하는 성능을 입증했습니다.

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng2026-03-09💻 cs

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

이 논문은 실제 비디오 스트림의 순차적 특성에 맞춰 프레임 수신과 추론을 동시에 수행하는 'Think-as-You-See (TaYS)' 프레임워크를 제안하여, 기존 배치 방식보다 추론 성능을 향상시키고 응답 지연을 크게 줄인다는 결과를 제시합니다.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

이 논문은 추가 학습 없이 개방형 구성 요소만으로 '무엇을 편집할지'와 '어떻게 편집할지'를 인지적 단계로 분해하고 자기 반성 메커니즘을 통해 복잡한 지시에도 높은 시각적 일관성과 해석 가능성을 갖춘 최첨단 성능을 보이는 CoEditor++ 프레임워크를 제안합니다.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

이 논문은 embodied agent(로봇, 인간 등) 의 물리적 제약과 도달 가능성을 고려하여 의미론적 일관성과 상호작용 가능성을 모두 갖춘 3D 실내 레이아웃을 생성하는 새로운 프레임워크인 'RoboLayout'을 제안합니다.

Ali Shamsaddinlou2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

이 논문은 이미지, 오디오, 텍스트 등 이질적인 모달리티를 별도의 전문가 모델이나 MoE 구조 없이 단일 밀집 Transformer 인코더로 압축하여 메모리 효율성을 극대화하면서도 경쟁력 있는 성능을 달성하는 'Omni-C'를 제안합니다.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

이 논문은 소아 루프스 신염의 예후 예측을 위해 일상적인 PAS 염색 조직 슬라이드와 임상 데이터를 통합한 최초의 멀티모달 계산병리학 프레임워크인 'Clinical-Injection Transformer'와 도메인 적응형 MAE 전략을 제안하여 높은 정확도로 치료 반응을 분류하는 방법을 제시합니다.

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

본 논문은 기존 실루엣 및 파싱 기반의 한계를 극복하기 위해 레이블 없이 RGB 이미지에서 고주파 구조적 단서를 추출하는 새로운 시각 모달리티인 '스케치'를 제안하고, 이를 실루엣 및 파싱과 결합한 계층적 분해 다중 모달 프레임워크 'SKETCHGAIT'를 통해 강건한 보행 인식을 달성함을 보여줍니다.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

이 논문은 V2X 환경의 신호등 교차로에서 차량과 인프라의 협력적 인식을 활용하고, 디지털 트윈의 제약 조건을 반영한 새로운 '트윈 손실 (twin loss)'을 도입하여 교통 규칙 위반과 충돌을 줄이면서도 정확한 다중 에이전트 궤적 예측을 가능하게 하는 시스템을 제안합니다.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

이 논문은 복잡한 문서 질문 답변 (DocQA) 작업에서 정보 과부하와 추론 한계를 해결하기 위해 쿼리 복잡도에 따른 경로 할당과 시각적 단어를 텍스트로 변환하는 경량 VLM 과 논리 추론을 담당하는 LLM 을 결합한 'AutoThinkRAG'프레임워크를 제안하여, 추론 비용을 절감하면서도 최첨단 성능을 달성했다고 요약할 수 있습니다.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

이 논문은 추가 데이터나 재학습 없이 기존 '밴드' 모델에서 가지치기를 통해 편향에 영향을 받지 않는 서브네트워크를 추출하는 'BISE' 전략을 제안하여, 효율적이고 구조적인 편향 완화 방법을 제시합니다.

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

이 논문은 RGB 비디오를 명시적인 3D 공간 코드로 변환하고 강화 학습을 통해 공간적 추론 능력을 향상시킨 'Thinking with Spatial Code' 프레임워크를 제안하여 VSI-Bench 에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

이 논문은 기존 방법론이 개별적으로 검증하여 보수적인 결과를 초래했던 한계를 극복하고, 혼합 정수 선형 계획법 (MILP) 을 활용하여 모든 키포인트 간의 상호 의존성과 결합된 편차를 동시에 검증함으로써 학습 기반 키포인트 검출기의 강건성을 최초로 보장하는 새로운 프레임워크를 제안합니다.

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

이 논문은 CAD 특정 주석 없이 3D 메시 데이터로 대규모 학습이 가능한 차분 가능한 파라메트릭 표면을 기반으로 편집 가능한 BRep 를 생성하는 'DreamCAD' 프레임워크와 100 만 개 이상의 캡션이 포함된 대규모 데이터셋 'CADCap-1M'을 제안하여 텍스트, 이미지, 포인트 모달리티 기반의 CAD 생성 성능을 획기적으로 개선했음을 보여줍니다.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

이 논문은 고함량 세포 스크리닝에서 발생하는 생물학적 배치 효과를 도메인 일반화 문제로 재정의하고, 특징 통계량을 구조화된 불확실성으로 모델링하여 적대적인 배치 표현 증강 (ABRA) 을 제안함으로써 미시적 클래스 구별력을 유지하면서 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

이 논문은 기존 융합 검출기의 중간 BEV 특징에 적용되는 경량 모듈인 'Post Fusion Stabilizer(PFS)'를 제안하여, 도메인 이동 및 센서 고장 상황에서도 성능을 유지하면서 카메라 드롭아웃 및 저조도 환경에서의 강인성을 크게 향상시킵니다.

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

이 논문은 개념 병목 모델 (CBM) 의 한계를 해결하기 위해 개념 적합성 평가 지표, 비선형 계층 도입, 증류 손실 활용, 그리고 다양한 백본과 VLM 에 대한 체계적 분석을 포함하는 방법론적 프레임워크인 'CBM-Suite'를 제안합니다.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

이 논문은 VAE 의 재구성 FID(rFID) 와 확산 모델 생성 FID(gFID) 간의 상관관계가 낮다는 기존 통념을 재검토하고, 잠재 공간에서 최근접 이웃을 보간하여 계산한 새로운 지표인 보간 FID(iFID) 를 제안함으로써 gFID 와 높은 상관관계를 보이는 첫 번째 예측 지표를 제시합니다.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

이 논문은 이상적인 정답이 부재한 가상 의류 입기 (Virtual Try-On) 와 같은 작업에서 참조 기반 평가의 한계를 극복하기 위해, 정답 비교 대신 오류를 계수하고 심각도에 따라 가중치를 부여하는 '암시적 오류 계수 (IEC)' 방식을 제안하여 기존 평가 방법보다 우수한 성능을 입증했습니다.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

← 이전 다음 →