cs.CV 편의 논문 | Gist.Science

Remote Sensing Image Classification Using Deep Ensemble Learning

이 논문은 CNN 과 비전 트랜스포머 (ViT) 의 강점을 결합하되 중복된 특징 표현으로 인한 병목 현상을 해결하기 위해 4 개의 독립적 융합 모델의 출력을 앙상블하는 새로운 접근법을 제안하여, 원거리 감지 이미지 분류에서 기존 아키텍처보다 뛰어난 정확도와 계산 효율성을 달성했음을 보여줍니다.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation

이 논문은 절대적인 기하학적 제약이 부재한 3D 생성의 한계를 극복하기 위해, 의미 정보와 절대 기하학을 통합한 '3D 인지 그래프'를 통해 물리적 타당성과 구조적 합리성을 보장하는 새로운 3D 생성 프레임워크인 Cog2Gen3D 를 제안합니다.

Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan2026-03-09💻 cs

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

이 논문은 피드포워드 3D 재구성과 생성형 비디오 확산 모델을 결합하여 기하학적 강건성과 전체 프레임 일관성을 동시에 확보하는 'VS3R' 프레임워크를 제안함으로써, 기존 방법들의 한계를 극복하고 다양한 카메라 모델에서 고품질의 강건한 비디오 안정화를 실현합니다.

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

이 논문은 검증된 실행 궤적을 기반으로 재사용 가능한 복합 도구를 자동으로 발견하고 학습하여 정적 도구 구성의 한계를 극복하고 다양한 의료 영상 작업에서 적응형 성능을 향상시키는 자기 진화형 의료 에이전트 'MACRO'를 제안합니다.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

이 논문은 3D CT 스캔과 150 만 개의 CoT 라벨이 지정된 VQA 데이터를 기반으로 한 대규모 벤치마크 'TumorCoT'를 구축하고, 이를 통해 3D 영상 인코더와 임상 텍스트 이해를 결합한 'TumorChain' 프레임워크를 제안하여 종양 분석의 정확성과 추론의 추적 가능성을 향상시킨다는 내용을 담고 있습니다.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

이 논문은 기존 텍스트 기반 추론의 한계를 극복하고 인간의 지각 습관과 현대 VLM 의 패치 토큰화 입력 구조에 부합하는 패치 기반 시각 단서 (PatchCue) 를 도입하여, 냉간 시작 감독 미세 조정과 과정 기반 보상 강화 학습을 통해 VLM 의 시각 추론 능력을 획기적으로 향상시킨다는 내용을 담고 있습니다.

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

이 논문은 의료 영상 분할의 도메인 간 일반화 문제를 해결하기 위해 가중치 공간이 아닌 메모리 공간으로 적응을 전환하여, 적은 통신 오버헤드로 연동 학습과 테스트 시간 적응을 가능하게 하는 'MemSeg-Agent'를 제안합니다.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

이 논문은 5 개의 공개 데이터베이스와 7 가지 이미지 유사성 방법을 활용하여 비디오 장소 인식 (VPR) 에서 합성된 새로운 시점의 효과를 체계적으로 평가한 결과, 소규모 추가 시에는 시점 변화가 인식 성능을 향상시키지만 대규모 추가 시에는 추가된 뷰의 수와 데이터셋의 이미지 유형이 시점 변화 크기보다 더 중요한 영향을 미친다는 것을 밝혔습니다.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

이 논문은 파노라마 신뷰 합성을 위해 맨해튼 월드 가정에 부합하는 원통형 트라이플레인 표현과 이중 분기 아키텍처를 도입하여, 기존 방법의 한계를 극복하고 단일 및 다중 뷰에서 최첨단 성능을 달성하는 'CylinderSplat' 프레임워크를 제안합니다.

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

이 논문은 단일 RGB 이미지로부터 완전한 3D 실내 장면 메쉬를 직접 생성하는 자동회귀 기반 방법인 PixARMesh 를 제안하며, 기존 방법과 달리 통합된 모델을 통해 객체 배치와 기하학을 동시에 예측하여 고품질의 메쉬를 단일 순방향 통과로 생성합니다.

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

이 논문은 기존 다단계 파이프라인의 한계를 극복하고 주제, 텍스트, 스타일을 동시에 정밀하게 제어하여 전자상거래 포스터를 고품질로 생성하는 단일 단계 프레임워크인 'InnoAds-Composer'를 제안합니다.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

이 논문은 개념 병목 모델 (CBM) 의 편향을 완화하기 위해 정보 누출을 줄이는 톱-k 개념 필터, 편향된 개념 제거, 그리고 적대적 편향 제거라는 세 가지 기법을 제안하여 공정성과 성능 간의 균형을 개선한 연구 결과를 제시합니다.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

이 논문은 UAV 영상 내 작은 객체 검출의 어려움인 스케일 변화와 구조적 세부 정보 손실 문제를 해결하기 위해, 구조적 세부 정보 보존과 이질적 특징 스트림 정렬을 통해 정밀한 검출 성능을 유지하면서 경량화를 실현한 'CollabOD' 프레임워크를 제안합니다.

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

이 논문은 기존 2D-to-3D 변환의 기하학적 정확성 중심 접근법의 한계를 지적하고, 영화적 의도를 반영한 '예술적 시차 합성 (Artistic Disparity Synthesis)' 패러다임을 제안하며, 이를 구현하는 Art3D 프레임워크와 평가 방법을 통해 몰입감 있는 3D 콘텐츠 생성의 새로운 방향을 제시합니다.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

이 논문은 단일 파노라마 이미지로부터 360 도 3D 장면을 약 20 초 만에 생성하는 효율적인 피드-포워드 프레임워크인 Pano3DComposer 를 제안하며, 이를 위해 오프더셸 이미지 -3D 모델에서 생성된 객체를 세계 좌표계로 변환하는 플러그 - 앤 - 플레이 객체 - 월드 변환 예측기와 코어스 - 투 - 파인 정렬 메커니즘을 도입했습니다.

Zidian Qiu, Ancong Wu2026-03-09💻 cs

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

이 논문은 복잡한 병변 분할을 위해 추론과 분할을 통합한 CORE-Seg 프레임워크와 CoT 벤치마크 ComLesion-14K 를 제안하며, 강화학습 기반의 적응형 보상 메커니즘을 통해 기존 방법론을 크게 능가하는 성능을 달성했습니다.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

이 논문은 기존 이미지 유사도 분석의 한계를 극복하고, 생성된 이미지의 지시문과 응답 간의 편차를 분석하여 텍스트 - 이미지 모델의 블랙박스 백도어를 탐지하는 새로운 프레임워크 'BlackMirror'를 제안합니다.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

이 논문은 Rectified Flow 에서 영감을 받아 기존 VAE 를 대체하는 RAC(Rectified Flow Auto Coder) 를 제안하며, 직선적이고 수정 가능한 복호화 경로를 통해 재구성과 생성 품질을 동시에 향상시키면서 파라미터 수를 약 41% 줄이고 계산 비용은 70% 절감하는 효과를 입증합니다.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

이 논문은 운전자의 위험 인식과 맥락적 위험 평가를 위한 대규모 데이터셋 RAID 를 구축하고, 이를 활용하여 운전자의 의도된 기동과 반응을 기반으로 잠재적 위험원을 식별하는 약지도 학습 프레임워크를 제안하여 기존 최첨단 방법 대비 성능을 크게 향상시켰음을 보여줍니다.

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

이 논문은 비디오 시퀀스의 시간적 일관성을 활용하여 정적 프레임 기반의 한계를 극복하고, 관절 중심 시간 집계 (JTA) 와 글로벌 복원 어텐션 (GRA) 메커니즘을 도입한 TAR-ViTPose 를 제안함으로써 인간 자세 추정 성능과 실시간 처리 속도를 동시에 향상시켰습니다.

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs

← 이전 다음 →