cs.CV 편의 논문 | Gist.Science

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

이 논문은 다양한 시점에서의 소 재식별 (ReID) 문제를 해결하기 위해 128 개의 균일한 시점에서 촬영된 1,000 마리 소의 대규모 합성 데이터셋 'MOO'를 제안하고, 이를 통해 고도 변화가 모델 성능에 미치는 영향을 정량화하여 실제 응용 분야에서의 성능 향상을 입증했습니다.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

이 논문은 기존 비전 기반 방법의 한계를 극복하고, 신뢰도 기반 의사레이블링과 낮은 저장 비용의 특성을 활용한 'SPRINT'이라는 새로운 프레임워크를 제안하여 표본 데이터의 소량 학습과 지평적 학습을 동시에 해결하고 다양한 도메인에서 최첨단 성능을 달성했습니다.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

이 논문은 생성형 AI 기반 이미지 편집 기술이 규칙 기반 방법보다 안개, 비, 눈, 야간과 같은 환경 조건을 더 현실적으로 시뮬레이션하여 AI 시스템 평가를 위한 확장 가능한 데이터 생성을 가능하게 한다는 것을 시각 언어 모델 심의와 분포 기반 분석을 통해 입증했습니다.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

이 논문은 B-Rep 기하학적 정보와 포인터 기반 엔티티 선택 메커니즘을 통합하여 기존 명령어 시퀀스 방식의 한계를 극복하고 복잡한 CAD 모델 생성의 정확도를 획기적으로 향상시킨 'Pointer-CAD' 프레임워크를 제안합니다.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

이 논문은 3D/4D 지도 없이 단일 영상 사전지식만으로 물리적으로 타당한 인체 - 물체 상호작용을 생성하는 최초의 제로샷 프레임워크인 ArtHOI 를 제안하며, 광학 흐름 기반 부분 분할과 해체된 재구성 파이프라인을 통해 4D 재구성을 수행하여 기존 방법들의 한계를 극복합니다.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

이 논문은 심장 MRI 합성 데이터 생성을 위해 DDPM, LDM, Flow Matching 세 가지 생성 모델을 비교 분석하여, 제한된 데이터 환경에서 DDPM 이 충실도, 활용성, 프라이버시 보호 간의 최적 균형을 제공함을 규명했습니다.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

이 논문은 검증 데이터 없이도 CLIP 어댑터의 블렌딩 비율을 학습하여 기존 CLIP-Adapter 보다 평균 4% 이상 성능을 향상시키는 'Hold-One-Shot-Out(HOSO)' 방법을 제안합니다.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

이 논문은 드림부스 (DreamBooth) 를 통해 생성된 합성 그림 데이터를 실제 작품과 결합하여 학습함으로써, 데이터 부족 상황에서 그림의 저자 Attribution 성능을 향상시킬 수 있음을 입증했습니다.

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

이 논문은 소수 언어권 및 특정 도메인에서 라벨이 부족한 상황에서도 단일 이미지만으로 대규모 시맨틱-언어 기초 모델 (VLFM) 의 제로샷 정확도를 높은 상관관계로 예측할 수 있는 데이터 효율적인 프로브 방법을 제안합니다.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

이 논문은 전체 슬라이드 이미지의 거대 규모와 복잡한 형태학적 이질성으로 인해 기존 접근법의 한계가 있었던 병리 보고서 생성을 개선하기 위해, 동적 전문가 분업과 적응형 검색 재순위화를 통해 노이즈를 줄이고 의미적 정렬을 강화하는 RANGER 모델을 제안하고 PathText-BRCA 데이터셋에서 우수한 성능을 입증했습니다.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

이 논문은 긴 시점 중심 비디오의 질문 응답을 위해 저해상도 프레임 순서 대신 장면 캡션 기반 그래프 구조를 활용해 관련 클립을 선택하고, 이를 통해 추론 시간을 단축하면서 FindingDory 및 HourVideo 벤치마크에서 최첨단 성능을 달성하는 'FocusGraph' 프레임워크를 제안합니다.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

헬리오스 (Helios) 는 단일 GPU 에서 실시간으로 분 단위의 장편 비디오를 생성하면서도 드래프팅 현상 없이 고품질을 유지하는 최초의 14B 비디오 생성 모델입니다.

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

이 논문은 중간 보상을 활용한 강화 학습 기법인 TaxonRL 을 통해 시각적 유사성이 높은 종 간의 세밀한 분류 정확도를 인간 수준을 넘어선 91.7% 로 향상시키고, 계층적 추론 과정을 통해 해석 가능한 의사결정 경로를 제공하는 방법을 제시합니다.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

이 논문은 기존 3D 비전 방법론의 이차적 계산 비용 문제를 해결하고, 테스트 시간 훈련을 통해 수천 장의 이미지를 단일 순방향 전달로 처리하여 기존 최첨단 방법보다 20 배 이상 빠른 선형 시간 3D 재구성을 가능하게 하는 'ZipMap'을 제안합니다.

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SimpliHuMoN: Simplifying Human Motion Prediction

이 논문은 공간적 및 시간적 의존성을 효과적으로 포착하는 단순한 트랜스포머 기반 모델을 제안하여, 궤적과 자세 예측을 통합한 인간 운동 예측에서 기존 방법들을 능가하는 최첨단 성능을 달성했음을 보여줍니다.

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

이 논문은 헤겔의 변증법에 영감을 받아 모델이 단일 예측 대신 일련의 사고 흐름을 생성하고 자기 수정 메커니즘을 통해 예측을 반복적으로 개선함으로써 성능을 향상시키고 인간 사용자의 신뢰와 이해를 높이는 '사고 흐름 네트워크 (Thought Flow Nets)'를 제안합니다.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

이 논문은 VQA-MHUG 라는 새로운 다중 모달 시선 추적 데이터셋을 통해 인간과 신경망의 주의를 비교 분석한 결과, 텍스트에 대한 인간의 주의와 높은 상관관계를 보이는 모델이 VQA 성능이 더 우수함을 최초로 규명했습니다.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

이 논문은 이미지와 텍스트의 인간 유사 주의를 통합한 멀티모달 네트워크 MULAN 을 제안하여, 기존 모델보다 약 80% 적은 학습 파라미터로 VQAv2 데이터셋에서 새로운 최고 성능을 달성했음을 보여줍니다.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

이 논문은 160 만 개의 2 차원 방사선 영상 데이터셋을 기반으로 비전 파운데이션 모델 (특히 BiomedCLIP) 이 추가 학습 없이도 방사선학 분야에서 전문화된 콘텐츠 기반 이미지 검색 (CBIR) 시스템과 견줄 만한 성능을 발휘할 수 있음을 입증하여, 범용적이고 유연한 의료 이미지 검색 시스템의 가능성을 제시했습니다.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

이 논문은 컴퓨터 비전 및 그래픽스 분야에서 신경 암시적 함수 연구의 한계를 극복하기 위해 2D 이미지와 3D 장면을 포괄하는 대규모 데이터셋 'Implicit-Zoo'를 소개하고, 이를 통해 토큰 위치 학습 및 3D 카메라 자세 추정 등 다양한 작업의 성능을 향상시키는 새로운 연구 방향을 제시합니다.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

← 이전 다음 →