cs.CV 편의 논문 | Gist.Science

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

이 논문은 가정용 폐기물 10 개 카테고리를 포함하는 12,259 장의 이미지로 구성된 공개 데이터셋 'Garbage Dataset(GD)'을 소개하고, 다양한 딥러닝 모델을 통해 분류 성능과 탄소 배출량을 평가하여 자동 폐기물 분리 연구의 실용적 벤치마크로 활용 가치를 제시합니다.

Suman Kunwar2026-03-04💻 cs

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

이 논문은 다양한 센서 사양과 스펙트럼 채널을 가진 지구 관측 (EO) 데이터를 단일 모델로 효율적으로 인코딩하고 재구성하기 위해 동적 하이퍼네트워크를 활용한 'EO-VAE'라는 새로운 다중 센서 토크나이저를 제안하고, TerraMesh 데이터셋 실험을 통해 기존 방법보다 우수한 재구성 정확도를 입증합니다.

Nils Lehmann, Yi Wang, Zhitong Xiong + 1 more2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

이 논문은 희귀 질환과 같은 긴 꼬리 데이터를 줄이고 강화학습 및 도구 증강 에이전트 훈련을 통해 진단 추론 능력을 향상시킨 엔티티 인식 지속적 사전 훈련 프레임워크를 도입하여, 다양한 의료 벤치마크에서 최첨단 성능을 달성하고 폐쇄형 멀티모달 시스템을 능가하는 의료용 대규모 멀티모달 모델 'MedXIAOHE'를 제안합니다.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

이 논문은 텍스트-음성 합성 (TTS) 과 오디오-얼굴 생성 (A2F) 모델을 통합하여 내부 특징 전이를 통한 오디오와 표정의 일관성을 높이고, TTS 의 중간 표현 재사용을 통한 시스템 설계의 타당성을 검증하는 모듈형 프레임워크 'UniTAF'를 제안합니다.

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

이 논문은 기존 LoRA 기반 개인화 기법의 한계를 극복하기 위해, 콘텐츠와 스타일 표현의 분리를 촉진하는 랭크 제약 미세조정, 프롬프트 기반의 정밀 제어 메커니즘, 그리고 추가 학습 없이 안정성을 높이는 시간 단계 의존적 무분류기 가이드 방식을 통합한 CRAFT-LoRA 를 제안합니다.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

이 논문은 20 개 이상의 STEM 분야에 걸친 대학 과제 및 기출문제를 기반으로 한 멀티모달 추론 벤치마크인 CFE-Bench 를 소개하고, 최첨단 모델조차도 다단계 추론 과정에서 중간 상태 유지와 단계 효율성 측면에서 여전히 한계를 보이고 있음을 규명합니다.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

이 논문은 3D 비전 시스템의 키포인트 매칭 성능을 향상시키기 위해 이미지 시퀀스 전체에 걸친 추적 품질을 직접 최적화하는 새로운 강화 학습 프레임워크 'TraqPoint'를 제안합니다.

Yepeng Liu, Hao Li, Liwen Yang + 8 more2026-03-04💻 cs

Training-Free Multi-Concept Image Editing

이 논문은 사전 학습된 LoRA 어댑터와 역동적 가중치 메커니즘을 결합한 '개념 증류 샘플링 (CDS)'을 제안하여, 추가 학습 없이도 다중 개념의 정밀한 편집과 원본 정체성 보존을 동시에 달성하는 새로운 프레임워크를 제시합니다.

Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki2026-03-04💻 cs

Uni-Animator: Towards Unified Visual Colorization

이 논문은 단일 프레임과 비디오 스케치 색칠 작업을 통합하여 정밀한 색상 전달, 고주파 물리 디테일 보존, 그리고 대규모 운동 환경에서의 시간적 일관성을 동시에 달성하는 새로운 확산 트랜스포머 기반 프레임워크인 'Uni-Animator'를 제안합니다.

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

이 논문은 3D MRI 기반 다기관 이상 감지 성능을 향상시키기 위해 12 가지 MRI 모달리티와 9 가지 이상을 포함하는 대규모 데이터셋 'MedMoM-MRI3D'를 구축하고, 모달리티 인식 정렬 및 미세 조정 단계를 거치는 새로운 의료 모달리티 인식 사전 학습 프레임워크 'MedMAP'을 제안합니다.

Haowen Zhu, Ning Yin, Xiaogen Zhou2026-03-04🤖 cs.AI

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

이 논문은 고비용의 세밀한 주석 없이 추론을 통해 모델의 미세한 지각 능력을 향상시키기 위해 토큰 수준의 밀집 보상을 활용하는 'APPO(Attention-guided Perception Policy Optimization)' 알고리즘을 제안하고, 다양한 비디오 벤치마크에서 기존 방법들보다 우수한 성능을 입증합니다.

Henghui Du, Chang Zhou, Xi Chen + 1 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

이 논문은 16~17 세기 선박 건조 논고와 같은 고문서의 자동 분류 및 검색을 위해 SAM2, Florence2, ChatGPT 와 같은 생성형 AI 기술과 도메인 특화 온톨로지를 결합한 시나리오를 제시하며, 데이터 부족과 전문성이라는 한계에도 불구하고 역사적 자료의 디지털 큐레이션 잠재력을 입증합니다.

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

이 논문은 연조직 두께의 변이성을 3D 원뿔 모델로 표현하고 차분 진화 알고리즘을 활용하여 해부학적 및 사진적 타당성을 보장하는 'Lilium'이라는 자동화된 진화적 방법을 제안함으로써 두개골 - 안면 오버레이의 정확성과 견고성을 크게 향상시켰습니다.

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

이 논문은 전역 의미적 단서와 국소 기술자를 결합하고 VFM 임베딩을 등록 관련성 있게 압축하는 공동 최적화 방식을 통해 다양한 해상도와 해부학적 범위를 아우르는 강건한 변형 등록을 달성하여 기존 최첨단 방법보다 우수한 성능을 보이는 'GLIDE-Reg'를 제안합니다.

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

IDER: IDempotent Experience Replay for Reliable Continual Learning

이 논문은 기존 방법의 높은 계산 비용과 호환성 문제를 해결하기 위해 멱등성 (idempotence) 원리를 기반으로 한 새로운 경험 재생 기법인 IDER 를 제안하여, 지속적인 학습에서 예측의 신뢰성을 높이면서도 정확도를 향상시키고 망각을 줄이는 효과를 입증했습니다.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

이 논문은 파라미터 0.65 백만 개와 0.62MB 의 경량화 설계로 제한된 자원 환경에서도 벤골어 손글씨 기본 문자와 숫자 분류에 있어 95.77% 의 높은 정확도를 달성한 새로운 효율적인 비전 트랜스포머 모델인 'BornoViT'를 제안합니다.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

이 논문은 엣지 장치 배포를 저해하는 연산 및 저장 오버헤드를 줄이면서 기존 LUT 기반 방법 중 가장 넓은 수용 영역을 확보하고 성능을 향상시키기 위해 학습 가능한 공간 이동 모듈, 비대칭 듀얼 브랜치 아키텍처, 그리고 오류 제한 적응적 샘플링을 결합한 ShiftLUT 프레임워크를 제안합니다.

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

이 논문은 상업용 및 산업용 폐기물의 무게를 정밀하게 추정하기 위해 RGB 이미지와 물리적 메타데이터를 융합한 '다중 모달 무게 예측기 (MWP)' 프레임워크와 1 만 개 이상의 실제 폐기물 데이터셋을 제안하고, 시각적 및 물리적 단서를 상호 보완적으로 활용하여 다양한 무게 구간에서 높은 정확도와 해석 가능성을 입증했습니다.

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs

PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation

본 논문은 기존 특징 캐싱 기법의 품질 저하 문제를 해결하기 위해 저주파 차이를 기반으로 불필요한 계산을 정밀하게 식별하여 재사용하는 'PreciseCache' 프레임워크를 제안함으로써, 화질 손실 없이 비디오 생성 속도를 획기적으로 향상시킵니다.

Jiangshan Wang, Kang Zhao, Jiayi Guo + 5 more2026-03-04💻 cs

Flow Matching-enabled Test-Time Refinement for Unsupervised Cardiac MR Registration

이 논문은 사전 학습된 모델 없이도 초기 추정값 전략과 워밍업-리플로우 학습을 통해 두 단계 이내의 추론으로 심장 MRI 등록 성능을 획기적으로 향상시키는 'FlowReg'라는 새로운 흐름 매칭 기반 프레임워크를 제안합니다.

Yunguan Fu, Wenjia Bai, Wen Yan + 3 more2026-03-04💻 cs

← 이전 다음 →