cs.CV 편의 논문 | Gist.Science

PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

이 논문은 41,000 건 이상의 실제 PET/CT 보고서로 구성된 대규모 벤치마크 'PET-F2I-41K'를 제시하고, 이를 통해 기존 LLM 들의 한계를 극복하며 임상적 정확도와 사실성을 크게 향상시킨 파라미터 효율적 미세조정 모델 'PET-F2I-7B'를 개발하고 평가한 연구입니다.

Yuchen Liu, Wenbo Zhang, Liling Peng, Yichi Zhang, Yu Fu, Xin Guo, Chao Qu, Yuan Qi, Le Xue2026-03-12💻 cs

UniStitch: Unifying Semantic and Geometric Features for Image Stitching

이 논문은 수동으로 설계된 기하학적 특징과 신경망 기반의 의미론적 특징을 통합하여 복잡한 장면에서도 우수한 성능을 보이는 새로운 이미지 스티칭 프레임워크 'UniStitch'를 제안합니다.

Yuan Mei, Lang Nie, Kang Liao, Yunqiu Xu, Chunyu Lin, Bin Xiao2026-03-12💻 cs

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

이 논문은 CG 이미지 품질 평가의 한계를 해결하기 위해 6 가지 지각 차원을 기반으로 한 대규모 데이터셋과 질의응답 벤치마크를 구축하고, 시각적으로 유사한 이미지의 설명을 검색하여 증강 생성하는 R4-CGQA 프레임워크를 제안함으로써 비전 언어 모델의 CG 품질 평가 성능을 크게 향상시켰습니다.

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi Lin2026-03-12💻 cs

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

이 논문은 기존 방법의 모델 의존성 한계를 극복하기 위해 AI 생성 이미지 출처 추적을 이미지 분류가 아닌 인스턴스 검색 문제로 재정의하고, 저비트 지문 생성과 비지도 사전 학습을 기반으로 한 모델 독립적 프레임워크 'LIDA'를 제안하여 제로샷 및 퓨샷 환경에서 최첨단 성능을 달성함을 보여줍니다.

Hongsong Wang, Renxi Cheng, Chaolei Han, Jie Gui2026-03-12💻 cs

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

이 논문은 테스트 시간 최적화의 부담을 제거하고 추론 속도를 획기적으로 개선하면서도 강력한 확산 모델의 사전 지식을 활용하여, 4.5 GPU 일의 낮은 학습 비용으로 다양한 환경에서 제로샷 성능을 달성하는 단일 단계 확산 기반 깊이 완성 프레임워크 'Marigold-SSD'를 제안합니다.

Jakub Gregorek, Paraskevas Pegios, Nando Metzger, Konrad Schindler, Theodora Kontogianni, Lazaros Nalpantidis2026-03-12💻 cs

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

이 논문은 생성형 AI 로 생성된 합성 이미지와 실제 사진의 잠재 표현 내 계층 간 일관성 차이를 포착하는 '잠재 전이 불일치 (LTD)' 방법을 제안하여, 기존 방법들보다 뛰어난 일반화 성능과 탐지 정확도를 달성했다고 요약할 수 있습니다.

Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang2026-03-12💻 cs

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

이 논문은 실시간 추론이 가능한 경량 U-Net 기반의 HyPER-GAN 을 제안하여, 합성 데이터의 시각적 사실감과 의미론적 일관성을 향상시키면서도 기존 방법들보다 낮은 지연 시간으로 컴퓨터 비전 알고리즘 훈련용 데이터를 개선하는 하이브리드 학습 전략을 제시합니다.

Stefanos Pasios, Nikos Nikolaidis2026-03-12💻 cs

MUNIChus: Multilingual News Image Captioning Benchmark

이 논문은 영어 외의 언어, 특히 싱할라어와 우르두어와 같은 저자원 언어를 포함한 9 개 언어로 구성된 최초의 다국어 뉴스 이미지 캡션 벤치마크인 'MUNIChus'를 제안하고, 이를 통해 다양한 최신 모델들의 성능을 평가하여 다국어 뉴스 이미지 캡션 연구의 새로운 방향을 제시합니다.

Yuji Chen, Alistair Plum, Hansi Hettiarachchi, Diptesh Kanojia, Saroj Basnet, Marcos Zampieri, Tharindu Ranasinghe2026-03-12💬 cs.CL

Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting

이 논문은 3D 가우스 스플래팅을 활용한 확장 가능한 디지털 트윈 오라클과 CN-Coverage 커리큘럼을 통해 물리적 AI 의 단안 RGB-3D 인식 성능을 향상시키고, 훈련과 배포 간의 시점 변화에 대한 견고성을 확보하는 Splat2Real 프레임워크를 제안합니다.

Hansol Lim, Jongseong Brad Choi2026-03-12💻 cs

Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

이 논문은 복잡한 디코더 없이 마스킹 모델링과 대비 학습을 통합하여 국소적 세부 정보를 포착하고 추론 비용을 기존 MAE 방법 대비 7.89 배 줄이면서도 최첨단 성능을 달성하는 새로운 프레임워크 'SLiM'을 제안합니다.

Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim2026-03-12💻 cs

Are Video Reasoning Models Ready to Go Outside?

이 논문은 실제 환경의 교란 조건에서 비디오 추론 모델의 성능 저하를 해결하기 위해, 난이도 인식 온라인 학습 전략과 강인성 인식 일관성 보상을 도입한 새로운 학습 프레임워크 'ROVA'와 이를 평가하기 위한 벤치마크 'PVRBench'를 제안합니다.

Yangfan He, Changgyu Boo, Jaehong Yoon2026-03-12🤖 cs.AI

How To Embed Matters: Evaluation of EO Embedding Design Choices

이 논문은 NeuCo-Bench 를 활용하여 지구 관측 (EO) 워크플로우에서 GeoFM 기반 임베딩 설계 요소 (백본 아키텍처, 사전 학습 전략, 표현 깊이, 공간 집계, 조합 방식 등) 가 다운스트림 작업 성능에 미치는 영향을 체계적으로 분석하고, 원시 데이터 대비 500 배 이상 작은 고정 크기 임베딩으로도 높은 성능을 달성할 수 있음을 입증합니다.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

이 논문은 JPEG XS 의 인트라 패턴 복사 (IPC) 기능을 위한 변위 벡터 검색 모듈의 효율적인 파이프라인 FPGA 아키텍처를 제안하여, 최적화된 메모리 조직을 통해 38.3 Mpixels/s 의 처리량과 277mW 의 저전력 소모를 달성함으로써 실제 하드웨어 배포의 실현 가능성을 입증했습니다.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong Liu2026-03-12⚡ eess

A $^2$ -Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

이 논문은 UniEdit-500K 데이터셋, Mixture of Transformer 모듈, 그리고 Mask Annealing 학습 전략을 통해 기존 방법론의 한계를 극복하고, 불명확한 마스크만으로도 임의의 객체를 정밀하게 편집할 수 있는 통합 인페인팅 프레임워크인 A $^2$ -Edit 을 제안합니다.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

이 논문은 겹치는 비조이뷰 (BEV) 특징 그리드 간의 지리적 일관성을 대비 학습 손실 함수에 통합하여, 라벨이 있는 소량의 데이터와 라벨이 없는 다중 주행 데이터를 활용한 반지도 학습 방식을 통해 온라인 벡터화 HD 맵 구성의 성능을 향상시키는 'MapGCLR' 모델을 제안합니다.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

Bioinspired CNNs for border completion in occluded images

이 논문은 시각 피질의 경계 완성 문제를 수학적으로 모델링하여 개발한 'BorderNet'이라는 CNN 아키텍처가 다양한 데이터셋과 가림 조건에서 기존 모델보다 향상된 성능을 보인다는 것을 증명합니다.

Catarina P. Coutinho, Aneeqa Merhab, Janko Petkovic, Ferdinando Zanchetta, Rita Fioresi2026-03-12💻 cs

RandMark: On Random Watermarking of Visual Foundation Models

이 논문은 시각 기반 모델의 지적 재산권을 보호하기 위해 입력 이미지의 내부 표현에 무작위 디지털 워터마크를 임베딩하여 모델 소유권을 검증하는 새로운 방법을 제안하고, 이론적·실험적 검증을 통해 그 정확성을 입증합니다.

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.AI

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

이 논문은 이산적 토큰화의 정보 손실과 연속적 표현의 학습 불안정성이라는 기존 한계를 극복하기 위해, 압축된 연속적 의미 표현과 주시 기반 압축기를 활용하여 이해와 생성을 모두 최적화하는 통합 멀티모달 모델 'UniCom'을 제안합니다.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

이 논문은 보행자 내비게이션을 위해 언어 추론과 분할을 통합하고 깊이 정보를 고려한 새로운 모델 'WalkGPT'와 대규모 벤치마크 'PAVE'를 제안하여, 기존 대형 비전 - 언어 모델의 한계를 극복하고 접근성 가이드의 정확성을 높이는 방법을 제시합니다.

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

이 논문은 열화상과 가시광선 영상을 활용한 교차 스펙트럼 기반의 CTCNet 모델과 교통 규제 지식을 통합한 새로운 대규모 벤치마크 Traffic-VQA 를 제안하여, 열악한 조명 조건에서도 UAV 를 통한 정교한 교통 장면 이해 및 위반 행위 감지를 가능하게 합니다.

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI

← 이전 다음 →

cs.CV