cs.CV 편의 논문 | Gist.Science

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

이 논문은 주석 데이터 없이 포인트 클라우드 시맨틱 분할을 수행하기 위해 일관된 구조 학습과 일관된 추론을 기반으로 한 프로토타입 라이브러리 구동 방식인 P-SLCR 을 제안하며, S3DIS, SemanticKITTI, Scannet 데이터셋에서 기존 비지도 방법 및 PointNet 과 같은 완전 지도 방법보다 우수한 성능을 입증했습니다.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

이 논문은 12 명의 현대 예술가들의 참여를 통해 ChatGPT 가 생성한 원작의 파스티시 (pastiche) 를 분석한 결과, AI 는 색채나 질감은 모방할 수 있으나 구성, 개념, 정서적 깊이 등 본질적인 측면에서 한계를 보였음을 밝히고 단일 지표 대신 다각적인 평가 도구의 필요성을 주장합니다.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

이 논문은 멀티모달 결합과 비균일한 시간 역학으로 인한 기존 캐싱 기법의 한계를 극복하기 위해 곡률 기반 예측과 혼돈 우선 적응적 스킵핑을 도입한 'WorldCache'를 제안하여, 학습 없이도 확산 기반 월드 모델의 추론 속도를 최대 3.7 배 가속화하면서도 롤아웃 품질을 98% 유지한다고 요약할 수 있습니다.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

이 논문은 고해상도 의료 영상에서 학습된 대규모 시맨틱 - 언어 모델이 저해상도 모달리티로 전이될 때 발생하는 성능 저하 문제를 해결하기 위해, 임상 텍스트에 기반한 프롬프트를 최적 수송을 통해 정렬하는 'K-MaT' 프레임워크를 제안하고, 학습 데이터 없이도 다양한 의료 영상 간 제로샷 적응에서 최첨단 성능을 달성함을 보여줍니다.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

이 논문은 이미지의 정보 밀도와 확산 단계에 따라 토큰 수를 동적으로 조절하여 계산 효율성과 생성 품질을 동시에 향상시키는 '동적 청킹 확산 트랜스포머 (DC-DiT)'를 제안합니다.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

이 논문은 격자 기반의 구조화된 잠재 공간과 흐름 매칭 (Flow Matching) 을 활용하여 등면적 추출이나 휴리스틱 메시링 없이도 복잡한 기하학과 잘 형성된 위상을 가진 3D 메시를 효율적으로 생성하는 새로운 방법인 LATO 를 제안합니다.

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

이 논문은 BIODISCOVER 이중 카메라 시스템을 통해 수집한 이미지 시퀀스 기반의 선형 모델 및 딥러닝 접근법을 제시하여, 수동 작업 없이 다양한 무척추동물 개체의 건조 생체량을 10~20%의 중앙 오차율로 정확하게 추정하는 방법을 제안합니다.

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

이 논문은 구강 방사선 사진 분석을 위해 반복적이고 대칭성을 고려한 진단 추론을 수행하는 에이전트 비전 - 언어 모델 'OralGPT-Plus'를 제안하고, 이를 지원하기 위해 전문적으로 큐레이션된 데이터셋 'DentalProbe'와 새로운 벤치마크 'MMOral-X'를 구축하며 강화학습 기반의 재검증 프레임워크를 통해 임상적 신뢰성을 입증했습니다.

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

Rewis3d 는 2D 비디오에서 복원된 3D 기하학적 구조를 보조 감독 신호로 활용하여 희소 주석만으로도 기존 방법보다 2~7% 높은 성능을 보이는 약지도 2D 의미 분할 프레임워크를 제안합니다.

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

본 논문은 와이드 슬라이드 이미지 (WSI) 분석의 거대 해상도 및 계층적 구조를 효과적으로 처리하기 위해, 영역 중첩 선택적 스캐닝과 혼합 전문가 (MoE) 모델링을 통합한 구조 인식 선택적 상태 공간 모델 프레임워크인 MoEMambaMIL 을 제안하여 9 가지 하위 작업에서 최상의 성능을 달성함을 보여줍니다.

Dongqing Xie, Yonghuang Wu2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

이 논문은 DINOv3 기반의 심도 추정 모델과 광범위한 ALS 학습 데이터를 활용해 기존 제품보다 정확도가 높고 편향이 적으며 미세 구조가 잘 보존된 전 세계 1m 해상도 수관 높이 지도인 CHMv2 를 개발하고 검증한 내용을 담고 있습니다.

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

이 논문은 의미적으로 동일한 프롬프트 간 일관성을 보장하기 위해 프롬프트 그룹을 정의하고 품질 기반 정규화 및 로짓 수준 일관성 제약을 도입하여, 텍스트 기반 핵 분할 모델의 민감도를 해결하고 임상 환경에서의 강건성과 일반화 성능을 향상시킨 새로운 학습 프레임워크를 제안합니다.

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

이 논문은 기존 REACT 아키텍처를 기반으로 프로토타입 공간 내의 효율적인 특징 추출과 주체 - 대상 간 교차 어텐션을 도입하여, 추론 속도를 20% 단축하면서도 관계 예측 정확도를 10% 향상시킨 실시간 장면 그래프 생성 모델인 REACT++ 를 제안합니다.

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

이 논문은 침식, 결손, 불규칙한 형태 등 실제 문화유산 조각의 복원 난제를 해결하기 위해 자동 해법과 인간의 상호작용을 결합한 인간-루프 (HIL) 프레임워크를 제안하며, 대규모 조각 재조립의 정확성과 효율성을 획기적으로 향상시킵니다.

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

이 논문은 얼굴 속성 학습에서 주석 불일치로 인한 학습 불안정성을 완화하기 위해, 영향력 점수를 기반으로 중요한 샘플을 식별하고 잠재 확산 모델을 활용해 시각적 콘텐츠와 레이블을 정렬하는 'DiffInf' 프레임워크를 제안합니다.

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

이 논문은 비전 트랜스포머 모델 BEiT 내부에서 국소적 기하학적 증거와 전역적 조직적 사전 지식 간의 갈등을 해결하는 '도형 - 배경 조직화'가 초기 및 중간 층에서는 모호하다가 후기 층에서 급격히 해소되며, 특히 L0H9 어텐션 헤드가 볼록성 편향을 유도하는 핵심 기능 단위임을 규명했습니다.

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

이 논문은 생성된 비디오가 물리 법칙을 따르도록 사전 훈련된 확산 모델과 물리 시뮬레이터를 통합하고, 객체 이동 중 텍스처 일관성을 개선하기 위해 테스트 시간 텍스처 최적화 (TTCO) 기법을 제안하는 '물리 시뮬레이터 인더루프 비디오 생성 (PSIVG)' 프레임워크를 소개합니다.

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

이 논문은 수조 환경의 굴절 왜곡을 고려한 스테레오 비전과 YOLOv11-Pose 기반의 키 포인트 검출을 활용하여 소형 담수어의 비침습적 성장 모니터링을 가능하게 하는 새로운 방법을 제안하고 검증합니다.

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

이 논문은 기존 제로샷 모델인 nnInteractive 의 성능 한계를 극복하기 위해, 주석 데이터 흐름에 따라 소수의 파라미터만 지속적으로 미세 조정하는 CLoPA 전략을 제안하여 다양한 의료 영상 작업에서 전문가 수준의 분할 성능을 달성함을 보여줍니다.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

이 논문은 물리적 제약이나 안전 문제로 실제 탐사가 불가능한 상황에서 에이전트가 능동적 탐색 없이도 목표 지향적 미래 경로를 정신적으로 시뮬레이션하여 공간적 '만약에' 질문에 답할 수 있도록 돕는 최초의 대규모 데이터셋인 'WanderDream'을 제안하고, 이를 통해 세계 모델과 다중 모달 언어 모델의 상황 인식 추론 능력을 검증합니다.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

← 이전 다음 →