cs.CV 편의 논문 | Gist.Science

An Extended Topological Model For High-Contrast Optical Flow

이 논문은 Sintel 데이터셋의 고대비 광학 흐름 패치에서 저차원 모델을 식별하여 기존 토러스 모델의 한계를 설명하고, 고대비 패치들이 주로 운동 경계와 관련된 이진 스텝 에지 원 근처에 집중되어 있음을 밝혀 시각 데이터 추론에서 위상과 기하학의 미묘한 상호작용에 대한 통찰을 제공합니다.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

이 논문은 기존 동적 3D 재구성 방법의 한계를 지적하고, DynamicColon 합성 데이터셋을 제안하며, 대장내시경의 연동 운동을 정확히 모델링하고 전역 기하학적 일관성을 유지하는 새로운 'ColonSplat' 프레임워크를 소개합니다.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

이 논문은 GELU 게이트의 척도 혼합으로 유도되어 Cauchy CDF 게이트를 가지며, ReLU 와 GELU 사이의 행동을 매개변수로 조절하고 무거운 꼬리 분포를 통해 기울기 소실 문제를 완화하는 새로운 활성화 함수 IGLU 와 그 효율적인 근사치 IGLU-Approx 를 제안하고 다양한 벤치마크에서 우수한 성능을 입증합니다.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

A prior information informed learning architecture for flying trajectory prediction

이 논문은 환경적 사전 정보를 이중 트랜스포머 캐스케이드 (DTC) 아키텍처와 통합하여 복잡한 물리 모델링 없이도 테니스 공의 착지 지점을 정확하게 예측하는 하드웨어 효율적인 프레임워크를 제안합니다.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

이 논문은 확산 기반 이미지 합성에서 발생하는 공간적 일관성 문제를 해결하기 위해, 마스크 가이드 혼합 전문가 (Mixture-of-Experts) 와 적응형 알파 블렌딩을 통해 객체 간의 상호작용을 명시적으로 모델링하는 자기지도 학습 방식인 PICS 를 제안합니다.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

이 논문은 전 세계 실명의 주요 원인인 트라코마의 자동 분류 연구를 지원하기 위해, Segment Anything Model 3(SAM 3) 을 활용한 제로샷 세그멘테이션 파이프라인을 구축하여 가장 피해가 큰 지역인 에티오피아에서 수집된 원본 임상 이미지를 전처리한 오픈 소스 데이터셋 'OPTED'를 공개했습니다.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

이 논문은 산업 디자인 절차에서 영감을 받아 참조 표면과 모델링 절차를 기반으로 LLM 을 유도하여 스플라인 곡률을 포함한 유기적 형태의 CAD 프로그램을 생성하는 새로운 데이터 증강 패러다임을 제안함으로써, 기존 CAD 데이터의 기하학적 다양성 부족 문제를 해결하고 산업 수준의 디자인과 유사한 고품질 데이터를 확보하는 방법을 제시합니다.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

이 논문은 고정된 쿼리의 한계를 극복하고 적응성과 감독 균형을 동시에 개선하기 위해 공유 잠재 패턴을 기반으로 동적 쿼리를 생성하고 품질 인식 할당 전략을 도입한 PaQ-DETR 을 제안하여 객체 탐지 성능을 향상시킨다.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

이 논문은 엣지 디바이스에서의 멀티스펙트럼 융합 객체 탐지를 위해 저랭크 2D 선택적 상태 공간 모델과 구조 인식 증류 전략을 제안하여, 기존 Mamba 모델의 계산 효율성과 정확도 간의 균형을 획기적으로 개선한 DLRMamba 를 소개합니다.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

이 논문은 가시광 및 적외원 원격 감지 이미지의 소형 표적 검출 정확도를 높이기 위해 학습 가능한 공간 마스크와 공간 주의를 활용한 마스크 강화 어텐션 퓨전 (MEAF) 모듈과 훈련 중 구조 표현 (SR) 강화 기법을 도입한 경량 융합 네트워크 ESM-YOLO+ 를 제안하고, VEDAI 와 DroneVehicle 데이터셋에서 기존 모델 대비 높은 성능과 낮은 연산 복잡도를 입증합니다.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

이 논문은 객체 의미론의 계층적 특성을 반영하기 위해 비전 오토레거시브 (VAR) 모델의 coarse-to-fine 생성 과정을 활용하여 각 스케일에서 중요한 영역을 식별하고 증폭하는 HIERAMP 를 제안함으로써, 전역적 근접성 최적화 없이도 효과적이고 다양한 데이터 증류 성능을 달성함을 보여줍니다.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

이 논문은 전립선암의 신경 및 림프관 침습과 관련된 3D 조직형태학적 특징을 추출·분석하는 파이프라인을 개발하여, 기존 2D 분석보다 5 년 생화학적 재발 예측 성능이 우수한 것을 입증했습니다.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

이 논문은 단안 내시경 비디오를 기반으로 한 딥러닝 기법을 활용하여 만성 부비동염 수술 중 실시간으로 조직 절제 상태를 반영하는 가상 수술 중 CT(viCT) 를 구축함으로써, 정적 영상에 의존하는 기존 내시경 부비동 수술의 한계를 극복하고 해부학적 변화를 정밀하게 추적할 수 있음을 입증했습니다.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

이 논문은 단안 내시경 비디오에서 수술 장면을 재구성하기 위해 대규모 가짜 정답 깊이 지도 생성 파이프라인, 기하학적 자기 보정을 활용한 하이브리드 감독 전략, 그리고 장기 비디오에서의 포즈 드리프트를 완화하는 계층적 추론 프레임워크를 제안하는 SurgCUT3R 시스템을 소개합니다.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

이 논문은 조건부 생성 모델링에서 이상치에 민감한 기존 조건부 최적 수송 (COT) 의 한계를 해결하기 위해 조건부 마진을 엄격히 유지하면서 조건부 분포 매칭 제약을 완화하는 '조건부 불균형 최적 수송 (CUOT)' 프레임워크와 이를 기반으로 한 이상치 강건한 생성 모델 (CUOTM) 을 제안합니다.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

이 논문은 비디오 프레임을 텍스트 타임스탬프나 위치 인코딩에 의존하지 않고, 오버랩 슬라이딩 윈도우를 통해 시계열 클립을 행렬로 재구성하는 'T2SGrid'라는 새로운 프레임워크를 제안하여, 비디오의 시간적 이해를 공간적 이해 작업으로 변환함으로써 비디오 시간적 그라운딩 (VTG) 성능을 획기적으로 향상시켰습니다.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

이 논문은 2D 이미지와 3D 형상을 정렬된 인코더로 매핑하여 뷰 합성 없이 제로샷 및 지도 학습 기반 이미지 기반 형상 검색 (IBSR) 을 수행하고, 하드 대비 학습 손실 (HCL) 을 도입하여 기존 방법론보다 우수한 성능을 달성하는 새로운 접근법을 제안합니다.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

이 논문은 단일 이미지 기반의 자율주행 공간 추론을 위해 시각적 참조 토큰을 활용한 객체 중심 그라운딩과 멀티모달 체인 오브 씽킹 (MM-CoT) 데이터셋을 도입하여, 기존 RL 기반 방법보다 우수한 성능을 보이는 경량화된 지각 인식 멀티모달 추론 프레임워크를 제안합니다.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

이 논문은 327 명의 운전자와 22 개 차량 브랜드에서 수집된 15,659 개의 자연스러운 ADAS 전환 데이터를 포함한 대규모 멀티모달 데이터셋 'ADAS-TO'를 공개하고, 이를 통해 안전 위기 상황의 시각적 단서가 제동이나 조향과 같은 동역학적 신호보다 3 초 이상 앞서 나타날 수 있음을 규명했습니다.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

이 논문은 기하학적 인식을 통한 타원형 적응형 안티앨리어싱 알고리즘과 주파수 영역 기반 포즈 그래프 최적화 모듈을 도입하여, 다양한 카메라 설정에서 고충실도 안티앨리어싱 렌더링과 강건한 포즈 추정을 동시에 달성하는 새로운 3D 가우스 스플래팅 SLAM 프레임워크인 MipSLAM 을 제안합니다.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

← 이전 다음 →