cs.CV 편의 논문 | Gist.Science

MMTA: Multi Membership Temporal Attention for Fine-Grained Stroke Rehabilitation Assessment

이 논문은 뇌졸중 재활 평가의 정밀도를 높이기 위해 단일 레이어 내에서 각 프레임이 여러 시간적 윈도우에 동시 주의를 기울이는 '다중 소속 시간적 주의 (MMTA)' 메커니즘을 도입하여, 기존 모델의 한계를 극복하고 비디오 및 IMU 데이터에서 미세한 운동 분할 성능을 향상시킨 단일 단계 아키텍처를 제안합니다.

Halil Ismail Helvaci, Justin Huber, Jihye Bae + 1 more2026-03-03💻 cs

Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos

이 논문은 X-ray 관상동맥 조영술 (XCA) 비디오의 혈관 분할을 위해 SAM3 기반의 교사 - 학생 프레임워크, 모션 인식 일관성, 그리고 점진적 신뢰도 정규화를 결합한 'SMART'라는 반지도 학습 방법을 제안하여 적은 주석 데이터로도 최첨단 성능을 달성함을 보여줍니다.

Yu Luo, Guangyu Wei, Yangfan Li + 2 more2026-03-03💻 cs

Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors

이 논문은 태그 MRI 의 해부학적 이미지 복원, 고해상도 영상 합성, 그리고 운동 추정을 통합하는 새로운 비선형 블라인드 역문제 프레임워크를 제안하여, MR 물리학과 생성적 사전지식을 결합해 기존 방법들보다 우수한 성능을 달성함을 보여줍니다.

Zhangxing Bian, Shuwen Wei, Samuel W. Remedios + 4 more2026-03-03⚡ eess

VEMamba: Efficient Isotropic Reconstruction of Volume Electron Microscopy with Axial-Lateral Consistent Mamba

본 논문은 VEMamba 라는 효율적인 프레임워크를 제안하여, 3D 의존성 재구성 패러다임과 현실적인 열화 시뮬레이션을 통해 체적 전자 현미경 (VEM) 데이터의 비등방성 문제를 해결하고 우수한 등방성 재구성을 달성합니다.

Longmi Gao, Pan Gao2026-03-03💻 cs

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

이 논문은 3D 공간 이해가 필요한 작업에서 기존 다중 모달 대규모 언어 모델의 한계를 극복하기 위해, 3D 재구성 및 카메라 포즈 복구 등 공간 도구를 Python 코드 생성을 통해 호출하는 제로샷 시각 프로그래밍 프레임워크 'pySpatial'을 제안하고, 이를 통해 MindCube 및 Omni3D-Bench 벤치마크와 실제 실내 항법 실험에서 뛰어난 성능을 입증했습니다.

Zhanpeng Luo, Ce Zhang, Silong Yong + 6 more2026-03-03💻 cs

UD-SfPNet: An Underwater Descattering Shape-from-Polarization Network for 3D Normal Reconstruction

이 논문은 산란으로 인한 왜곡을 제거하고 편광 정보를 활용하여 3D 표면 법선 벡터를 정밀하게 복원하는 통합 네트워크 UD-SfPNet 을 제안하며, 이를 통해 수중 환경에서의 광학 3D 이미징 성능을 크게 향상시켰음을 보여줍니다.

Puyun Wang, Kaimin Yu, Huayang He + 3 more2026-03-03💻 cs

On the Exact Algorithmic Extraction of Finite Tesselations Through Prime Extraction of Minimal Representative Forms

이 논문은 이산 그리드에서 정밀한 테셀레이션을 식별하기 위해 위계적 알고리즘, 정규화, 소수 추출 기법을 활용하여 결정론적 패턴 추출을 가능하게 하는 새로운 방법을 제안하고 그 확장성을 평가합니다.

Sushish Baral, Paulo Garcia, Warisa Sritriratanarak2026-03-03💻 cs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

이 논문은 정밀한 센서 보정 없이도 다중 뷰 실내 3D 객체 감지를 가능하게 하기 위해 VGGT 의 내부 시맨틱 및 기하학적 사전 지식을 활용하는 새로운 프레임워크 'VGGT-Det'을 제안하며, 주시 기반 쿼리 생성과 쿼리 주도 특징 집계 모듈을 통해 기존 최첨단 방법보다 ScanNet 과 ARKitScenes 데이터셋에서 성능을 크게 향상시킵니다.

Yang Cao, Feize Wu, Dave Zhenyu Chen + 3 more2026-03-03💻 cs

DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

이 논문은 자율주행에서 LLM 의 정밀한 수치 추론과 제어 명령 생성의 한계를 극복하기 위해, 숫자를 토큰이 아닌 전용 임베딩으로 매핑하는 새로운 인코딩 방식인 DriveCode 를 제안하고 그 유효성을 입증합니다.

Zhiye Wang, Yanbo Jiang, Rui Zhou + 5 more2026-03-03💻 cs

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

이 논문은 DrawEduMath 벤치마크를 통해 11 개의 비전 - 언어 모델이 수학 문제 해결 능력은 갖추고 있으나, 학습 부진이 있는 학생의 오류를 식별하고 진단하는 교육적 맥락에서는 성능이 크게 저하된다는 점을 밝혔습니다.

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

이 논문은 HDR-UGC 비디오의 품질 평가를 위해 대규모 주관적 데이터셋 'Beyond8Bits'를 구축하고, HDR 인지 비전 인코더와 강화학습 기반의 HAPO 프레임워크를 도입한 최초의 멀티모달 대형 언어 모델 'HDR-Q'를 제안하여 기존 SDR 모델의 한계를 극복하고 최첨단 성능을 달성했습니다.

Shreshth Saini, Bowen Chen, Neil Birkbeck + 3 more2026-03-03🤖 cs.AI

StegoNGP: 3D Cryptographic Steganography using Instant-NGP

이 논문은 인스턴트-NGP 의 해시 인코딩을 키 제어 방식으로 활용하여 단일 모델 내에 가시 3D 장면을 숨기고, 외부 디코더 없이도 높은 용량과 보안성을 갖춘 새로운 3D 암호화 스테가노그래피 방법인 StegoNGP 를 제안합니다.

Wenxiang Jiang, Yujun Lan, Shuo Zhao + 3 more2026-03-03💻 cs

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

이 논문은 대비적 포워드-포워드 학습에서 양의 쌍 마진 적용 방식인 클램핑이 CIFAR-10 과 같은 특정 데이터셋에서 학습 분산을 크게 증가시키는 원인을 규명하고, 이를 그라디언트 중립적인 뺄셈 방식으로 대체함으로써 평균 정확도 손실 없이 분산 문제를 해결할 수 있음을 보여줍니다.

Joshua Steier2026-03-03🤖 cs.LG

Decoupling Motion and Geometry in 4D Gaussian Splatting

이 논문은 가우스의 운동과 기하학적 속성을 분리하여 복잡한 비선형 운동을 유연하게 모델링하고 시각적 아티팩트를 줄임으로써 동적 장면의 고충실도 재구성을 가능하게 하는 새로운 4D 가우스 스플래팅 프레임워크인 VeGaS 를 제안합니다.

Yi Zhang, Yulei Kang, Jian-Fang Hu2026-03-03💻 cs

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

이 논문은 플로우 매칭 기반의 차세대 이미지 및 비디오 생성 모델에서 원하지 않는 개념을 효과적으로 제거하면서도 생성 품질과 시간적 일관성을 유지하기 위해, 제약 조건이 있는 다목적 최적화와 효율적인 그라디언트 수술 기법을 통합한 'EraseAnything++' 프레임워크를 제안합니다.

Zhaoxin Fan, Nanxiang Jiang, Daiheng Gao + 2 more2026-03-03🤖 cs.AI

Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

이 논문은 3D 의료 분할을 위해 무한한 확장성을 가진 합성 데이터의 이점과 실제 해부학적 구조의 충실도를 결합하여, 단순한 기하학적 도형 대신 탈식별된 마스크와 위상적 제약을 활용한 '해부학적 논리가 반영된 합성 지도 전학습' 프레임워크를 제안하고, 이를 통해 기존 자기지도학습 및 합성 학습 방법보다 우수한 성능을 입증했습니다.

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

Event-Anchored Frame Selection for Effective Long-Video Understanding

이 논문은 대규모 비전 - 언어 모델의 장거리 비디오 이해를 위해, DINO 임베딩을 활용한 이벤트 기반 계층적 프레임 선택 기법 (EFS) 을 제안하여 기존 평탄한 샘플링 방식의 한계를 극복하고 다양한 벤치마크에서 성능을 크게 향상시켰습니다.

Wang Chen, Yongdong Luo, Yuhui Zeng + 5 more2026-03-03💻 cs

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

이 논문은 의료 이미지 분석에서 ViT 의 데이터 부족 문제를 해결하기 위해 기존 FDSL 의 한계를 극복하고, 경계 왜곡을 방지하면서 물리 기반의 텍스처를 합성하는 '물리 기반 공간 분리 합성' 프레임워크를 제안하여 BTCV 와 MSD 데이터셋에서 기존 방법보다 우수한 성능을 입증합니다.

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs

Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality

이 논문은 원격 탐사 분야에서 단일 모달리티에서 멀티모달리티로 진화하는 기반 모델에 대한 포괄적인 기술 조사를 제공하며, 개념 정의와 필요성, 그리고 초보 연구자를 위한 실용적인 훈련 및 적용 가이드를 다룹니다.

Danfeng Hong, Chenyu Li, Xuyang Li + 2 more2026-03-03💻 cs

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

이 논문은 단일 RGB-D 카메라와 비전 기반 모델, 그리고 coarse-to-fine 정제 네트워크를 활용하여 마커 없이도 드립에 강한 고정밀 6 차원 프로브 포즈 추정이 가능한 'MLRecon'을 제안함으로써 저비용 3 차원 초음파 재구성의 새로운 기준을 제시합니다.

Yi Zhang, Puxun Tu, Kun Wang + 3 more2026-03-03💻 cs

← 이전 다음 →