cs.CV 편의 논문 | Gist.Science

Percept-Aware Surgical Planning for Visual Cortical Prostheses with Vascular Avoidance

이 논문은 혈관 회피와 안전성 제약을 고려하여 전기적 자극을 통해 시각을 회복하는 피질 시각 보철물의 전극 배치를 최적화하기 위해, 예측된 지각 결과를 직접적으로 반영하는 차분 가능한 최적화 프레임워크를 제안하고 그 유효성을 입증합니다.

Galen Pogoncheff, Alvin Wang, Jacob Granley + 1 more2026-03-03💻 cs

Deep Learning-Based Meat Freshness Detection with Segmentation and OOD-Aware Classification

본 논문은 U-Net 기반 분할을 통해 배경을 제거하고 효율적인 특징 추출을 수행하며, OOD 인식 거부 메커니즘을 통해 신뢰도가 낮은 샘플을 식별하는 동시에 모바일 환경에서의 실시간 배포 가능성을 검증한 고도화된 육류 신선도 분류 프레임워크를 제안합니다.

Hutama Arif Bramantyo, Mukarram Ali Faridi, Rui Chen + 2 more2026-03-03⚡ eess

Unsupervised Semantic Segmentation in Synchrotron Computed Tomography with Self-Correcting Pseudo Labels

이 논문은 수동 라벨링 없이 동기방사선 CT 데이터를 자동으로 분할하기 위해 클러스터링 기반의 가짜 라벨을 생성하고 'Unbiased Teacher' 기법으로 이를 자기 수정하는 새로운 프레임워크를 제안하며, 이를 통해 기존 가짜 라벨 대비 픽셀 정확도와 평균 교집합 합집합 비율 (mIoU) 을 각각 13.31% 와 15.94% 향상시켰음을 보여줍니다.

Austin Yunker, Peter Kenesei, Hemant Sharma + 3 more2026-03-03💻 cs

DiffSOS: Acoustic Conditional Diffusion Model for Speed-of-Sound Reconstruction in Ultrasound Computed Tomography

이 논문은 물리 법칙을 엄격히 반영한 조건부 확산 모델인 DiffSOS 를 제안하여, 기존 알고리즘의 한계를 극복하고 초음파 단층촬영 (USCT) 에서 고해상도 음속 재구성과 불확실성 정량화를 동시에 달성함을 보여줍니다.

Yujia Wu, Shuoqi Chen, Shiru Wang + 3 more2026-03-03💻 cs

SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning

이 논문은 2D 와 3D 표현을 경량 정렬 메커니즘으로 통합하고 국소적 삼중항 기반의 장면 그래프 생성 파이프라인을 도입하여 대규모 사전 학습 없이도 7B 파라미터 규모에서 최첨단 공간 추론 능력을 달성한 'SSR(구조화된 장면 추론)' 프레임워크를 제안합니다.

Yi Zhang, Youya Xia, Yong Wang + 7 more2026-03-03💻 cs

PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models

3D-비전 언어 모델의 학습에서 발생하는 기하학적 정보 손실 문제를 해결하기 위해, 중간 점구름 토큰과 시각 입력 토큰 간의 일관성 손실을 통해 미세한 3D 기하 - 의미 정보를 보존하는 새로운 특징 수준 정렬 정규화 방법인 PointAlign 을 제안하고, 이를 통해 분류 및 캡셔닝 성능을 크게 향상시켰습니다.

Yuanhao Su, Shaofeng Zhang, Xiaosong Jia + 1 more2026-03-03💻 cs

DiffTrans: Differentiable Geometry-Materials Decomposition for Reconstructing Transparent Objects

이 논문은 복잡한 조명과 다양한 위상 구조를 가진 투명 물체의 기하학적 형상과 재질을 효율적으로 분해 및 재구성하기 위해, FlexiCubes 기반의 초기 기하학 복원과 CUDA 구현의 재귀적 미분 가능 광선 추적기를 결합한 'DiffTrans' 프레임워크를 제안합니다.

Changpu Li, Shuang Wu, Songlin Tang + 3 more2026-03-03💻 cs

Station2Radar: query conditioned gaussian splatting for precipitation field

이 논문은 자동 기상 관측소 데이터와 위성 영상을 융합하여 강수 영역만 선택적으로 렌더링하는 '쿼리 기반 가우스 스프래팅 (QCGS)' 프레임워크를 제안함으로써, 기존 격자형 강수 예측 제품보다 50% 이상 낮은 RMSE 를 달성하고 실시간 고해상도 강수장 생성을 가능하게 합니다.

Doyi Kim, Minseok Seo, Changick Kim2026-03-03💻 cs

An Interpretable Local Editing Model for Counterfactual Medical Image Generation

이 논문은 원치 않는 인구통계학적 속성 변경을 방지하고 편집 과정의 해석 가능성을 제공하기 위해 지역 특정 편집과 안내 지도를 특징으로 하는 새로운 해석 가능한 국소 편집 모델인 InstructX2X 와 전문가 검증 의료 VQA 쌍에서 파생된 MIMIC-EDIT-INSTRUCTION 데이터셋을 제안하여 의료 영상 생성 분야에서 최첨단 성능을 달성함을 보여줍니다.

Hyungi Min, Taeseung You, Hangyeul Lee + 2 more2026-03-03🤖 cs.AI

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

이 논문은 대규모 언어 모델 (LLM) 을 활용해 라벨링된 의료 소견 데이터를 자동 생성하고, 이를 통해 시각적 사실 식별과 보고서 생성을 분리하는 'Fact-Flow' 프레임워크를 제안함으로써 의료 보고서 생성 시 발생하는 사실적 불안정성을 해결하고 정확도를 획기적으로 향상시켰음을 보여줍니다.

Cunyuan Yang, Dejuan Song, Xiaotao Pang + 7 more2026-03-03💬 cs.CL

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

이 논문은 생물학 기반 모델의 계층적 표현을 활용하여 대규모 멀티모달 모델에 분류학적 지식을 주입하는 TARA 를 제안함으로써, 기존 및 새로운 카테고리에 대한 계층적 일관성과 정밀한 시각 인식 성능을 향상시킨다고 요약할 수 있습니다.

Hulingxiao He, Zhi Tan, Yuxin Peng2026-03-03🤖 cs.AI

TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis

이 논문은 제한된 의료 데이터에서 과적합과 높은 계산 비용을 해결하기 위해 태스크별 프롬프트와 선택적 상위 레이어 미세 조정을 결합한 TAP-SLF 프레임워크를 제안하여 초음파 이미지의 다중 태스크 분석을 효율적으로 수행하는 방법을 제시합니다.

Hui Wan, Libin Lan2026-03-03🤖 cs.AI

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

이 논문은 생성 단계에서 은닉 상태를 직접 조작하여 외부 교정 신호 없이 자기 수정을 가능하게 하는 '레이어 어텐션을 활용한 내부 자기 수정 (ICLA)' 메커니즘을 제안함으로써, 기존 완화 기법의 효과가 떨어지는 최신 대규모 비전 - 언어 모델의 환각 현상을 효과적으로 완화함을 보여줍니다.

April Fu2026-03-03💻 cs

Mamba-CAD: State Space Model For 3D Computer-Aided Design Generative Modeling

이 논문은 산업용 복잡한 3D CAD 모델의 긴 파라미터 시퀀스를 효과적으로 생성하기 위해 Mamba 아키텍처 기반의 자기지도 학습 프레임워크인 Mamba-CAD 를 제안하고, 이를 위해 새로운 대규모 데이터셋을 구축하여 다양한 평가 지표에서 우수한 성능을 입증합니다.

Xueyang Li, Yunzhong Lou, Yu Song + 1 more2026-03-03🤖 cs.AI

SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

본 논문은 비전 - 언어 모델의 추론을 통한 의미 정렬과 계층적 구조 융합을 기반으로 한 SesaHand 를 제안하여, 3D 손 재구성을 위한 고품질의 다양하고 정렬된 합성 손 이미지를 생성하는 방법을 제시합니다.

Zhuoran Zhao, Xianghao Kong, Linlin Yang + 3 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

이 논문은 시간적 일관성을 고려한 3D 주시 메커니즘을 가진 대형 디퓨전 모델 (DOVE) 을 경량화된 2D 기반 아키텍처로 증류하고, 픽셀 및 특징 영역에서 디테일과 일관성을 동시에 최적화하는 이중 헤어드 배제적 증류 방식을 도입하여, 매개변수를 95% 줄이고 8 배의 추론 가속을 달성하면서도 실세계 비디오 초해상도 품질을 유지하는 개선된 적대적 디퓨전 압축 방법 (AdcVSR) 을 제안합니다.

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs

Explainable Continuous-Time Mask Refinement with Local Self-Similarity Priors for Medical Image Segmentation

이 논문은 국소 자기 유사성 사전 지식과 연속 시간 신경 역학을 결합하여 발궤양 분할의 경계 정밀도와 설명 가능성을 동시에 향상시킨 LSS-LTCNet 프레임워크를 제안하고, MICCAI FUSeg 데이터셋에서 최첨단 성능을 입증했습니다.

Rajdeep Chatterjee, Sudip Chakrabarty, Trishaani Acharjee2026-03-03💻 cs

ReMoT: Reinforcement Learning with Motion Contrast Triplets

이 논문은 비디오 메타-주석에서 파생된 대규모 운동 대비 데이터셋 (ReMoT-16K) 과 그룹 상대 정책 최적화 (GRPO) 를 통합한 'ReMoT'라는 새로운 훈련 패러다임을 제안하여, 기존 VLM 의 공간 - 시간적 일관성 부족 문제를 해결하고 관련 태스크에서 25.1% 의 성능 향상을 달성했다고 요약할 수 있습니다.

Cong Wan, Zeyu Guo, Jiangyang Li + 5 more2026-03-03💻 cs

OPGAgent: An Agent for Auditable Dental Panoramic X-ray Interpretation

이 논문은 치과 전산화 단층촬영 (OPG) 해석의 정확성과 검증 가능성을 높이기 위해 계층적 증거 수집, 전문 도구 상자, 합의 메커니즘을 통합한 OPGAgent 와 새로운 평가 벤치마크인 OPG-Bench 를 제안하고, 기존 비전 - 언어 모델 및 의료 에이전트 프레임워크보다 우수한 성능을 입증했습니다.

Zhaolin Yu, Litao Yang, Ben Babicka + 7 more2026-03-03🤖 cs.AI

DreamWorld: Unified World Modeling in Video Generation

이 논문은 물리 상식, 3D 기하학, 시간적 일관성 등 다양한 세계 지식을 통합하여 비디오 생성의 일관성을 획기적으로 개선한 'DreamWorld' 프레임워크와 이를 위한 학습 및 추론 기법을 제안합니다.

Boming Tan, Xiangdong Zhang, Ning Liao + 5 more2026-03-03💻 cs

← 이전 다음 →