cs.CV 편의 논문 | Gist.Science

Direct low-field MRI super-resolution using undersampled k-space

이 논문은 저해상도 k-공간 데이터를 직접 처리하여 고해상도 MRI 화질을 복원하는 새로운 k-공간 듀얼 채널 U-Net 프레임워크를 제안하고, 기존 공간 영역 기반 방법보다 우수한 성능을 입증했습니다.

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

이 논문은 다양한 의료 영상 기반 모델에서 종합적인 두부 CT 진단 성능을 향상시키기 위해 단일 LoRA 적응을 넘어 여러 전문화된 저랭크 어댑터와 비지도 소프트 라우팅을 결합한 '혼합 저랭크 전문가 (MoLRE)' 프레임워크를 제안하고, 7 만 건 이상의 두부 CT 데이터를 활용한 광범위한 벤치마킹을 통해 그 유효성을 입증합니다.

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

CoLC 는 대역폭 제약 하에서 중요한 포인트만 선택적으로 전송하고 수신된 희소 데이터를 LiDAR 완성 기술로 밀집화하여 조기에 융합하는 새로운 협업 지각 프레임워크를 제안함으로써, 통신 효율성과 지각 성능 간의 최적 균형을 달성합니다.

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

이 논문은 외부 데이터나 긴 사전 학습 없이 공간 비국소 유사성과 투영 도메인의 켤레 성질을 활용하여 가짜 3D 데이터를 생성하는 자기지도 학습 방식으로, 초저데이터 환경에서도 고화질의 CT 영상을 빠르게 재구성하고 아티팩트를 제거하는 'SCOUT' 방법을 제안합니다.

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

이 논문은 기존 방법의 한계를 극복하기 위해 SAM 기반의 분할 유도 특징 변조, 적응적 토큰 재배치, 그리고 교차 모달 초그래프 상호작용을 통해 다중 모달 객체 재식별 성능을 향상시킨 STMI 프레임워크를 제안합니다.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

이 논문은 정렬된 토큰 기반의 가우스 예측 모듈과 비대칭 듀얼 플로우 디코더를 통해 포즈 정보 없이도 다중 뷰 이미지로부터 정밀한 3D 가우스 재구성과 카메라 포즈 추정을 동시에 수행하는 'TokenSplat' 프레임워크를 제안합니다.

Yihui Li, Chengxin Lv, Zichen Tang + 2 more2026-03-03💻 cs

Towards Universal Khmer Text Recognition

이 논문은 복잡한 문자 체계와 데이터 부족으로 인해 OCR 이 어려운 크메르어의 다양한 텍스트 모달리티를 단일 모델로 처리하고 성능을 향상시키기 위해 모달리티 인식 적응형 특징 선택 (MAFS) 기술을 도입한 범용 크메르어 텍스트 인식 (UKTR) 프레임워크와 최초의 종합 벤치마크를 제안합니다.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

이 논문은 크메르어 장면 문서 레이아웃 분석의 데이터 부족 문제를 해결하기 위해, 전용 데이터셋, 증강 도구, 그리고 방향성 바운딩 박스를 활용한 YOLO 기반 레이아웃 감지 프레임워크를 포함한 최초의 포괄적인 연구 결과를 제시합니다.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

IU: Imperceptible Universal Backdoor Attack

이 논문은 그래프 합성곱 신경망 (GCN) 을 활용하여 시각적으로 눈에 띄지 않으면서도 최소한의 데이터 오염으로 모든 대상 클래스를 제어하는 새로운 범용 백도어 공격 기법인 IU 를 제안하고, ImageNet-1K 실험을 통해 높은 공격 성공률과 은밀성을 입증했습니다.

Hsin Lin, Yan-Lun Chen, Ren-Hung Hwang + 1 more2026-03-03🤖 cs.LG

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

이 논문은 산업용 내시경 영상과 극좌표 변환 기반의 파노라마 이미지 스티칭 기술을 활용하여 파이프라인 내벽을 평면 파노라마 이미지로 효율적으로 재구성하고 결함 검출을 지원하기 위한 시스템을 제안합니다.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

이 논문은 생성 이미지 검출의 일반화 성능을 향상시키기 위해 단일 결정 경로를 피하고 다양한 시각을 유지하는 '반-특성 붕괴 학습' 프레임워크를 제안하며, 이를 통해 기존 방법들보다 뛰어난 교차 모델 검출 성능을 입증합니다.

Qinghui He, Haifeng Zhang, Qiao Qin + 3 more2026-03-03💻 cs

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

이 논문은 다양한 손 형태를 통합 토크나이저로 매핑하고 물리 법칙 기반의 동적 정제 모듈을 통해 자연어 명령만으로 물리적으로 타당한 다재도 손 조작을 가능하게 하는 최초의 프레임워크인 'UniHM'을 제안합니다.

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs

Stroke outcome and evolution prediction from CT brain using a spatiotemporal diffusion autoencoder

이 논문은 확산 확률 모델을 활용하여 CT 뇌 영상을 기반으로 뇌졸중의 진행과 결과를 예측하는 자기지도식 시공간 표현을 개발하고, 5,824 개의 CT 영상을 포함한 대규모 데이터셋에서 내일 중증도 및 퇴원 시 기능적 결과를 예측하는 데 있어 기존 방법보다 뛰어난 성능을 입증했습니다.

Adam Marcus, Paul Bentley, Daniel Rueckert2026-03-03🤖 cs.AI

Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models

이 논문은 확산 모델의 무훈련 가속화 방법 간 상호작용을 체계적으로 분석하고, 프렌레 - 세레 공식의 기하학적 특성을 활용한 '일관된 총 회전 스케줄 (TORS)'을 제안하여 10 단계 샘플링으로도 고품질 이미지를 생성할 수 있음을 입증했습니다.

Zhenyu Zhou, Defang Chen, Siwei Lyu + 2 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

이 논문은 MedRAX 기반의 흉부 X-ray 에이전트에서 발생하는 인종적 편향을 종단적 성능뿐만 아니라 도구 노출, 전환, 추론과 같은 과정별 단계로 세분화하여 분석하고, 에이전트 시스템의 공정한 배포를 위해 프로세스 수준의 편향 감지 및 완화의 필요성을 강조합니다.

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

이 논문은 인공신경망의 층별 특징이나 작업별 활성화가 아닌 자극 표현의 역동적 진화를 모델링하여 뇌 기반 좌표계로 매핑하는 '신경 기능 정렬 공간 (NFAS)'을 제안하고, 이를 통해 다양한 모달리티의 45 개 사전 학습 모델이 뇌의 통합 시스템에서 구조화된 조직을 보임을 입증합니다.

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs

Efficient Conformal Volumetry for Template-Based Segmentation

이 논문은 템플릿 기반 분할 파이프라인에서 변형장 (deformation field) 의 특성을 활용하여 기존 출력 공간 기반 방법보다 훨씬 효율적이고 정밀한 볼륨 불확실성 정량화를 가능하게 하는 'ConVOLT'라는 새로운 프레임워크를 제안합니다.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03🧬 q-bio

NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code

NERFIFY 는 대형 언어 모델을 네RF 도메인 특화 설계 (문맥 자유 문법, 그래프 기반 사고, 시각 피드백 등) 와 결합하여 학술 논문을 실행 가능한 Nerfstudio 플러그인으로 자동 변환함으로써, 기존 방법론의 한계를 극복하고 복잡한 비전 연구의 재현성을 획기적으로 가속화하는 다중 에이전트 프레임워크입니다.

Seemandhar Jain, Keshav Gupta, Kunal Gupta + 1 more2026-03-03💻 cs

COMBAT: Conditional World Models for Behavioral Agent Training

이 논문은 Tekken 3 의 단일 플레이어 데이터만으로 학습된 12 억 파라미터 확산 트랜스포머 기반의 COMBAT 모델을 통해, 명시적인 적대적 정책 지도 없이도 실시간으로 플레이어의 행동에 반응하는 지능적인 적대 기체를 생성하는 새로운 세계 모델을 제시합니다.

Anmol Agarwal, Pranay Meshram, Sumer Singh + 5 more2026-03-03💻 cs

MME: Mixture of Mesh Experts with Random Walk Transformer Gating

이 논문은 랜덤 워크 트랜스포머 게이트와 동적 손실 균형 기법을 도입하여 다양한 메쉬 분석 방법의 강점을 결합한 '메쉬 전문가 혼합 (MME)' 프레임워크를 제안하며, 메쉬 분류, 검색, 의미론적 분할 작업에서 최첨단 성능을 달성했습니다.

Amir Belder, Ayellet Tal2026-03-03💻 cs

← 이전 다음 →