cs.CV 편의 논문 | Gist.Science

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

이 논문은 LLM 기반 의미 분해와 QR 직교화를 통해 '과거 비교' 축만을 표적으로 하는 훈련 불필요 추론 제어 프레임워크인 SDLS 를 제안하여, 방사선 보고서 생성 시 과거 소견에 기반한 환각을 억제하면서도 임상적 정확도를 향상시키는 방법을 제시합니다.

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

이 논문은 CLIP 임베딩과 자연어 캡션을 활용한 비전 - 언어 정렬 기반 VL-WS 프레임워크를 제안하여, 다양한 농업 환경과 데이터 소스에 걸쳐 잡초 분할의 일반화 성능과 데이터 효율성을 크게 향상시켰음을 보여줍니다.

Nazia Hossain, Xintong Jiang, Yu Tian + 3 more2026-03-02💻 cs

Any Model, Any Place, Any Time: Get Remote Sensing Foundation Model Embeddings On Demand

이 논문은 다양한 원격 탐사 기초 모델의 이질적인 인터페이스와 데이터 사양 문제를 해결하기 위해, 단일 코드 행으로 임의의 모델, 위치, 시기에 대한 임베딩을 효율적으로 추출할 수 있는 통합 파이썬 라이브러리 'rs-embed'를 제안합니다.

Dingqi Ye, Daniel Kiv, Wei Hu + 2 more2026-03-02🤖 cs.LG

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

이 논문은 MLLM 의 계층적 특성을 반영하여 시각 토큰을 90% 까지 압축하면서도 성능을 유지하고 학습 속도를 1.72 배 가속화하는 새로운 효율성 프레임워크 'HiDrop'을 제안합니다.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

A Reliable Indoor Navigation System for Humans Using AR-based Technique

이 논문은 Vuforia Area Target, NavMesh 및 A* 알고리즘을 결합한 증강현실 (AR) 기반 기술을 통해 기존 실내 내비게이션의 한계를 극복하고 정확성과 사용자 경험을 향상시킨 시스템을 제안합니다.

Vijay U. Rathod, Manav S. Sharma, Shambhavi Verma + 3 more2026-03-02💻 cs

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

EgoGraph 는 여러 날에 걸친 초장기 일인칭 비디오의 이해를 위해 훈련이 불필요한 동적 지식 그래프 프레임워크를 제안하여, 개체 간의 장기적 의존성을 명시적으로 인코딩하고 복잡한 시간적 추론을 가능하게 함으로써 기존 방법의 한계를 극복하고 새로운 패러다임을 제시합니다.

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

이 논문은 통합 멀티모달 대규모 언어 모델이 텍스트 기반 추론에서는 탁월한 성능을 보이지만, 동일한 추론 결과를 이미지 생성으로 표현할 때 의미적 일관성이 무너지는 '시각적 생성 이해'의 한계를 VGUBench 를 통해 규명하고, 이 문제가 생성 품질 부족이 아닌 교차 모달 의미 정렬의 실패에서 기인함을 시사합니다.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

이 논문은 2D 시각 입력뿐만 아니라 미래 3D 공간 기하학적 지식과 4D 역사적 시공간 표현을 명시적으로 통합하여 로봇 조작의 공간 추론 및 장기 계획 능력을 획기적으로 향상시킨 오픈소스 비전 - 언어 - 행동 모델인 StemVLA 를 제안합니다.

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs

A Difference-in-Difference Approach to Detecting AI-Generated Images

이 논문은 기존 재구성 오차 (1 차 차이) 기반 탐지기의 한계를 극복하기 위해 재구성 오차의 차이 (2 차 차이) 를 활용하는 '차이의 차이 (Difference-in-Difference)' 기법을 제안하여 AI 생성 이미지 탐지의 정확도와 일반화 성능을 향상시켰음을 보여줍니다.

Xinyi Qi, Kai Ye, Chengchun Shi + 3 more2026-03-02💻 cs

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

이 논문은 시각적 객체 추적의 계산 비용을 줄이면서도 정확도를 유지하기 위해 검색 영역, 동적 템플릿, 정적 템플릿을 통합적으로 압축하는 새로운 단일 토큰 가지치기 프레임워크인 UTPTrack 을 제안하고, 다양한 벤치마크에서 기존 방법보다 뛰어난 성능과 효율성을 입증합니다.

Hao Wu, Xudong Wang, Jialiang Zhang + 5 more2026-03-02💬 cs.CL

U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

이 논문은 언어, 음성, 동작, 비디오 생성을 단일 상호작용 루프에서 실시간으로 통합하고, 교차 모달 동기화 및 추론 능력 보존을 위한 새로운 프레임워크를 도입하여 자연스러운 대화형 에이전트 구현을 가능하게 하는 'U-Mind'를 제안합니다.

Xiang Deng, Feng Gao, Yong Zhang + 5 more2026-03-02💻 cs

Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

이 논문은 $\beta$ -VAE 를 활용한 연속적인 일본어 문자 형태 변형을 통해 인간과 비전 - 언어 모델 (VLM) 의 모호한 문자 인식 결정 경계를 비교 분석하여, 형태만으로는 두 주체의 판단 패턴이 상이함을 확인하고 문맥 정보가 인간과의 정렬을 개선할 수 있음을 규명했습니다.

Daichi Haraguchi2026-03-02💻 cs

Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

이 논문은 임상 데이터의 선택 편향으로 인한 편향을 제거하고 진단 신뢰도를 높이기 위해, 구조적 인과 모델과 정보 병목 제약을 활용하여 병리학적 특징과 환경적 교란 요소를 비지도 방식으로 분리하고 인과적 개입을 수행하는 'CausalProto'라는 새로운 무감독 인과 프로토타입 네트워크를 제안합니다.

Junhao Jia, Yueyi Wu, Huangwei Chen + 4 more2026-03-02⚡ eess

Neural Image Space Tessellation

이 논문은 저해상도 메쉬만 렌더링하되, 이미지 공간에서 신경망을 활용해 법선 차이를 기반으로 윤곽선을 변형하고 텍스처를 재배치하여 기하학적 테셀레이션과 유사한 시각적 효과를 실시간으로 구현하는 'Neural Image-Space Tessellation(NIST)'이라는 새로운 포스트프로세싱 기법을 제안합니다.

Youyang Du, Junqiu Zhu, Zheng Zeng + 2 more2026-03-02💻 cs

Learning Accurate Segmentation Purely from Self-Supervision

본 논문은 수동 주석, 사전 학습된 분할 모델, 후처리 없이 원본 이미지만으로 전방위 객체를 분할하는 완전 자기지도 학습 프레임워크 'Selfment'를 제안하며, 이를 통해 기존 비지도 방법보다 뛰어난 성능을 달성하고 완전 지도 학습 방법과 경쟁할 수 있는 제로샷 일반화 능력을 입증했습니다.

Zuyao You, Zuxuan Wu, Yu-Gang Jiang2026-03-02💻 cs

OPTIAGENT: A Physics-Driven Agentic Framework for Automated Optical Design

이 논문은 광학 설계의 비볼록 최적화 문제를 해결하기 위해 전문 지식이 없는 사용자도 렌즈 시스템을 설계할 수 있도록 도메인 특화 데이터셋, 하이브리드 학습 목표, 물리 법칙 기반의 보상 메커니즘을 활용한 LLM 기반 자동 광학 설계 프레임워크 'OPTIAGENT'를 제안하고 그 우수성을 입증합니다.

Yuyu Geng, Lei Sun, Yao Gao + 6 more2026-03-02🤖 cs.LG

VideoPulse: Neonatal heart rate and peripheral capillary oxygen saturation (SpO2) estimation from contact free video

이 논문은 접촉식 센서의 부작용을 피하기 위해 신생아의 얼굴 영상만으로 심박수와 말초 산소 포화도 (SpO2) 를 정밀하게 추정하는 'VideoPulse' 데이터셋 및 엔드 투 엔드 파이프라인을 제안하고, 이를 통해 저비용 비접촉식 신생아 중환자실 모니터링의 가능성을 입증했습니다.

Deependra Dewagiri, Kamesh Anuradha, Pabadhi Liyanage + 6 more2026-03-02⚡ eess

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

이 논문은 사전 학습된 비전 기반 모델 (DINOv3) 을 3D 어댑터 및 멀티스케일 어그리게이터와 결합하여 소량의 데이터로도 도메인 간 전이 성능이 뛰어난 강건한 혈관 분할을 가능하게 하는 새로운 프레임워크를 제안하고, TopCoW 및 로잔 데이터셋에서 기존 최첨단 방법론보다 월등히 우수한 성능을 입증했습니다.

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess

FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy

이 논문은 형광 현미경의 염색체 특성에 따른 초점 품질 평가를 위해 새로운 데이터셋 'FluoMix'와 염색 정보를 고려한 CLIP 기반의 'FluoCLIP' 프레임워크를 제안하여, 기존 염색 무관 접근법의 한계를 극복하고 다양한 조건에서 강력한 일반화 성능을 달성함을 보여줍니다.

Hyejin Park, Jiwon Yoon, Sumin Park + 5 more2026-03-02⚡ eess

EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

이 논문은 다중 모달 대형 언어 모델의 감정 추론 능력을 향상시키기 위해 구조화된 감정 사고와 반성적 감정 보상을 도입한 'EMO-R3'라는 반성적 강화 학습 프레임워크를 제안하고, 이를 통해 모델의 해석 가능성과 감정 지능을 크게 개선했다고 요약할 수 있습니다.

Yiyang Fang, Wenke Huang, Pei Fu + 5 more2026-03-02🤖 cs.AI

← 이전 다음 →