cs.CV 편의 논문 | Gist.Science

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

이 논문은 V2X 통신과 클라우드 컴퓨팅을 활용하여 차량과 클라우드 간 처리를 동적으로 분할하고 양자화 및 압축 기법을 적용함으로써, 대역폭 변동 환경에서도 자율주행 차량의 360 도 3D 환경 인식 지연을 획기적으로 줄이고 정확도를 향상시키는 적응형 클라우드 지원 방식을 제안합니다.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

이 논문은 고도 변화가 큰 환경에서 추가 하드웨어 없이 지상 특징 밀도 분석과 이미지 분류를 결합한 고도 적응형 비전 기반 장소 인식 (VPR) 방법을 제안하여, 기존 방식 대비 정밀도와 강인성을 크게 향상시켰음을 보여줍니다.

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

이 논문은 열화된 이미지의 인식 성능을 향상시키기 위해 Degradation-Aware Conditional Embedding 기법을 도입하고, 이를 통해 Mamba 기반 네트워크가 실세계 이미지 초해상도에서 충실도와 지각적 품질을 균형 있게 달성하도록 한 DACESR 모델을 제안합니다.

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

이 논문은 인간의 주석이나 외부 흐름 지도 없이도 시공간적 특징의 유사성과 시간적 집적을 통해 3D occupancy 와 흐름을 동시에 예측하는 자기지도학습 기반의 새로운 방법론 'SelfOccFlow'를 제안하고 SemanticKITTI, KITTI-MOT, nuScenes 데이터셋에서 그 유효성을 입증합니다.

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

이 논문은 기존 참조 표현 이해 (REC) 벤치마크의 단점을 보완하고 단순한 단서 의존성을 배제하기 위해 고안된 'Ref-Adv'라는 새로운 벤치마크를 제시하며, 이를 통해 최신 멀티모달 LLM 들이 기존 데이터셋에서는 높은 성능을 보이지만 실제 시각적 추론과 정밀한 grounding 능력에서는 심각한 한계를 드러냄을 규명합니다.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

본 논문은 과거의 병리 확인 결과와 모델 예측을 기억 은행에 저장하여 새로운 사례와 유사한 경험을 기반으로 에이전트의 의사결정 정책을 동적으로 조정하는 'BUSD-Agent'라는 경험 기반 자기 적응형 캐스케이드 에이전트 프레임워크를 제안함으로써, 유방 초음파 선별 및 진단 과정에서 불필요한 생검 추천을 크게 줄이고 특이도를 향상시켰다고 요약할 수 있습니다.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

이 논문은 B-스플라인 제어점 공간에서 비동기 추론을 수행하여 조인트 내 및 조인트 간 불연속성을 해결하고, 실시간으로 매끄러운 로봇 조작을 가능하게 하는 ABPolicy 를 제안합니다.

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

이 논문은 비대칭 어텐션, 멀티스케일 특징 융합, 다중 태스크 최적화 등을 통합한 경량 2.5D 프레임워크 'SegMate'를 제안하여, 의료 영상 분할에서 연산 비용과 메모리 사용량을 획기적으로 줄이면서도 기존 최첨단 모델에 버금가는 높은 정확도와 일반화 성능을 달성함을 보여줍니다.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Half-Truths Break Similarity-Based Retrieval

이 논문은 잘못된 세부 사항이 추가된 '반진실' 텍스트에 대해 기존 CLIP 모델이 오히려 유사도가 높아지는 문제를 지적하고, 캡션의 구성 요소를 개별적으로 감독하여 학습하는 'CS-CLIP'을 제안함으로써 이러한 오류를 획기적으로 줄이고 구성적 이해 능력을 향상시켰음을 보여줍니다.

Bora Kargi, Arnas Uselis, Seong Joon Oh2026-03-02💻 cs

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

이 논문은 기존 분류 중심의 전이성 평가 지표의 한계를 극복하고, 글로벌 표현 위상 발산과 국소 경계 인식 위상 일관성을 결합한 새로운 위상 기반 프레임워크를 통해 의료 비전 모델의 미세 조정 없이도 세그멘테이션 작업에 적합한 모델을 31% 이상 높은 정확도로 선별할 수 있음을 입증합니다.

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

이 논문은 실내 환경의 정밀한 표면 재구성을 위해 기하학적 사전 정보의 불확실성을 명시적으로 추정하고 이를 활용한 손실 함수와 에지 거리장 및 다중 뷰 일관성 정규화라는 보완적 제약을 도입한 신경 암시적 프레임워크인 GPU-SDF 를 제안합니다.

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

이 논문은 실제 실내 투어 비디오에서 추출한 대규모 멀티모달 이벤트 지식 그래프 (YE-KG) 와 계층적 검색 메커니즘을 도입하여 미지의 환경에서 모호한 지시를 따른 장기적 추론 능력을 향상시킨 새로운 비전 - 언어 내비게이션 모델 (STE-VLN) 을 제안합니다.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

이 논문은 3D 점구름 데이터에 대한 명시적 추론을 위해 '보고, 생각한 후 답하기' 패러다임을 도입하고, 계층적 사고사슬 (CoT) 주석이 달린 대규모 데이터셋 Point-Reason-Instruct 를 구축하여 멀티모달 대형 언어 모델의 3D 기하학적 추론 능력을 획기적으로 향상시킨 PointCoT 프레임워크를 제안합니다.

Dongxu Zhang, Yiding Sun, Pengcheng Li + 12 more2026-03-02🤖 cs.AI

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

이 논문은 잔차 네트워크와 인셉션 네트워크를 병렬로 활용하고 적응형 특징 융합 모듈을 도입한 이중 분기 구조를 제안하여, 기존 광류 기반 방법보다 CASME II 데이터셋에서 74.67% 의 높은 정확도로 미세표정 인식 성능을 개선했습니다.

Mingjie Zhang, Bo Li, Wanting Liu + 5 more2026-03-02🤖 cs.AI

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

이 논문은 정적 모델 지식과 동적으로 검색된 정보 간의 충돌을 해결하기 위해 비주얼 중심의 충돌 추론과 상관관계 기반 인코딩/디코딩을 도입한 학습 없는 CC-VQA 방법을 제안하며, 여러 벤치마크에서 기존 방법 대비 뛰어난 성능을 입증합니다.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting

이 논문은 가려진 과일을 포함한 완전한 분할을 통해 로봇 수확의 성공률을 높이는 새로운 아모달 인스턴스 분할 모델인 GDA-YOLO11 과 이를 활용한 로봇 수확 프레임워크를 제안하고, 실제 실험을 통해 기존 모델 대비 뛰어난 성능과 가려짐 환경에서의 견고성을 입증했습니다.

Caner Beldek, Emre Sariyildiz, Son Lam Phung + 1 more2026-03-02💻 cs

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

SwitchCraft 는 단일 이벤트에 최적화된 기존 모델의 한계를 극복하기 위해, 훈련 없이 이벤트와 프레임을 정렬하는 '이벤트 정렬 쿼리 조향 (EAQS)'과 적응형 강도 조절 '자동 균형 솔버 (ABSS)'를 도입하여 다중 이벤트 비디오 생성의 명확성과 일관성을 획기적으로 개선하는 프레임워크입니다.

Qianxun Xu, Chenxi Song, Yujun Cai + 1 more2026-03-02💻 cs

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

이 논문은 텍스트 기반 좌표나 고정 패치 방식의 한계를 극복하고, MLLM 의 행동 공간을 이산적 토큰에서 연속적인 유클리드 공간으로 확장하여 정밀한 지역 기반 시각 추론과 강화 학습을 가능하게 하는 'Numerical Visual Chain-of-Thought(NV-CoT)' 프레임워크를 제안합니다.

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

이 논문은 비조영제 CT 영상에서 뇌졸중 분할 및 ASPECTS 점수 산정을 개선하기 위해 DINOv3 기반 표현과 해부학적 일관성을 강제하는 새로운 손실 함수 (TAGL) 를 결합한 임상 친화적 프레임워크를 제안하고, 이를 통해 기존 방법론보다 우수한 성능을 입증했습니다.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

이 논문은 2D 기반 DINOv3 사전 학습 모델을 고정된 3D 윈도우 분해 및 재구성 메커니즘을 통해 확장하여 조산아 및 만삭아의 뇌 MRI 에서 해마 구조의 3D 분할을 수행하는 새로운 접근법을 제안하고, 이를 통해 2D 표현으로부터 3D 해부학적 구조를 복원할 수 있음을 입증합니다.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

← 이전 다음 →