cs.CV 편의 논문 | Gist.Science

Subimage Overlap Prediction: Task-Aligned Self-Supervised Pretraining For Semantic Segmentation In Remote Sensing Imagery

이 논문은 원격 탐사 이미지에서 의미 분할을 위해 적은 양의 사전 학습 데이터로도 기존 방법보다 빠른 수렴과 동등하거나 더 나은 성능을 달성하는 새로운 자기지도 학습 과제인 '서브이미지 중첩 예측 (Subimage Overlap Prediction)'을 제안합니다.

Lakshay Sharma, Alex Marin2026-03-24🤖 cs.AI

ClearAIR: A Human-Visual-Perception-Inspired All-in-One Image Restoration

이 논문은 인간의 시각 지각을 모방한 계층적 coarse-to-fine 전략, 멀티모달 LLM 기반 전역 평가, 지역 인식 및 작업 인식 파이프라인, 그리고 내부 단서 재사용 메커니즘을 통해 기존 모든-하나 이미지 복원 방법의 한계를 극복하고 다양한 합성 및 실제 데이터셋에서 우수한 성능을 보이는 ClearAIR 프레임워크를 제안합니다.

Xu Zhang, Huan Zhang, Guoli Wang, Qian Zhang, Lefei Zhang2026-03-24💻 cs

UniLiPs: Unified LiDAR Pseudo-Labeling with Geometry-Grounded Dynamic Scene Decomposition

이 논문은 수동 주석이 없는 LiDAR 데이터의 3D 지리학적 일관성과 텍스트 및 2D 비전 기반 모델을 결합하여 수동 개입 없이 3D 의미론적 라벨, 3D 바운딩 박스, 그리고 밀도 높은 LiDAR 스캔을 자동으로 생성하는 'UniLiPs'라는 통합된 비지도 가짜 라벨링 방법을 제안합니다.

Filippo Ghilotti, Samuel Brucker, Nahku Saidy, Matteo Matteucci, Mario Bijelic, Felix Heide2026-03-24💻 cs

GenAI-DrawIO-Creator: A Framework for Automated Diagram Generation

이 논문은 Claude 3.7 기반의 LLM 을 활용하여 draw.io 의 구조화된 XML 형식으로 네트워크 아키텍처나 흐름도 등 다양한 다이어그램을 자연어, 코드 또는 이미지로부터 자동 생성 및 수정하는 'GenAI-DrawIO-Creator' 프레임워크를 제안하고, 이를 통해 다이어그램 제작 시간을 획기적으로 단축하면서도 높은 구조적 정확도를 달성함을 보여줍니다.

Jinze Yu, Dayuan Jiang2026-03-24💻 cs

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

이 논문은 강화학습 기반 비디오 모델에서 직접 답변이 종종 사고 과정 (CoT) 보다 효율적이거나 동등한 성능을 보인다는 점을 발견하고, 초기 답변의 신뢰도에 따라 추론이 필요한 경우에만 사고를 수행하는 '한 번 사고, 두 번 답변' 전략을 도입한 VideoAuto-R1 을 제안하여 정확도를 유지하면서 응답 길이를 약 3.3 배 단축하는 새로운 비디오 이해 프레임워크를 제시합니다.

Shuming Liu, Mingchen Zhuge, Changsheng Zhao, Jun Chen, Lemeng Wu, Zechun Liu, Chenchen Zhu, Zhipeng Cai, Chong Zhou, Haozhe Liu, Ernie Chang, Saksham Suri, Hongyu Xu, Qi Qian, Wei Wen, Balakrishnan V (…)2026-03-24💻 cs

ObjectForesight: Predicting Future 3D Object Trajectories from Human Videos

이 논문은 인간의 시각적 관찰을 바탕으로 물체의 미래 3D 운동과 궤적을 예측하는 'ObjectForesight'라는 3D 물체 중심 동역학 모델을 제안하고, 대규모 데이터셋을 통해 학습하여 기존 모델보다 정확성과 일반화 성능을 크게 향상시켰음을 보여줍니다.

Rustin Soraki, Homanga Bharadhwaj, Ali Farhadi, Roozbeh Mottaghi2026-03-24💻 cs

Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

이 논문은 텍스트나 목표 이미지보다 물리적 힘 벡터를 통해 목표를 명시함으로써, 단순한 물리 데이터 학습을 통해 복잡한 실제 세계의 물리 시나리오에 제로샷으로 일반화되는 'Goal Force'라는 새로운 비디오 생성 프레임워크를 제안합니다.

Nate Gillman, Yinghua Zhou, Zitian Tang, Evan Luo, Arjan Chakravarthy, Daksh Aggarwal, Michael Freeman, Charles Herrmann, Chen Sun2026-03-24🤖 cs.AI

HERE: Hierarchical Active Exploration of Radiance Field with Epistemic Uncertainty Minimization

이 논문은 증거 기반 딥러닝을 활용한 인식 불확실성 정량화와 계층적 탐지 전략을 통해 미탐사 영역을 효과적으로 식별하고 고충실도 3D 장면을 효율적으로 재구성하는 능동적 신경 방사선 필드 프레임워크 'HERE'를 제안합니다.

Taekbeom Lee, Dabin Kim, Youngseok Jang, H. Jin Kim2026-03-24💻 cs

M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding

이 논문은 의료 영상 이해에서 다중 모달 대형 언어 모델 (MLLM) 의 사고 과정 (Chain-of-Thought) 의 정확성, 효율성, 영향력 및 일관성을 평가하기 위해 24 가지 검사 유형과 13 가지 과제를 포함한 새로운 벤치마크인 M3CoTBench 를 제안합니다.

Juntao Jiang, Jiangning Zhang, Yali Bi, Jinsheng Bai, Weixuan Liu, Weiwei Jin, Zhucun Xue, Yong Liu, Xiaobin Hu, Shuicheng Yan2026-03-24⚡ eess

Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration

이 논문은 장기 기억을 활용한 신체적 탐구를 위한 벤치마크인 LMEE-Bench 와 강화 학습 기반의 멀티모달 LLM 프레임워크 MemoryExplorer 를 제안하여, 기존 작업 수행 중심의 평가에서 벗어나 탐구 과정과 기억 활용을 종합적으로 평가하고 장기적 과제의 성능을 크게 향상시켰음을 보여줍니다.

Sen Wang, Bangwei Liu, Zhenkun Gao, Lizhuang Ma, Xuhong Wang, Yuan Xie, Xin Tan2026-03-24🤖 cs.AI

← 이전 다음 →