cs.CV 편의 논문 | Gist.Science

OPGAgent: An Agent for Auditable Dental Panoramic X-ray Interpretation

이 논문은 치과 전산화 단층촬영 (OPG) 해석의 정확성과 검증 가능성을 높이기 위해 계층적 증거 수집, 전문 도구 상자, 합의 메커니즘을 통합한 OPGAgent 와 새로운 평가 벤치마크인 OPG-Bench 를 제안하고, 기존 비전 - 언어 모델 및 의료 에이전트 프레임워크보다 우수한 성능을 입증했습니다.

Zhaolin Yu, Litao Yang, Ben Babicka + 7 more2026-03-03🤖 cs.AI

DreamWorld: Unified World Modeling in Video Generation

이 논문은 물리 상식, 3D 기하학, 시간적 일관성 등 다양한 세계 지식을 통합하여 비디오 생성의 일관성을 획기적으로 개선한 'DreamWorld' 프레임워크와 이를 위한 학습 및 추론 기법을 제안합니다.

Boming Tan, Xiangdong Zhang, Ning Liao + 5 more2026-03-03💻 cs

High Dynamic Range Imaging Based on an Asymmetric Event-SVE Camera System

이 논문은 비대칭 이진 이벤트 카메라와 공간 가변 노출 (SVE) 센서를 하드웨어 - 알고리즘 공동 설계로 통합하고, 정교한 교차 모드 정렬 및 융합 네트워크를 통해 극한 조명 환경에서도 뛰어난 고동적 범위 (HDR) 영상 복원 성능을 달성하는 시스템을 제안합니다.

Pengju Sun, Banglei Guan, Jing Tao + 4 more2026-03-03💻 cs

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

이 논문은 데이터가 부족한 환경에서의 검증 세트 환상을 극복하기 위해 'Hyperparameter Ensemble' 프로토콜을 도입하고 10 개의 다양한 데이터셋으로 구성된 'FEWTRANS' 벤치마크를 제안하며, 복잡한 전이 학습 방법보다 단순한 전체 파라미터 미세 조정이 더 효과적임을 실증하고 그 메커니즘을 분석합니다.

Xu Luo, Ji Zhang, Lianli Gao + 2 more2026-03-03🤖 cs.LG

U-VLM: Hierarchical Vision Language Modeling for Report Generation

이 논문은 3D 의료 영상 기반의 자동 방사선 보고서 생성 성능을 획기적으로 개선하기 위해, 세그멘테이션 사전학습 인코더와 다층 시각적 주입을 특징으로 하는 위계적 비전 - 언어 모델인 U-VLM 을 제안하고, 이를 통해 7B 이상의 대규모 언어 모델보다 우수한 성능을 입증했습니다.

Pengcheng Shi, Minghui Zhang, Kehan Song + 3 more2026-03-03💻 cs

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

이 논문은 물리적 적대적 예제 공격이 미국 선거 결과에 미치는 영향을 정량화하기 위해, 물리적 환경에서 가장 효과적인 공격 유형을 규명하고 이를 확률적 선거 프레임워크와 결합하여 적대적 유권자 조작이 선거 결과를 뒤집을 수 있는 조건을 분석합니다.

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG

TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications

이 논문은 고해상도와 저해상도 이미지를 동시에 처리하는 이중 비주얼 토크나이저, 다중 스케일 토크를 융합하는 양측 주의 네트워크, 그리고 KAN 기반의 정밀한 비선형 정렬 프로젝터를 도입하여 기존 시각 - 언어 모델의 한계를 극복하고 다중 모달 및 다중 태스크 토크 통신 시스템의 성능을 향상시킨 'TaiChi' 프레임워크를 제안합니다.

Feibo Jiang, Siwei Tu, Li Dong + 5 more2026-03-03🔢 math

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

RAISE 는 복잡한 텍스트-이미지 생성 작업에서 고정된 반복 횟수나 추가 학습 없이, 요구사항 기반의 적응적 진화 프레임워크를 통해 생성 후보를 정제하고 불만족 요소를 동적으로 식별하여 계산 효율성과 정렬 정확도를 동시에 극대화하는 새로운 방법론을 제안합니다.

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

Random Wins All: Rethinking Grouping Strategies for Vision Tokens

이 논문은 비전 트랜스포머의 토큰 그룹화 전략에 대한 복잡한 설계가 불필요하며, 위치 정보와 헤드 다양성 등 네 가지 핵심 조건만 충족된다면 단순한 무작위 그룹화 전략이 다양한 시각 작업 및 다른 모달리티에서 기존 방법들을 능가하는 성능을 발휘함을 실험과 분석을 통해 증명합니다.

Qihang Fan, Yuang Ai, Huaibo Huang + 1 more2026-03-03💻 cs

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

이 논문은 3D 재구성에서 관찰되지 않은 영역의 아티팩트를 해결하고 확장성을 높이기 위해, 기존 관측 데이터와의 일관성을 유지하면서 새로운 콘텐츠를 생성할 수 있는 양방향 생성 모델을 학습한 후 이를 단일 패스로 수백 프레임을 생성하는 인과적 자동회귀 모델로 증류하는 2 단계 파이프라인 'ArtiFixer'를 제안합니다.

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

이 논문은 가시성, 시점 변화, 이상치로 인한 어려움을 극복하기 위해 점별 신뢰도를 최적 수송의 마진으로 활용하는 'COG'라는 비지도 프레임워크를 제안하여, 단일 참조 뷰를 기반으로 한 새로운 물체의 6DoF 자세 추정을 수행합니다.

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

이 논문은 긴 시간의 웹 작업에서 발생하는 한계를 해결하기 위해 동적 궤적 요약과 인사이트 검색을 결합한 훈련 불필요의 이중 기억 증강 프레임워크인 M $^2$ 를 제안하며, 이를 통해 다양한 벤치마크에서 성공률 향상과 토큰 사용량 감소를 동시에 달성함을 보여줍니다.

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs

Hierarchical Classification for Improved Histopathology Image Analysis

본 논문은 병리학 전체 슬라이드 이미지 분석을 위해 다중 인스턴스 학습 기반의 계층적 특징 통합과 맞춤형 손실 함수를 도입하여 거시적 및 미시적 분류 성능을 모두 향상시킨 'HiClass' 프레임워크를 제안하고, 위생검 조직 데이터셋을 통해 그 유효성을 입증합니다.

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

이 논문은 제안한 'EmbedLens' 분석 도구를 통해 멀티모달 대규모 언어 모델의 시각 토큰이 의미적 희소성을 가지며, 이미지 정보를 주로 담고 있는 '살아있는 토큰'만으로도 대부분의 작업이 가능하고 내부 계산이 불필요함을 규명하여 효율적인 모델 설계를 위한 토큰 가지치기 및 중간 계층 주입 전략을 제시합니다.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

이 논문은 시각적 질문 응답 시스템의 환각 현상을 해결하기 위해 모델의 내부 지식 신뢰도를 기반으로 외부 정보 활용을 동적으로 조절하는 '다중 모달 적응형 검색 증강 생성 (MMA-RAG)' 프레임워크를 제안하고, 이를 통해 다양한 다중 모달 시나리오에서 응답 정확도와 추론 견고성을 크게 향상시켰음을 보여줍니다.

Ruoshuang Du, Xin Sun, Qiang Liu + 4 more2026-03-03🤖 cs.LG

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

이 논문은 기존 스테레오 비디오 데이터를 활용한 비용 효율적인 데이터 구축 파이프라인과 아키텍처 변경 없이 GRPO 기반의 강화 학습을 통해 2D RGB 입력만으로 4D 시공간 이해 및 추론 능력을 획기적으로 향상시킨 MLLM-4D 프레임워크를 제안합니다.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

이 논문은 Vision Transformers 의 자기 주의 메커니즘이 가진 2 차 복잡성 문제를 해결하기 위해 테스트 시간 학습 (TTT) 을 비선형적 시각 표현 학습에 도입하여, 선형 시간 복잡도와 높은 효율성을 갖춘 새로운 비전 백본인 Vision-TTT 를 제안하고 ImageNet 분류 및 하류 작업에서 뛰어난 성능을 입증했습니다.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness

이 논문은 생성 콘텐츠의 지역별 수렴 패턴을 분석하여 학습 없이 적응형 토큰 스케줄링을 수행함으로써 생성 품질을 유지하면서 확산 모델의 생성 속도를 평균 2 배까지 향상시키는 'Jano' 프레임워크를 제안합니다.

Yuyang Chen, Linqian Zeng, Yijin ZHou + 2 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

이 논문은 비동기 온라인 강화학습 프레임워크와 우세성 기반 순위 선호도 최적화 (ARPO) 알고리즘을 도입하여 3D 메시 생성의 학습 효율성과 일반화 성능을 동시에 향상시킨 SOTA 모델 'Mesh-Pro'를 제안합니다.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

TP-Spikformer: Token Pruned Spiking Transformer

이 논문은 정보 보존을 위한 휴리스틱 시공간 기준과 블록 단위 조기 종료 전략을 도입하여, 학습 없이도 다양한 스파이킹 트랜스포머 아키텍처의 계산 및 저장 오버헤드를 줄이면서 경쟁력 있는 성능을 유지하는 'TP-Spikformer'를 제안합니다.

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

← 이전 다음 →

cs.CV