cs.CV 편의 논문 | Gist.Science

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

이 논문은 변형 가능한 상태 공간 모델과 릴레이 토큰 메커니즘을 도입하여 비디오 및 오디오의 조작 구간을 정밀하게 식별하는 새로운 프레임워크인 'DeformTrace'를 제안하며, 기존 방법들의 한계를 극복하고 적은 파라미터로 최첨단 성능을 달성함을 보여줍니다.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

이 논문은 다중 모달리티 간 이질성과 개인화 요구를 동시에 해결하기 위해, 각 모달리티별 인코더를 연방 학습하고 부분적으로 개인화된 퓨전 디코더를 도입한 'FedMEPD'라는 새로운 연방 학습 프레임워크를 제안하여 뇌 종양 분할 성능을 향상시킨 연구입니다.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

이 논문은 이질적인 데이터 모달리티를 가진 클라이언트 간의 개인화된 성능과 모델 이질성 문제를 해결하기 위해, 양측의 학습을 강화하는 적대적 정렬, 세분화 인식 융합, 유사도 기반 앙상블 증류 기법을 통합한 다중 모달 연합 학습 프레임워크인 FedAFD 를 제안합니다.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

이 논문은 전역 자기주의 메커니즘이 세밀한 공간 정보를 흐리게 할 수 있는 비전 트랜스포머의 한계를 극복하기 위해, 학습 가능한 가우시안 커널을 도입하여 패치 간 국소적 상호작용을 강화함으로써 분류 성능을 유지하면서 분할 성능을 크게 향상시키는 간단한 부가 모듈을 제안합니다.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

이 논문은 사전 학습된 비디오 확산 모델의 한계를 극복하고 고해상도 고프레임레이트 슬로우 모션 생성을 위해, 잠재 시퀀스의 시간적 모델링과 구조 인식 운동 가이드, 그리고 시간적 일관성 손실을 도입하여 충실도와 일관성을 모두 확보한 새로운 비디오 프레임 보간 방법인 FC-VFI 를 제안합니다.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

이 논문은 생성된 텍스트에 대한 어텐션을 적응적으로 증가시키는 AdaIAT 기법을 제안하여, 대형 시각 - 언어 모델 (LVLM) 의 환각 현상을 줄이면서도 언어적 일관성과 예측 능력을 유지하는 균형을 달성함을 보여줍니다.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

이 논문은 이동하는 카메라 시점에서 발생하는 원근 왜곡 문제를 해결하기 위해, 가시적 특징을 고려한 3D 적대적 텍스처 최적화 기법을 제안하여 동적 환경에서도 로봇의 시각-운동 정책을 효과적으로 교란할 수 있음을 입증합니다.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

이 논문은 오버헤드 크레인 LiDAR 를 활용한 산업용 실내 공간의 사람 탐지 및 추적을 위해 전용 데이터셋을 구축하고, VoxelNeXT 와 SECOND 와 같은 3D 탐지기를 적응시켜 근거리에서 0.97 의 높은 평균 정밀도를 달성함과 동시에 실시간 추적 가능성을 입증했습니다.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

이 논문은 병리학자의 진단 워크플로우를 모방하여 신뢰할 수 있는 해석 가능성을 제공하는 적응형 프로토타입 기반 약지도 학습 프레임워크를 제안함으로써 전립선암 조직병리 이미지의 자동 등급 분류 성능과 신뢰도를 동시에 향상시켰습니다.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

이 논문은 웹 환경의 변화에 따른 에이전트의 취약성을 평가하기 위해 'TimeWarp' 벤치마크를 제안하고, 여러 버전의 UI 를 아우르는 궤적을 활용한 'TimeTraj' 알고리즘을 통해 웹 에이전트의 일반화 성능과 견고성을 획기적으로 향상시켰음을 보여줍니다.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

이 논문은 방사선과 전문의의 비교 진단 워크플로우를 모방하여 질병 진행과 촬영 차이로 인한 미세한 시각적 변이를 구별하기 위해 자동 참조 표현 및 지상화 캡션링과 같은 위치 인식 태스크를 포함한 사전 학습 프레임워크를 제안함으로써, 흉부 X-ray 이미지에서 임상적으로 관련 있는 변화를 감지하고 추론하는 성능을 획기적으로 개선한 연구입니다.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

이 논문은 DOCCI 데이터셋의 고밀도 인간 작성 설명과 효율적인 멀티모달 정렬을 통해 17 억 파라미터 규모의 소형 모델임에도 불구하고 상세하고 구조화된 이미지 캡션을 생성할 수 있는 'VisionPangu'를 제안합니다.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

이 논문은 헤드마운트 카메라로 촬영된 근접 얼굴 영상에서 발생하는 원근 왜곡을 효과적으로 포착하면서도 기존 정사영 모델의 안정성을 유지하기 위해, 3D 모퍼블 모델 회귀를 위한 새로운 축소 파라미터가 포함된 의사 원근 카메라 모델을 제안합니다.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

이 논문은 저조도 이미지 향상 (LLIE) 시 이벤트 카메라의 내재적 노이즈와 이미지 신호 대 잡음비 저하로 인한 성능 병목 현상을 해결하기 위해, 이미지와 이벤트 간의 강한 기울기 상관관계를 활용한 경향성 기반 이벤트 정제 사전 지식을 도입하고, 향상 작업에 적응적으로 최적화되도록 이벤트 정제를 상하위 레벨 최적화 문제로 재정의한 'BiEvLight' 프레임워크를 제안합니다.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

이 논문은 3D 장면 이해의 평가 지표를 직접 보상 함수로 활용하는 강화 미세 조정 (3D-RFT) 프레임워크를 제안하여, 기존 지도 학습 기반 방법론의 한계를 극복하고 더 큰 모델보다 우수한 성능을 보이는 비디오 기반 3D 인식 및 추론 능력을 달성했습니다.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

이 논문은 장기간 비디오 이해의 어려움을 해결하기 위해, 답변 후보를 검증 가능한 가설로 재구성하고 국소적 비디오 콘텐츠를 통해 이를 검증하는 'VideoHV-Agent'라는 다중 에이전트 프레임워크를 제안하여 기존 방법론보다 높은 정확도와 논리적 타당성을 달성했다고 요약할 수 있습니다.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

이 논문은 다음 토큰 예측을 기반으로 한 간단한 오토레거시 모델인 Wallaroo 를 통해 멀티모달 이해, 이미지 생성 및 편집을 통합하고 다양한 해상도와 다국어 지원을 구현하는 새로운 접근법을 제시합니다.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

이 논문은 프레임과 이벤트 스트림 간의 비동기적 융합을 통해 모달리티 실패나 저조도 환경에서도 견고한 임의 점 추적을 가능하게 하는 TAPFormer 를 제안하고, 이를 위해 새로운 실제 데이터셋을 구축하여 기존 방법론보다 우수한 성능을 입증했습니다.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

이 논문은 단일 이미지로부터 고품질의 3D 의상 입은 인간 아바타를 복원하기 위해, 대규모 텍스처 데이터 구축, 영역 인식 형상 추출 모듈, 그리고 기하 - 텍스처 협업 특성을 활용한 이중 재구성 U-Net 을 통합한 'MultiGO++' 프레임워크를 제안합니다.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

이 논문은 단일 흐릿한 이미지에서 물리적으로 일관된 Zernike 계수, 파면 및 점확산함수 제약을 통합한 'Lens2Zernike' 프레임워크를 제안하여 모바일 광학의 왜곡을 물리적으로 정확하게 복원하고 이를 통해 안정적인 비블라인드 디컨볼루션을 가능하게 함으로써 기존 딥러닝 및 고전적 방법보다 우수한 성능을 달성했습니다.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

← 이전 다음 →