cs.CV 편의 논문 | Gist.Science

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

이 논문은 ABLDataset 과 4 개의 물안경 카메라를 활용하여 유럽 긴급 차량의 파란색 경광등을 94.7% 의 정확도로 탐지하고 접근 각도를 추정하는 '색상 주의 RT-DETR' 기반의 360 도 다중 카메라 시스템을 제안합니다.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

이 논문은 복잡한 배경 속에서 움직이는 적외선 소표적을 탐지하기 위해 생체 영감을 받아 움직임과 외관을 통합하는 새로운 강력한 베이스라인 모델인 MI-DETR 을 제안하고, 이를 통해 여러 벤치마크에서 기존 최첨단 방법보다 우수한 성능을 달성했음을 보여줍니다.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

이 논문은 텍스트, 이미지, 오디오 등 7 가지 모달리티가 임의로 교차된 입력을 이해하고 생성하는 'Any-to-Any' 능력을 평가하기 위해 31,000 개의 고품질 데이터셋인 UniM 벤치마크와 평가 체계를 소개하고, 이를 위한 UniMA 기반 모델을 제안하여 통합된 멀티모달 지능의 발전 방향을 제시합니다.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

이 논문은 움직이는 물체로 인한 카메라 포즈 추정의 어려움을 해결하고 실시간 적용이 가능한 효율적인 4D 동적 장면 재구성을 위해, 정적 구조와 동적 운동을 분리하는 어텐션 강제 전략과 그룹화 인과 어텐션을 활용한 새로운 피드포워드 네트워크 'MoRe'를 제안합니다.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

이 논문은 3D 및 비디오 확산 모델의 공간적·시간적 사전 지식을 직교 공간 - 시간 분포 전이 (Orster) 메커니즘을 통해 전이하는 STD-4D 확산 모델과 ST-HexPlane 을 제안하여, 대규모 4D 데이터셋의 부재라는 한계를 극복하고 고품질의 4D 생성을 가능하게 합니다.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

이 논문은 최적 생성 흐름을 기반으로 한 공리적 온-매니폴드 샤플리 가치 이론을 제시하여, 기존 방법의 오프-매니폴드 아티팩트를 해결하고 재매개변수화 불변성 및 기하학적 효율성을 보장하는 새로운 XAI 기법을 제안합니다.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

이 논문은 이진 비디오 레벨 라벨만 사용하는 약한 지도 학습의 한계를 극복하기 위해 EM 기반 최적화, 학습 불필요한 시간적 일관성 정제, 그리고 제안 간 관계를 모델링하는 그래프 기반 정제 모듈을 도입하여 GEM-TFL 을 제안하고, 완전 지도 학습 방법과 유사한 성능으로 비디오 내 조작 구간을 정확하게 국소화하는 것을 목표로 합니다.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

이 논문은 진화적 탐색을 통해 확산 모델의 단계별 희소성 스케줄을 자동 최적화하고 메모리 효율적인 가중치 라우팅을 적용하여, 이미지 품질 저하 없이 실제 가속화를 실현하는 새로운 구조적 가지치기 프레임워크인 Diff-ES 를 제안합니다.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

이 논문은 NK 세포와 종양 세포 간의 상호작용 궤적을 학습하여 세포 사멸 결과를 예측하고 해석 가능한 잠재적 행동 모드를 제공하는 새로운 순환 상태 공간 모델인 'BLINK'를 제안합니다.

Iman Nematollahi, Jose Francisco Villena-Ossa, Alina Moter + 6 more2026-03-06🤖 cs.LG

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

이 논문은 다양한 모달리티와 도메인 간 차이를 극복하고 단일 모델로 보행자 속성 인식 작업을 통합적으로 수행할 수 있는 Transformer 기반의 UniPAR 프레임워크를 제안하며, 실험을 통해 기존 최첨단 방법과 유사한 성능과 향상된 일반화 능력을 입증합니다.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

이 논문은 그라디언트 불안정성과 날카로운 최소값 수렴 문제를 해결하기 위해 전역 의미적 가이드를 활용한 자기 재배향 적대적 스타일 교란 (SRasP) 을 제안하여, 교차 도메인 퓨샷 학습의 일반화 성능을 향상시키는 방법을 제시합니다.

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

이 논문은 비전-언어-행동 (VLA) 모델의 추론 시 복잡성을 동적으로 감지하여 단순 작업은 즉시 수행하고, 모호한 상황은 추론하며, 이상 징후가 감지되면 실행을 중단하는 '행동, 사고, 중단' 적응형 프레임워크를 제안합니다.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

이 논문은 복잡한 조명 환경에서 반사광을 효과적으로 모델링하고 기하학적 사전 지식을 활용하여 광택 표면의 3D 재구성을 혁신적으로 개선한 'SSR-GS' 프레임워크를 제안합니다.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

이 논문은 단순한 폐 영역 잘라내기 (lung cropping) 전처리 기법이 진단 정확도를 유지하면서 인종적 편향을 줄이는 효과적인 방법임을 규명하여, 공정한 AI 의료 모델 개발에 중요한 통찰을 제공합니다.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

이 논문은 일반 카메라 보정 시 발생할 수 있는 모션 블러 문제를 해결하기 위해 기하학적 제약과 국소 파라미터 조명 모델을 활용하여 특징점 위치와 공간적으로 변하는 점 확산 함수를 동시에 추정하는 새로운 방법을 제안하고 그 유효성을 실험적으로 입증합니다.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

이 논문은 그래프 토폴로지를 활용한 세밀한 교차 모달 대비 학습과 모달리티 적응형 그래프 지시 미세 조정을 통해 대규모 언어 모델이 멀티모달 그래프에서 효과적으로 추론할 수 있도록 하는 'Mario'라는 통합 프레임워크를 제안합니다.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

이 논문은 시각적 단서에서 학습 가능한 논리 규칙을 도입하여 환자 활동 인식의 정확도를 높이고, 위험 요인의 원인을 설명하며 개입 효과를 시뮬레이션할 수 있는 새로운 프레임워크인 'Logi-PAR'을 제안합니다.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

이 논문은 의료 이미지 세그멘테이션에서 발생하는 클래스 불균형 문제를 해결하기 위해, 학습 가능한 클래스 프록시와 레이블 데이터를 활용한 양방향 정렬 및 앵커 제약 기법을 통해 특징 분포를 구조화하는 '의미론적 클래스 분포 학습 (SCDL)' 프레임워크를 제안하고, Synapse 및 AMOS 데이터셋에서 소수 클래스를 포함한 전반적인 성능을 획기적으로 향상시킨 결과를 보여줍니다.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

이 논문은 위성 영상과 물리 법칙을 결합한 SPyCer 모델을 통해 지상 센서의 희소성을 보완하고 물리적으로 일관된 근지면 기온을 연속적으로 추정하는 새로운 방법을 제시합니다.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

이 논문은 RGB-D 센서, 촉각 피드백, 충돌 인식 모션 플랜닝을 갖춘 디지털 트윈 기반 양팔 로봇 시스템과 시각 언어 모델 (VLM) 을 통합하여, 변형 가능한 의류와 이물질을 실시간으로 분류 및 식별하는 자동화된 텍스타일 선별 시스템의 실현 가능성을 입증했습니다.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

← 이전 다음 →