cs.CV 편의 논문 | Gist.Science

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

이 논문은 진화적 탐색을 통해 확산 모델의 단계별 희소성 스케줄을 자동 최적화하고 메모리 효율적인 가중치 라우팅을 적용하여, 이미지 품질 저하 없이 실제 가속화를 실현하는 새로운 구조적 가지치기 프레임워크인 Diff-ES 를 제안합니다.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

이 논문은 NK 세포와 종양 세포 간의 상호작용 궤적을 학습하여 세포 사멸 결과를 예측하고 해석 가능한 잠재적 행동 모드를 제공하는 새로운 순환 상태 공간 모델인 'BLINK'를 제안합니다.

Iman Nematollahi, Jose Francisco Villena-Ossa, Alina Moter + 6 more2026-03-06🤖 cs.LG

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

이 논문은 다양한 모달리티와 도메인 간 차이를 극복하고 단일 모델로 보행자 속성 인식 작업을 통합적으로 수행할 수 있는 Transformer 기반의 UniPAR 프레임워크를 제안하며, 실험을 통해 기존 최첨단 방법과 유사한 성능과 향상된 일반화 능력을 입증합니다.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

이 논문은 그라디언트 불안정성과 날카로운 최소값 수렴 문제를 해결하기 위해 전역 의미적 가이드를 활용한 자기 재배향 적대적 스타일 교란 (SRasP) 을 제안하여, 교차 도메인 퓨샷 학습의 일반화 성능을 향상시키는 방법을 제시합니다.

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

이 논문은 비전-언어-행동 (VLA) 모델의 추론 시 복잡성을 동적으로 감지하여 단순 작업은 즉시 수행하고, 모호한 상황은 추론하며, 이상 징후가 감지되면 실행을 중단하는 '행동, 사고, 중단' 적응형 프레임워크를 제안합니다.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

이 논문은 복잡한 조명 환경에서 반사광을 효과적으로 모델링하고 기하학적 사전 지식을 활용하여 광택 표면의 3D 재구성을 혁신적으로 개선한 'SSR-GS' 프레임워크를 제안합니다.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

이 논문은 단순한 폐 영역 잘라내기 (lung cropping) 전처리 기법이 진단 정확도를 유지하면서 인종적 편향을 줄이는 효과적인 방법임을 규명하여, 공정한 AI 의료 모델 개발에 중요한 통찰을 제공합니다.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

이 논문은 일반 카메라 보정 시 발생할 수 있는 모션 블러 문제를 해결하기 위해 기하학적 제약과 국소 파라미터 조명 모델을 활용하여 특징점 위치와 공간적으로 변하는 점 확산 함수를 동시에 추정하는 새로운 방법을 제안하고 그 유효성을 실험적으로 입증합니다.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

이 논문은 그래프 토폴로지를 활용한 세밀한 교차 모달 대비 학습과 모달리티 적응형 그래프 지시 미세 조정을 통해 대규모 언어 모델이 멀티모달 그래프에서 효과적으로 추론할 수 있도록 하는 'Mario'라는 통합 프레임워크를 제안합니다.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

이 논문은 시각적 단서에서 학습 가능한 논리 규칙을 도입하여 환자 활동 인식의 정확도를 높이고, 위험 요인의 원인을 설명하며 개입 효과를 시뮬레이션할 수 있는 새로운 프레임워크인 'Logi-PAR'을 제안합니다.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

이 논문은 의료 이미지 세그멘테이션에서 발생하는 클래스 불균형 문제를 해결하기 위해, 학습 가능한 클래스 프록시와 레이블 데이터를 활용한 양방향 정렬 및 앵커 제약 기법을 통해 특징 분포를 구조화하는 '의미론적 클래스 분포 학습 (SCDL)' 프레임워크를 제안하고, Synapse 및 AMOS 데이터셋에서 소수 클래스를 포함한 전반적인 성능을 획기적으로 향상시킨 결과를 보여줍니다.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

이 논문은 위성 영상과 물리 법칙을 결합한 SPyCer 모델을 통해 지상 센서의 희소성을 보완하고 물리적으로 일관된 근지면 기온을 연속적으로 추정하는 새로운 방법을 제시합니다.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

← 이전 다음 →

cs.CV

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

Generic Camera Calibration using Blurry Images

Mario: Multimodal Graph Reasoning with Large Language Models

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers