Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

이 논문은 사전 학습된 분할 네트워크를 활용하여 소수의 주석만으로 객체 중심 표현을 학습함으로써 복잡한 시각 환경에서 샘플 효율성을 극대화하는 새로운 모델 기반 강화학습 프레임워크인 OC-STORM 을 제안하고, Atari 100k 와 Hollow Knight 벤치마크에서 기존 기법들을 압도하는 성능을 입증합니다.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

이 논문은 액션 청킹을 통합한 비전 - 언어 - 행동 (VLA) 모델의 추론 효율성을 저하시키는 문제를 해결하기 위해, 모델 구조 변경 없이 훈련 없이도 추론 속도를 획기적으로 높이는 최초의 병렬 디코딩 프레임워크인 PD-VLA 를 제안하고 그 유효성을 실증합니다.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation

이 논문은 대규모 언어 모델이나 추가 모듈 없이 단일 모델로 다양한 이미지 열화를 효율적으로 복원하기 위해 잠재 공간의 가중 재할당과 공간 - 주파수 병렬 융합 전략을 제안하는 'AnyIR'을 소개하며, 기존 방법 대비 매개변수와 연산량을 대폭 줄이면서도 최상의 성능을 달성함을 보여줍니다.

Bin Ren, Eduard Zamfir, Zongwei Wu + 7 more2026-02-26💻 cs

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

본 연구는 사전 학습된 트랜스포머 기반의 SMIT 모델을 균형 있는 커리큘럼 학습으로 미세 조정하여, 라벨이 지정된 훈련 데이터의 양을 크게 줄이면서도 다양한 환자 및 영상 조건에 걸쳐 방사선 치료 계획에 필요한 심장 하부 구조 분할의 정확도와 견고성을 유지할 수 있음을 입증했습니다.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

이 논문은 스페이셜 - 타임 마스크를 활용하여 LoRA 미세 조정을 수행함으로써, 소스 비디오의 내용 보존과 새로운 콘텐츠 생성을 동시에 제어하고 사용자 지정 참조 프레임을 통해 시간적 일관성을 갖춘 정교한 비디오 편집을 가능하게 하는 'LoRA-Edit' 방법을 제안합니다.

Chenjian Gao, Lihe Ding, Xin Cai + 3 more2026-02-26💻 cs

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

이 논문은 소프트웨어 보안의 ROP 기법을 차용하여 해로운 지시를 개별적으로 안전해 보이는 시각적 요소들의 시퀀스로 분해하고 이를 프로그래밍적으로 조작함으로써 대형 시각 - 언어 모델의 안전 장치를 우회하는 'PRISM'이라는 새로운 자일브레이크 프레임워크를 제안하고, 이를 통해 기존 방법들보다 월등히 높은 공격 성공률을 달성함을 입증합니다.

Quanchen Zou, Zonghao Ying, Moyang Chen + 7 more2026-02-26💻 cs

Voxel Densification for Serialized 3D Object Detection: Mitigating Sparsity via Pre-serialization Expansion

이 논문은 시리얼라이제이션 기반 3D 객체 감지 프레임워크의 희소성 한계를 극복하기 위해, 희소 3D 합성곱을 활용한 전처리 공간 확장 모듈인 Voxel Densification Module(VDM) 을 제안하여 Waymo 및 nuScenes 등 주요 벤치마크에서 기존 모델 대비 감지 정확도를 획기적으로 향상시켰습니다.

Qifeng Liu, Dawei Zhao, Yabo Dong + 6 more2026-02-26💻 cs