LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

이 논문은 스페이셜 - 타임 마스크를 활용하여 LoRA 미세 조정을 수행함으로써, 소스 비디오의 내용 보존과 새로운 콘텐츠 생성을 동시에 제어하고 사용자 지정 참조 프레임을 통해 시간적 일관성을 갖춘 정교한 비디오 편집을 가능하게 하는 'LoRA-Edit' 방법을 제안합니다.

Chenjian Gao, Lihe Ding, Xin Cai + 3 more2026-02-26💻 cs

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

이 논문은 소프트웨어 보안의 ROP 기법을 차용하여 해로운 지시를 개별적으로 안전해 보이는 시각적 요소들의 시퀀스로 분해하고 이를 프로그래밍적으로 조작함으로써 대형 시각 - 언어 모델의 안전 장치를 우회하는 'PRISM'이라는 새로운 자일브레이크 프레임워크를 제안하고, 이를 통해 기존 방법들보다 월등히 높은 공격 성공률을 달성함을 입증합니다.

Quanchen Zou, Zonghao Ying, Moyang Chen + 7 more2026-02-26💻 cs

Voxel Densification for Serialized 3D Object Detection: Mitigating Sparsity via Pre-serialization Expansion

이 논문은 시리얼라이제이션 기반 3D 객체 감지 프레임워크의 희소성 한계를 극복하기 위해, 희소 3D 합성곱을 활용한 전처리 공간 확장 모듈인 Voxel Densification Module(VDM) 을 제안하여 Waymo 및 nuScenes 등 주요 벤치마크에서 기존 모델 대비 감지 정확도를 획기적으로 향상시켰습니다.

Qifeng Liu, Dawei Zhao, Yabo Dong + 6 more2026-02-26💻 cs

MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification

이 논문은 CheXpert 데이터셋에서 EfficientNetV2-S 와 유사한 분류 성능을 유지하면서도 사후 해석 기법 없이 이미지 패치 기반의 명확한 진단 근거를 제공하여 임상 신뢰도를 높이는 'MedicalPatchNet'이라는 새로운 자기 설명형 AI 아키텍처를 제안합니다.

Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather + 2 more2026-02-26🤖 cs.LG

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

이 논문은 인간의 좌우뇌 기능을 모방하여 공간 기하학적 정보와 시각적 의미 정보를 각각의 고정 크기 암시적 신경 메모리로 분리·모델링함으로써 기존 방법들의 공간 정보 손실 및 계산 비효율성을 해결하고, Vision-Language Navigation 분야에서 최첨단 성능을 달성한 'JanusVLN' 프레임워크를 제안합니다.

Shuang Zeng, Dekang Qi, Xinyuan Chang + 7 more2026-02-26💻 cs

World Simulation with Video Foundation Models for Physical AI

이 논문은 물리 AI 를 위한 차세대 월드 파운데이션 모델인 Cosmos-Predict2.5 와 Cosmos-Transfer2.5 를 소개하며, 단일 모델에서 텍스트·이미지·비디오 기반 세계 생성과 제어를 통합하고 강화학습을 통해 비디오 품질과 지시 준수를 대폭 개선하여 로봇 및 자율 시스템용 합성 데이터 생성 및 시뮬레이션의 신뢰성을 높였음을 보여줍니다.

NVIDIA, :, Arslan Ali + 87 more2026-02-26🤖 cs.AI