cs.CV 편의 논문 | Gist.Science

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

이 논문은 시각 - 언어 모델 (VLM) 을 활용하여 수동 보상 설계 없이도 정적, 동적, 관절형 물체를 포함한 다양한 장거리 인간 - 물체 상호작용을 자동으로 생성하는 최초의 통합 물리 기반 프레임워크인 'VLM-Guided Relative Movement Dynamics(RMD)'와 새로운 데이터셋 'Interplay'를 제안합니다.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

Generating Fine Details of Entity Interactions

이 논문은 상호작용이 풍부한 이미지 생성의 한계를 극복하기 위해 MLLM 을 활용한 세밀한 프롬프트 데이터셋을 구축하고, 상호작용을 세분화하여 생성된 이미지를 비판하고 부분 확산 과정을 통해 정교하게 개선하는 새로운 방법을 제안합니다.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

이 논문은 텍스트-이미지 생성 시스템의 메모리 메커니즘을 악용하여 기존 단일 프롬프트 공격의 한계를 극복하고, 'Inception'이라는 새로운 멀티턴 재일브랙 공격 기법을 제안하여 안전성 필터를 우회하고 공격 성공률을 크게 향상시켰음을 보여줍니다.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

이 논문은 초음파 영상의 이질적 형태 특징과 데이터 불균형 문제를 해결하기 위해 효율적인 공간 인코딩과 전역 의미 모델링을 결합한 이중 분기 어텐션 네트워크 (CSASN) 를 제안하여 희귀 갑상선 암의 진단 정확도를 향상시켰음을 보여줍니다.

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

이 논문은 아이폰 포트레이트 모드 이미지의 인공적 심도 외곽 노이즈 패턴 (SDNP) 을 정밀하게 분석하여 그 특성을 규명하고, 이를 PRNU 기반 카메라 소스 검증의 오검출을 줄이는 동시에 이미지 출처 추적 및 포렌식 분석의 정확도를 향상시키는 데 활용하는 방법을 제시합니다.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

이 논문은 시각 토큰 가지치기에서 프롬프트 정렬과 시각적 보존 간의 상충 관계를 정량화하고, 이를 해결하기 위해 다목적 균형 커버링 (MoB) 기법을 제안하여 다양한 멀티모달 모델에서 성능 저하 없이 효율성을 극대화하는 방법을 제시합니다.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

이 논문은 복잡한 우르두어 신문의 텍스트 인식을 위해 YOLOv11x 기반의 영역 추출과 SwinIR 기반의 초해상도 기법을 도입하고, 새로 구축된 우르두어 신문 벤치마크 (UNB) 를 통해 기존 OCR 시스템과 LLM 을 비교 분석하여 LLM 의 우수한 적응성과 성능을 입증했습니다.

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

이 논문은 안전이 중요한 다중 모달 환경에서 OOD 검출 및 분할을 위해 이론적 근거를 바탕으로 한 매우 간단하고 빠른 'Feature Mixing' 방법론과 새로운 CARLA-OOD 데이터셋을 제안하여 기존 방법 대비 10 배에서 370 배의 속도 향상과 함께 최첨단 성능을 달성함을 보여줍니다.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

이 논문은 디지털 행동 변화 중 ambivalence(양가성) 와 hesitancy(주저함) 를 자동으로 인식하기 위해 캐나다 300 명으로부터 수집된 1,427 개의 비디오로 구성된 BAH 데이터셋을 소개하고, 이에 대한 벤치마크 실험 결과를 통해 기존 모델의 한계와 향후 다중 모달 및 시공간 모델의 필요성을 제시합니다.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

이 논문은 확산 모델을 활용해 학습 초기에 잘 학습되지 않는 데이터만 선택적으로 증강하는 'TADA' 프레임워크를 제안하여, 전체 데이터를 증강하는 기존 방식보다 훨씬 적은 데이터로 다양한 아키텍처와 데이터셋에서 더 높은 일반화 성능을 달성함을 보여줍니다.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Structural Vibration Monitoring with Diffractive Optical Processors

이 논문은 수동 회절 층과 얕은 신경망의 결합을 통해 저전력·저비용으로 구조물의 3 차원 진동 스펙트럼을 실시간으로 추출하는 새로운 구조 건전성 모니터링 시스템을 제안하고, 실험을 통해 기존 방식 대비 10 배 이상 높은 정확도를 입증했습니다.

Yuntian Wang, Zafer Yilmaz, Yuhang Li + 5 more2026-03-05🔬 physics.optics

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

이 논문은 2D 단서나 동기화된 다중 뷰 설정에 의존하지 않고, 점 구름, 3D 손 자세, 텍스트 설명 등 풍부한 외부 시점 관측 데이터를 활용하여 증강현실 및 로봇 공학 응용에 적합한 고품질의 1 인칭 시점 영상을 생성하는 새로운 프레임워크 'EgoWorld'를 제안합니다.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Partial Weakly-Supervised Oriented Object Detection

이 논문은 부분적인 약한 주석 (수평 박스 또는 단일 점) 과 대량의 레이블이 없는 데이터를 활용하여 주석 비용과 속도를 개선하면서도 기존 반지도 학습 알고리즘과 경쟁력 있는 성능을 달성하는 최초의 '부분 약지도 방향성 객체 감지 (PWOOD)' 프레임워크를 제안합니다.

Mingxin Liu, Peiyuan Zhang, Yuan Liu + 8 more2026-03-05💻 cs

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

이 논문은 라그랑주 승수법과 보조 PnP 디노이저를 결합하여 ground-truth 데이터 없이도 X-ray CT 재구성 및 이미지 인페인팅 작업에서 기존 Equivariant Imaging 방법보다 10 배 빠른 학습 속도와 향상된 일반화 성능을 달성하는 'Fast Equivariant Imaging (FEI)' 프레임워크를 제안합니다.

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

이 논문은 문서 이미지의 왜곡을 보정하기 위해 수평 및 수직 방향의 기하학적 특징을 통합적으로 학습하는 'D2Dewarp' 모델을 제안하고, 이를 위해 자동 주석 생성 기술을 활용한 대규모 학습 데이터셋 'DocDewarpHV'를 구축하여 기존 최첨단 방법보다 우수한 성능을 입증했습니다.

Heng Li, Xiangping Wu, Qingcai Chen2026-03-05💻 cs

VITA: Vision-to-Action Flow Matching Policy

이 논문은 시각 표현에서 직접 잠재 행위로 흐르는 비노이즈·비조건부 흐름 매칭 프레임워크인 VITA 를 제안하여, 시각 조건부 모듈의 반복적 처리를 제거함으로써 추론 속도를 1.5~2 배 향상시키면서도 최첨단 성능을 달성함을 보여줍니다.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

Classification of Histopathology Slides with Persistent Homology Convolutions

이 논문은 조직병리 슬라이드 분류에서 국소적 위상 정보를 포착하는 '지속적 호몰로지 합성곱'을 도입하여 기존 합성곱 신경망보다 성능이 우수하고 하이퍼파라미터에 덜 민감한 새로운 분류 모델을 제안합니다.

Shrunal Pothagoni, Benjamin Schweinhart2026-03-05💻 cs

Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning

이 논문은 훈련 후 고정된 프롬프트 대신 각 테스트 이미지에 따라 동적으로 조정되는 '이미지 적응형 프롬프트 학습 (IAPL)'을 제안하여, 훈련 데이터에서 보지 못한 새로운 생성 모델로 만든 위조 이미지에 대한 일반화 성능과 강건성을 크게 향상시킨다고 요약할 수 있습니다.

Yiheng Li, Zichang Tan, Guoqing Xu + 3 more2026-03-05💻 cs

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

이 논문은 기존 순차적 또는 집합적 접근법의 한계를 극복하고, 인간 보행의 개별 동작을 무작위로 추출된 '스니펫 (snippet)'으로 모델링하여 다중 스케일 시간적 맥락을 효과적으로 포착하는 새로운 보행 인식 프레임워크 'GaitSnippet'을 제안하고 여러 데이터셋에서 높은 성능을 입증합니다.

Saihui Hou, Chenye Wang, Wenpeng Lang + 2 more2026-03-05💻 cs

Reinforcing Video Reasoning Segmentation to Think Before It Segments

이 논문은 강화 학습의 그룹 상대적 정책 최적화 (GRPO) 와 사고의 연쇄 (CoT) 초기화를 결합하여 시공간 추론 능력을 강화하고 해석 가능성을 높인 비디오 추론 분할 전용 모델 'Veason-R1'을 제안하며, 다양한 벤치마크에서 기존 최첨단 기법들을 압도하는 성능을 입증합니다.

Sitong Gong, Lu Zhang, Yunzhi Zhuge + 3 more2026-03-05💻 cs

← 이전 다음 →