TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

이 논문은 기존 모델들이 시각적 텍스트의 구조적 결함을 인식하지 못하는 문제를 해결하기 위해, 구조적 이상 감지 능력을 갖춘 새로운 강화학습 전략인 'TextPecker'를 제안하여 텍스트 생성 모델의 구조적 충실도와 의미 정합성을 획기적으로 향상시킨 연구입니다.

Hanshen Zhu, Yuliang Liu, Xuecheng Wu + 7 more2026-02-27💻 cs

AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

이 논문은 단일 UAV 영상에서 모노큘러 기하학 리프팅 모듈과 물리 기반 최적화 모듈을 통해 깊이 모호성과 불안정한 운동 추정을 해결하여, 물리적으로 일관된 동적 4D 가우시안 스플래팅 프레임워크인 AeroDGS 를 제안하고 이를 검증하기 위한 실세계 UAV 데이터셋을 구축했습니다.

Hanyang Liu, Rongjun Qin2026-02-27🤖 cs.AI

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

이 논문은 SELFIES 시퀀스, 분자 그래프, 그리고 볼츠만 가중치를 적용한 컨포머 앙상블을 교차 어텐션과 FiLM 을 통해 융합하여 분자 특성 예측 성능을 획기적으로 향상시킨 경량 다중 모달 모델 'MolFM-Lite'를 제안하고, MoleculeNet 벤치마크에서 단일 모달 기반 모델 대비 우수한 성능을 입증합니다.

Syed Omer Shah, Mohammed Maqsood Ahmed, Danish Mohiuddin Mohammed + 2 more2026-02-27🤖 cs.LG

SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

이 논문은 MLLM 이 이미지 내 텍스트를 실제로 '읽는지' 아니면 텍스트 프롬프트에 의존하는지 진단하기 위해 시각화된 질문 (VQ) 설정을 도입하고, 이를 통해 발견된 모달리티 게으름을 해결하기 위해 구조적 제약을 부과하는 플러그 앤 플레이 학습 전략인 SimpleOCR 을 제안하여 모델의 시각적 텍스트 추출 능력을 효과적으로 향상시킵니다.

Yibo Peng, Peng Xia, Ding Zhong + 6 more2026-02-27🤖 cs.LG

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

이 논문은 웨어러블 보조 장치의 사생활 보호와 지연 시간 문제를 해결하기 위해, 스트리밍 비디오를 경량 텍스트 기억으로 변환하는 비동기 스레드 구조를 통해 에지 환경에서 실시간 에피소드적 기억 질문 응답을 수행하는 멀티모달 대규모 언어 모델의 가능성을 입증하고 있습니다.

Giuseppe Lando, Rosario Forte, Antonino Furnari2026-02-27💻 cs

Space Syntax-guided Post-training for Residential Floor Plan Generation

이 논문은 주거 평면 생성 모델이 대규모 데이터 분포에 최적화되는 과정에서 간과하기 쉬운 공간 구성적 지배력과 기능적 위계를 복원하기 위해, 비미분 가능한 오라클을 통해 공간 문법 지식을 주입하는 '공간 문법 유도 사후 학습 (SSPT)' 방법론과 이를 평가하는 벤치마크를 제안하고, 이를 통해 PPO 기반 강화학습이 계산 효율성과 성능 면에서 우수한 결과를 보임을 입증했습니다.

Zhuoyang Jiang, Dongqing Zhang2026-02-27🤖 cs.LG

Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

이 논문은 참조 이미지와 자연어 편집을 결합한 구성형 이미지 검색을 위해 오픈 어휘 시각 사전 표현과 자기지도 학습 기반의 V-Dict-AE 를 도입하여, 기존 방법들의 한계를 극복하고 DFMM-Compose 벤치마크에서 성능과 의도 일관성, 다양성을 동시에 향상시킨 Pix2Key 모델을 제안합니다.

Guoyizhe Wei, Yang Jiao, Nan Xi + 4 more2026-02-27💻 cs