RealOSR: Latent Guidance Boosts Diffusion-based Real-world Omnidirectional Image Super-Resolutions

이 논문은 bicubic 다운샘플링과 같은 단순한 열화 가정을 넘어 실제 세계의 열화 정보를 반영하고, 잠재 공간에서 경사 하강을 시뮬레이션하는 경량 모듈인 LaGAR 를 도입하여 기존 확산 기반 방법 대비 200 배 이상의 추론 가속과 향상된 화질을 달성하는 원형 이미지 초해상도 프레임워크 'RealOSR'을 제안합니다.

Xuhan Sheng, Runyi Li, Bin Chen + 3 more2026-03-04⚡ eess

Slot-BERT: Self-supervised Object Discovery in Surgical Video

본 논문은 장기적인 시간적 일관성을 유지하면서 계산 효율성을 확보하고, 새로운 슬롯 대비 손실을 통해 표현의 해리성을 향상시킨 자기지도 학습 기반의 'Slot-BERT' 모델을 제안하여, 다양한 수술 영상의 비지도 객체 발견 및 제로샷 도메인 적응에서 기존 최첨단 기법보다 우수한 성능을 입증했습니다.

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

이 논문은 MLP, 트리플레인, 해시 테이블 등 다양한 아키텍처와 훈련 시 보지 못한 아키텍처까지 처리할 수 있는 최초의 그래프 메타 네트워크 프레임워크를 제안하여, NeRF 의 가중치를 아키텍처에 구애받지 않는 잠재 공간으로 변환하고 분류, 검색, 언어 태스크에서 기존 단일 아키텍처 기반 방법론을 능가하는 성능을 입증합니다.

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

이 논문은 가우시안 분포를 가정하는 다중 그래프 매칭에 순환 일관성 (cycle consistency) 손실과 베이지안 최적화를 결합한 완전 비지도 학습 방식을 제안하여, C. elegans 의 3D 현미경 이미지에서 그라운드 트루스 주석 없이도 최첨단 지도 학습 수준의 정확도로 세포 어트라스를 구축하고 대규모 생물학적 데이터의 의미론적 주석 병목 현상을 해결합니다.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

이 논문은 STEM 중심의 기존 벤치마크의 한계를 극복하고 인문사회과학 (HSS) 분야의 다국어 평가와 교차 학문적 추론 능력을 측정하기 위해 전문가와 자동 에이전트의 협업을 통해 13,000 개 이상의 샘플로 구성된 'HSSBench'를 제안하고, 이를 통해 최신 다중모달 대규모 언어 모델들이 여전히 큰 도전에 직면해 있음을 입증합니다.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

이 논문은 미교정 비디오 스트림에서 실시간으로 동적 3D 장면을 재구성하는 풀 피드포워드 프레임워크인 StreamSplat 을 제안하며, 확률적 샘플링, 양방향 변형 필드, 적응형 가우시안 융합을 통해 최적화 기반 방법 대비 1200 배의 속도 향상과 최첨단 재구성 품질을 달성합니다.

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

이 논문은 텍스트 중심 추론을 위해 텍스트 - 이미지 생성 모델을 활용해 실시간으로 생성된 이미지를 시각적 사전지식으로 활용하는 '합성 지각' 접근법이 텍스트와 이미지의 의미적 정렬, 작업의 시각적 구체성, 생성 모델의 충실도에 따라 언어 이해를 강화할 수 있음을 체계적으로 검증했습니다.

Yuesheng Huang, Peng Zhang, Xiaoxin Wu + 2 more2026-03-04💻 cs

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

이 논문은 자율주행 시스템 훈련을 위해 정적 초기화나 로그 재생에 의존하지 않고 트랜스포머 모델을 활용해 교통 신호, 에이전트 상태, 운동 벡터를 토큰 시퀀스로 표현하여 무한한 시간 범위 내에서 에이전트를 동적으로 생성 및 제거하는 연속 시나리오 생성 프레임워크 'SceneStreamer'를 제안합니다.

Zhenghao Peng, Yuxin Liu, Bolei Zhou2026-03-04💻 cs