EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation

이 논문은 시각적 이해와 생성 간의 그레인粒度 차이를 해결하기 위해 공유 잠재 공간 내에서 잔차 벡터 양자화를 통해 이미지 토큰을 점진적으로 진화시키는 통합 토크나이저 'EvoTok'을 제안하며, 소규모 데이터셋으로도 뛰어난 재구성 품질과 다양한 멀티모달 작업에서 우수한 성능을 입증합니다.

Yan Li, Ning Liao, Xiangyu Zhao + 5 more2026-03-13💻 cs

Structure Selection for Fairness-Constrained Differentially Private Data Synthesis

이 논문은 민감 속성과 결과 간의 조건부 독립성을 보장하여 편향을 제거하면서도 데이터 정확도를 향상시키기 위해, 지수 메커니즘을 활용한 조건부 독립성 인식 최소 신장 트리 알고리즘을 측정 단계에 통합한 'PrivCI'라는 새로운 차분 프라이버시 데이터 합성 프레임워크를 제안합니다.

Naeim Ghahramanpour, Mostafa Milani2026-03-13💻 cs

ChemSICal-Net: Timing-Controlled Chemical Reaction Network for Successive Interference Cancellation in Molecular Multiple Access

본 논문은 분자 통신에서 다중 송신자 간섭을 제거하기 위해 화학 오실레이터로 타이밍을 제어하는 'ChemSICal-Net'이라는 화학 반응 네트워크 모델을 제안하고, 가우시안 프로세스 기반의 적응형 베이지안 최적화 기법을 통해 반응 속도 상수와 초기 농도를 최적화하여 결정 시간과 검출 정확도 간의 균형을 개선함을 보여줍니다.

Alexander Wietfeld, Oguz Turgut, Eneritz Somoza Rodríguez + 1 more2026-03-13💻 cs

EgoIntent: An Egocentric Step-level Benchmark for Understanding What, Why, and Next

이 논문은 시계열적 누출을 방지하고 '무엇 (What)', '왜 (Why)', '다음 (Next)'이라는 세 가지 차원에서 인간 의도를 정밀하게 평가할 수 있는 새로운 일인칭 시점 비디오 벤치마크인 'EgoIntent'를 제안하며, 기존 최첨단 멀티모달 대형 언어 모델들조차 이 과제를 해결하는 데 어려움을 겪고 있음을 보여줍니다.

Ye Pan, Chi Kit Wong, Yuanhuiyi Lyu + 6 more2026-03-13💻 cs

When do modal definability and preservation theorems transfer to the finite?

이 논문은 무한 구조에서 성립하던 고전적 모달 정의 가능성 및 보존 정리가 유한 구조로 확장될 때 어떤 결과가 유지되고 어떤 것이 실패하는지 분석하며, 특히 이분할 안전성 정리 (Bisimulation Safety Theorem) 의 유한 구조로의 전이가 가능함을 증명하고 Goldblatt-Thomason 정리 및 모달 대응 이론의 유한 구조 버전과 계산 가능성 측면을 논의합니다.

Johan van Benthem, Balder ten Cate, Xi Yang2026-03-13💻 cs

ComFree-Sim: A GPU-Parallelized Analytical Contact Physics Engine for Scalable Contact-Rich Robotics Simulation and Control

이 논문은 접촉 밀도가 높은 로봇 시뮬레이션에서 기존 엔진의 계산 병목 현상을 해결하기 위해 GPU 병렬 처리와 상호보완성 없는 접촉 모델을 기반으로 한 ComFree-Sim 을 제안하며, 이를 통해 선형에 가까운 확장성과 높은 처리량을 달성하고 실시간 MPC 기반의 정교한 조작 제어에 성공적으로 적용했음을 보여줍니다.

Chetan Borse, Zhixian Xie, Wei-Cheng Huang + 1 more2026-03-13💻 cs

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

이 논문은 대규모 데이터와 3D 기하학적 인식을 기반으로 카메라 제어와 조작 행동을 분리하여 학습하는 엔드투엔드 프레임워크 'SaPaVe'를 제안함으로써, 복잡한 환경에서의 능동적 지각과 조작 성능을 기존 비전 - 언어 - 행동 모델 대비 획기적으로 향상시켰음을 보여줍니다.

Mengzhen Liu, Enshen Zhou, Cheng Chi + 6 more2026-03-13💻 cs

ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models

이 논문은 생성형 아티팩트와 고주파 노이즈가 주로 배경에 존재한다는 점을 고려하여, 의미 중심이 아닌 포렌식 증거 보존에 초점을 맞춘 학습 불필요 토큰 압축 프레임워크 'ForensicZip'을 제안하고, 이를 통해 연산량을 90% 이상 줄이면서도 최첨단 탐지 성능을 유지함을 입증했습니다.

Yingxin Lai, Zitong Yu, Jun Wang + 3 more2026-03-13💻 cs