OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

이 논문은 불안정한 의사결정과 안전성-효율성 트레이드오프를 해결하기 위해 공유 지각 기반의 이중 에이전트 아키텍처와 하이브리드 메모리, 그리고 의미-기하학적 검증기를 도입하여 복잡한 3D 환경에서 자연어 지시를 따르는 무인기 (UAV) 의 제로샷 항공 비전 - 언어 항법을 안전하고 효율적으로 수행하는 온보드 프레임워크 'OnFly'를 제안합니다.

Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou2026-03-12💻 cs

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

이 논문은 UniEdit-500K 데이터셋, Mixture of Transformer 모듈, 그리고 Mask Annealing 학습 전략을 통해 기존 방법론의 한계를 극복하고, 불명확한 마스크만으로도 임의의 객체를 정밀하게 편집할 수 있는 통합 인페인팅 프레임워크인 A2^2-Edit 을 제안합니다.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

이 논문은 겹치는 비조이뷰 (BEV) 특징 그리드 간의 지리적 일관성을 대비 학습 손실 함수에 통합하여, 라벨이 있는 소량의 데이터와 라벨이 없는 다중 주행 데이터를 활용한 반지도 학습 방식을 통해 온라인 벡터화 HD 맵 구성의 성능을 향상시키는 'MapGCLR' 모델을 제안합니다.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

이 논문은 이산적 토큰화의 정보 손실과 연속적 표현의 학습 불안정성이라는 기존 한계를 극복하기 위해, 압축된 연속적 의미 표현과 주시 기반 압축기를 활용하여 이해와 생성을 모두 최적화하는 통합 멀티모달 모델 'UniCom'을 제안합니다.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

이 논문은 보행자 내비게이션을 위해 언어 추론과 분할을 통합하고 깊이 정보를 고려한 새로운 모델 'WalkGPT'와 대규모 벤치마크 'PAVE'를 제안하여, 기존 대형 비전 - 언어 모델의 한계를 극복하고 접근성 가이드의 정확성을 높이는 방법을 제시합니다.

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

Believing vs. Achieving -- The Disconnect between Efficacy Beliefs and Collaborative Outcomes

이 논문은 240 명을 대상으로 한 실험을 통해 인간의 자기 효능감과 AI 능력에 대한 신념이 AI 의존도 결정에는 강력한 영향을 미치지만, 실제 인간-AI 팀의 성과에는 상대적으로 약한 영향을 준다는 '신념과 달성 간의 불일치'를 규명하고, 이를 해결하기 위한 새로운 설계 가이드라인을 제시합니다.

Philipp Spitzer, Joshua Holstein2026-03-12💻 cs

Early-Stage Cancer Biomarker Detection via Intravascular Nanomachines: Modeling and Analysis

이 논문은 혈류 내 비균일 유동, 크기 의존성 이동성 및 적혈구 상호작용에 의한 가장자리 이동과 같은 생리학적 요인을 고려한 시뮬레이션을 통해, 모세혈관이 다양한 나노머신 크기에 걸쳐 암 바이오마커 검출 확률이 가장 높음을 규명했습니다.

Abdollah Rezagholi, Sergi Abadal, Filip Lemic, Eduard Alarcon, Ethungshan Shitiri2026-03-12💻 cs

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

FutureVLA 는 비전과 모션 정보를 구조적으로 분리한 후 물리적 사전 지식을 통합하는 새로운 예측 아키텍처를 통해 시공간 연속성과 시각적 조건 해리를 실현함으로써, 로봇의 미래 예측 능력을 향상시키고 다양한 Vision-Language-Action 모델의 성능을 개선합니다.

Xiaoxu Xu, Hao Li, Jinhui Ye, Yilun Chen, Jia Zeng, Xinyi Chen, Linning Xu, Dahua Lin, Weixin Li, Jiangmiao Pang2026-03-12💻 cs

MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers

이 논문은 다양한 동적 변화 (최대 66.7% 의 질량 변화 및 70% 의 단일 로터 추력 손실) 에 대해 실시간으로 적응하여 견고한 항법이 가능한 단일 정책을 학습하는 메타 강화 학습 프레임워크 'MAVEN'을 제안하고, 시뮬레이션과 실제 환경 모두에서 뛰어난 성능을 입증했습니다.

Jin Zhou, Dongcheng Cao, Xian Wang, Shuo Li2026-03-12💻 cs

Sublinear-Time Reconfiguration of Programmable Matter with Joint Movements

이 논문은 보조 가정 없이 중앙 집중식 알고리즘을 사용하여 nn 개의 아모보트 구조를 O(nlogn)O(\sqrt{n}\log n) 라운드 내에 표준 선형 구조로 재구성할 수 있음을 증명함으로써, 결합 이동 모델을 통한 아모보트의 선형 시간 미만 재구성 가능성을 입증했습니다.

Manish Kumar, Othon Michail, Andreas Padalkin, Christian Scheideler2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

이 논문은 해양 환경이 아닌 표준화된 조건에서 촬영된 7 종의 연골어류 이미지를 포함하며, 종 수준의 분류 및 생물다양성 모니터링을 위한 AI 시스템 개발을 지원하기 위해 공개된 'eLasmobranc' 데이터셋을 소개합니다.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

이 논문은 Diffusion Transformer 의 추론 속도를 높이기 위해 기존 방법들이 간과한 공간적 중복성을 활용하여, 추가 학습 없이 어노커 토큰의 부분 집합을 기반으로 잠재 상태 진화를 가속화하는 'Just-in-Time (JiT)' 프레임워크를 제안하고 FLUX.1-dev 모델에서 기존 방법보다 뛰어난 성능과 7 배의 속도 향상을 입증합니다.

Wenhao Sun, Ji Li, Zhaoqiang Liu2026-03-12💻 cs

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

이 논문은 LLM 기반 에이전트가 자연어 요청을 직접 처리하는 대신 사용자의 정보 요구를 점진적으로 구체화하는 '관계적 재구현 (relational reification)' 스키마로 표현하고 이를 기반으로 정확한 답변을 생성하는 Pneuma-Seeker 시스템을 제안하여, 다양한 도메인에서 기존 기법보다 높은 정확도와 신뢰성을 입증했습니다.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro Fernandez2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

이 논문은 MLLM 의 STEM 시각 추론 한계가 추론이 아닌 지각 능력에 기인한다는 통찰을 바탕으로, 실행 가능한 코드를 지각 매체로 활용하여 대규모 데이터셋 (ICC-1M) 과 평가 벤치마크 (STEM2Code-Eval) 를 구축함으로써 시각 지각 능력을 체계적으로 향상시키는 'CodePercept' 프레임워크를 제안합니다.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

이 논문은 임베딩, 색인, 검색, 재순위화, 생성 등 RAG 파이프라인의 각 모듈을 분리하여 구성 가능하게 하고, 다양한 데이터셋과 벡터 데이터베이스, LLM 을 지원하며 성능 및 정확도 지표를 자동 수집하는 종단간 벤치마킹 프레임워크 'RAGPerf'를 제안합니다.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian Huang2026-03-12💻 cs

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

이 논문은 중소기업의 지역 제한 인프라 환경에서 탄소 배출, 비용, 지연 시간 제약을 동시에 고려하여 마이크로서비스를 동적으로 배치함으로써 탄소 배출을 37.4% 줄이고 운영 비용을 3.6% 절감하는 'Aceso' 시스템을 제안합니다.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra Doudali2026-03-12💻 cs