cs 편의 논문 | Gist.Science

Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

이 논문은 경량 2 자유도 매니퓰레이터를 탑재한 언액추에이션 aerial manipulator 의 전역 엔드 이펙터 포즈 제어를 위해 시뮬레이션 기반 강화학습 (PPO) 과 비선형 동적 역제어 (INDI) 를 결합하여 외부 교란과 무거운 하중 조작에도 강인한 성능을 입증했습니다.

Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

SVBench 는 발달 및 사회심리학에 기반한 30 가지 사회적 인지 패러다임을 활용하여 텍스트-비디오 생성 모델이 시각적 사실성은 높지만 의도, 감정, 사회적 규범 등 사회적 추론 능력에서는 한계가 있음을 체계적으로 평가한 최초의 벤치마크입니다.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

이 논문은 방대한 레이블이 없는 수술 영상을 활용하여 가상-실제 데이터 쌍을 생성하는 세계 모델 (Cosmos-H-Surgical) 을 학습시킴으로써, 데이터 부족 문제를 해결하고 실제 수술 로봇에서 더 뛰어난 성능을 보이는 자율 수술 정책 개발을 가능하게 합니다.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

이 논문은 언어 편향으로 인한 객체 환각을 완화하기 위해 사실적 텍스트 의미로 시각 - 텍스트 연동을 정밀하게 모델링하고 쿼리별 편집을 최적화하는 'AFTER'라는 새로운 적응형 사실 안내 활성화 편집 기법을 제안하여 LVLM 의 신뢰성을 크게 향상시켰음을 보여줍니다.

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

이 논문은 Implicit Neural Representations (INR) 을 활용하여 OCT 이미지의 비등방성 간격 문제를 해결하고, B-스캔 보간 및 해상도 무관한 망막 아틀라스 구축을 통해 연속적이고 일관된 3 차원 망막 분석을 가능하게 하는 두 가지 프레임워크를 제안합니다.

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

이 논문은 객체 지향 설계 (OOD) 평가를 위한 벤치마크 OODEval 과 인간 평가 데이터셋 OODEval-Human, 그리고 통합 평가 지표 CLUE 를 제안하고, 이를 통해 29 개의 대규모 언어 모델의 OOD 수행 능력을 심층 분석하여 높은 문법적 정확도에도 불구하고 의미적 결함이 존재함을 규명했습니다.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

이 논문은 명시적 기하학적 원시와 신경 가우시안을 느슨하게 결합한 하이브리드 표현을 통해 스트리밍 3D 재구성에서 기하학적 정밀도와 렌더링 품질을 동시에 달성하면서도 기존 방법들보다 훨씬 빠른 속도로 안정적인 온프레임 재구성을 가능하게 하는 'PLANING' 프레임워크를 제안합니다.

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

본 연구는 온라인 리뷰 평가 순서 (평가 후 리뷰 vs. 리뷰 후 평가) 가 서비스 품질과 제품 속성에 따라 감성적 휴리스틱과 인지적 노력의 매개 작용을 통해 소비자 평점에 극단화 효과를 미친다는 것을 실험 및 대규모 데이터 분석을 통해 규명했습니다.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang Liu2026-03-12💻 cs

Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval

이 논문은 참조 이미지와 수정 텍스트로 구성된 다중 모달 쿼리를 기반으로 실제 이미지 데이터베이스에서 타겟 이미지를 검색하는 제로샷 합성 이미지 검색 (CIR) 과제에서, 기존 텍스트 기반 매칭 대신 대형 다중 모달 모델 (LMM) 을 활용하여 쿼리에 대한 '정신적 이미지'와 데이터베이스 내 각 이미지의 합성 버전을 생성하여 매칭하는 '파라코스 (Paracosm)'라는 새로운 훈련 없는 방법을 제안하고 있습니다.

Tong Wang, Yunhan Zhao, Shu Kong2026-03-12💻 cs

KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

KVSmooth 는 주시 엔트로피를 기반으로 키-값 캐시에 지수 이동 평균을 적용하는 훈련 없는 플러그인 방식을 통해 멀티모달 대규모 언어 모델의 환각 현상을 효과적으로 완화하고 전반적인 성능을 향상시킵니다.

Siyu Jiang, Feiyang Chen, Xiaojin Zhang, Kun He2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

이 논문은 로봇공학 분야에서 '지루하고, 더럽고, 위험한 (DDD)' 작업에 대한 개념이 어떻게 사용되어 왔는지 실증적으로 분석하고, 사회과학 문헌을 바탕으로 정의를 재정립하며 로봇 기술이 인간 노동에 미치는 영향을 고려할 수 있는 새로운 프레임워크를 제안합니다.

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

이 논문은 기존 시스템의 비효율적인 리소스 관리를 해결하기 위해 LLM 프로그램을 추상화하고 프로그램 인식 스케줄러 및 도구 리소스 관리자를 도입하여 KV 캐시 히트율과 처리량을 극대화하는 'ThunderAgent'라는 새로운 에이전트 추론 시스템을 제안합니다.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora2026-03-12💻 cs

OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

OmniVTON++ 는 재학습 없이 다양한 의류와 인물, 애니메이션 캐릭터에 적용 가능한 범용 가상 의류 착용 (VTON) 프레임워크로, 구조화된 의류 변형, 주요 자세 안내, 연속 경계 스티칭을 통해 기존 방법들의 일반화 한계를 극복하고 최첨단 성능을 달성합니다.

Zhaotong Yang, Yong Du, Shengfeng He, Yuhui Li, Xinzhe Li, Yangyang Xu, Junyu Dong, Jian Yang2026-03-12💻 cs

Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning

이 논문은 의료 영상 활성 학습에서 VLM 의 과도한 확신을 완화하고 해석 가능한 라벨 효율성을 확보하기 위해, 텍스트 - 이미지 유사성을 증거로 재해석하여 디리클레 분포를 기반으로 한 '유사성 증거 (SaE)' 프레임워크를 제안합니다.

Zhuofan Xie, Zishan Lin, Jinliang Lin, Jie Qi, Shaohua Hong, Shuo Li2026-03-12💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

이 논문은 이미지 기반 도메인의 안정적인 편미분방정식 이산화를 위해 경계와 교차하는 삼각형만 재삼각화하고 기저 메쉬를 유지하는 동기화 없는 병렬 실행이 가능한 템플릿 기반 삼각화 프레임워크를 제안하며, 이를 통해 슬리버 요소를 줄이고 기하학적 정밀도를 향상시킵니다.

Wei Feng, Haiyong Zheng2026-03-12💻 cs

SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking

이 논문은 근육골격 모델링을 기반으로 한 생체역학 인식 시뮬레이션 프레임워크와 이를 통해 구축된 대규모 3D 척추 운동 데이터셋 SIMSPINE 을 제안하여, 컴퓨터 비전과 생체역학 간의 간극을 해소하고 자연스러운 환경에서의 척추 운동 추정 성능을 획기적으로 향상시켰습니다.

Muhammad Saif Ullah Khan, Didier Stricker2026-03-12💻 cs

DRESS and the WL Hierarchy: Climbing One Deletion at a Time

이 논문은 $\Delta^k$ -DRESS 프레임워크가 CFI $(K_{k+3})$ 그래프 쌍을 구별한다는 무조건적 증명과 WL-Deck 분리 가설 하에 모든 그래프에서 $(k+2)$ -WL 보다 강력하다는 조건부 증명을 통해, 기존 실증적 연구에 대한 이론적 근거를 제시합니다.

Eduar Castrillo Velilla2026-03-12💻 cs

Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

이 논문은 비전 - 언어 모델 (VLM) 기반의 OOD 탐지 성능을 저해하는 내모달 거리 기반의 한계를 해결하기 위해, 텍스트와 시각적 관점에서 일관된 인터모달 거리를 활용하여 부정 텍스트를 선택하고 OOD 이미지를 텍스트 임베딩으로 변환하는 새로운 프레임워크 'InterNeg'를 제안하며, 이를 통해 다양한 벤치마크에서 기존 방법보다 뛰어난 성능을 달성함을 보여줍니다.

Zhikang Xu, Qianqian Xu, Zitai Wang, Cong Hua, Sicong Li, Zhiyong Yang, Qingming Huang2026-03-12💻 cs

Kraken: Higher-order EM Side-Channel Attacks on DNNs in Near and Far Field

이 논문은 기존 CUDA 코어뿐만 아니라 최신 GPU 의 텐서 코어에서도 근거리 물리적 사이드 채널 공격을 통해 DNN 파라미터를 추출할 수 있음을 최초로 증명하고, 100cm 떨어진 원거리에서도 LLM 의 하이퍼파라미터와 가중치가 유출될 수 있음을 보여줍니다.

Peter Horvath, Ilia Shumailov, Lukasz Chmielewski, Lejla Batina, Yuval Yarom2026-03-12💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

이 논문은 코드 분석을 위한 단일 모델의 다중 태스크 파라미터 효율적 미세 조정 (PEFT) 을 체계적으로 평가하여, 단일 태스크 미세 조정과 유사한 성능을 유지하면서 저장 공간과 계산 비용을 대폭 절감할 수 있음을 입증하고, 작업 간 상호 보완성 및 모델 아키텍처 등 성공 요인을 규명했습니다.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

← 이전 다음 →