cs 편의 논문 | Gist.Science

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

이 논문은 23 가지 영상 모달리티에 걸친 53 개의 검증된 도구를 동적으로 조율하는 대형 언어 모델을 기반으로 하여, 안과 진단 정확도와 보고서 품질을 획기적으로 향상시키고 전문가 수준의 해석 가능성을 제공하는 최초의 다중 모드 임상 의사결정 지원 에이전트 AI 시스템인 'EyeAgent'를 제시합니다.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs

Evaluation of Audio Compression Codecs

이 논문은 오디오 압축 코덱 선택 시 단순한 압축 효율뿐만 아니라 청각적 정확도와 청취자가 인지하는 음질 특성도 고려해야 함을 주장하며, 다양한 코덱의 성능 측정, 시각화 및 PEAQ 점수를 통해 압축 기술이 지각적 음질에 미치는 영향을 평가하고 있습니다.

Thien T. Duong, Jan P. Springer2026-03-12💻 cs

X-WIN: Building Chest Radiograph World Model via Predictive Sensing

이 논문은 3D CT 데이터의 체적 지식을 잠재 공간에서 2D 투영을 예측하는 방식으로 학습하여, 2D 흉부 X 선 (CXR) 의 구조적 중첩 한계를 극복하고 다양한 하류 작업에서 기존 모델보다 우수한 성능을 보이는 새로운 'X-WIN' 세계 모델을 제안합니다.

Zefan Yang, Ge Wang, James Hendler, Mannudeep K. Kalra, Pingkun Yan2026-03-12💻 cs

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

이 논문은 다양한 VLA 전문가 모델을 단일 모델로 통합할 때 발생하는 병합 불가 문제를 해결하기 위해, LoRA 어댑터의 일관성 유지와 행동 전문가의 모듈성 강화를 통해 설계된 'MergeVLA' 아키텍처를 제안하고, 이를 통해 단일 모델이 다양한 작업과 환경에서 개별 전문가 수준의 성능을 발휘함을 입증합니다.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization

이 논문은 'Clair Obscur' 원리에 영감을 받아 알베도, 그림자, 조명 레이어를 분리하는 내재적 이미지 분해를 벡터 도메인에 처음 도입함으로써 복잡한 실사 이미지의 시각적 충실도와 편집 가능성을 획기적으로 향상시킨 COVec 프레임워크를 제안합니다.

Xingyue Lin, Shuai Peng, Xiangyu Xie, Jianhua Zhu, Yuxuan Zhou, Liangcai Gao2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

이 논문은 자율주행의 안전성을 확보하기 위해 충돌 및 탈선과 같은 위험 상황을 정직하게 예측할 수 있도록 훈련된 '공정한 세계 모델 (Impartial World Model)'을 폐루프 강화학습의 내부 비평가로 활용하는 AD-R1 프레임워크를 제안합니다.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

이 논문은 정적 이미지 생성에 국한된 기존 평가 방법의 한계를 극복하고, 텍스트 - 비디오 (T2V) 모델의 동적 시간적 특성을 악용하여 정책 위반 영상을 유도하는 자동화된 적대적 테스트 프레임워크인 'TEAR'을 제안하며, 이를 통해 오픈소스 및 상용 T2V 시스템에서 기존 최고 기록 (57%) 을 크게 상회하는 80% 이상의 공격 성공률을 달성했음을 보여줍니다.

Jiaming He, Guanyu Hou, Hongwei Li, Zhicong Huang, Kangjie Chen, Yi Yu, Wenbo Jiang, Guowen Xu, Tianwei Zhang2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

이 논문은 단위 원판 그래프와 $t$ 개의 서로 다른 반지름을 가진 일반 원판 그래프에 대해, 각각 $\tilde{O}(n/\varepsilon^2)$ 및 $\tilde{O}(f(t)\cdot (1/\varepsilon)^{O(t)} \cdot n)$ 시간 복잡도를 갖는 확률적 근사 알고리즘을 제안하여 최대 클릭 문제를 해결하는 새로운 접근법을 제시합니다.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder

이 논문은 약한 엣지 디바이스에서도 초저비트레이트로 고품질 이미지 복원이 가능하도록, 얕은 인코더와 1 단계 확산 디코더를 결합한 비대칭 극한 이미지 압축 (AEIC) 프레임워크를 제안합니다.

Tianyu Zhang, Dong Liu, Chang Wen Chen2026-03-12💻 cs

Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

이 논문은 경량 2 자유도 매니퓰레이터를 탑재한 언액추에이션 aerial manipulator 의 전역 엔드 이펙터 포즈 제어를 위해 시뮬레이션 기반 강화학습 (PPO) 과 비선형 동적 역제어 (INDI) 를 결합하여 외부 교란과 무거운 하중 조작에도 강인한 성능을 입증했습니다.

Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

SVBench 는 발달 및 사회심리학에 기반한 30 가지 사회적 인지 패러다임을 활용하여 텍스트-비디오 생성 모델이 시각적 사실성은 높지만 의도, 감정, 사회적 규범 등 사회적 추론 능력에서는 한계가 있음을 체계적으로 평가한 최초의 벤치마크입니다.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

이 논문은 방대한 레이블이 없는 수술 영상을 활용하여 가상-실제 데이터 쌍을 생성하는 세계 모델 (Cosmos-H-Surgical) 을 학습시킴으로써, 데이터 부족 문제를 해결하고 실제 수술 로봇에서 더 뛰어난 성능을 보이는 자율 수술 정책 개발을 가능하게 합니다.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

이 논문은 언어 편향으로 인한 객체 환각을 완화하기 위해 사실적 텍스트 의미로 시각 - 텍스트 연동을 정밀하게 모델링하고 쿼리별 편집을 최적화하는 'AFTER'라는 새로운 적응형 사실 안내 활성화 편집 기법을 제안하여 LVLM 의 신뢰성을 크게 향상시켰음을 보여줍니다.

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

이 논문은 Implicit Neural Representations (INR) 을 활용하여 OCT 이미지의 비등방성 간격 문제를 해결하고, B-스캔 보간 및 해상도 무관한 망막 아틀라스 구축을 통해 연속적이고 일관된 3 차원 망막 분석을 가능하게 하는 두 가지 프레임워크를 제안합니다.

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

이 논문은 객체 지향 설계 (OOD) 평가를 위한 벤치마크 OODEval 과 인간 평가 데이터셋 OODEval-Human, 그리고 통합 평가 지표 CLUE 를 제안하고, 이를 통해 29 개의 대규모 언어 모델의 OOD 수행 능력을 심층 분석하여 높은 문법적 정확도에도 불구하고 의미적 결함이 존재함을 규명했습니다.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

이 논문은 명시적 기하학적 원시와 신경 가우시안을 느슨하게 결합한 하이브리드 표현을 통해 스트리밍 3D 재구성에서 기하학적 정밀도와 렌더링 품질을 동시에 달성하면서도 기존 방법들보다 훨씬 빠른 속도로 안정적인 온프레임 재구성을 가능하게 하는 'PLANING' 프레임워크를 제안합니다.

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

본 연구는 온라인 리뷰 평가 순서 (평가 후 리뷰 vs. 리뷰 후 평가) 가 서비스 품질과 제품 속성에 따라 감성적 휴리스틱과 인지적 노력의 매개 작용을 통해 소비자 평점에 극단화 효과를 미친다는 것을 실험 및 대규모 데이터 분석을 통해 규명했습니다.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang Liu2026-03-12💻 cs

Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval

이 논문은 참조 이미지와 수정 텍스트로 구성된 다중 모달 쿼리를 기반으로 실제 이미지 데이터베이스에서 타겟 이미지를 검색하는 제로샷 합성 이미지 검색 (CIR) 과제에서, 기존 텍스트 기반 매칭 대신 대형 다중 모달 모델 (LMM) 을 활용하여 쿼리에 대한 '정신적 이미지'와 데이터베이스 내 각 이미지의 합성 버전을 생성하여 매칭하는 '파라코스 (Paracosm)'라는 새로운 훈련 없는 방법을 제안하고 있습니다.

Tong Wang, Yunhan Zhao, Shu Kong2026-03-12💻 cs

KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

KVSmooth 는 주시 엔트로피를 기반으로 키-값 캐시에 지수 이동 평균을 적용하는 훈련 없는 플러그인 방식을 통해 멀티모달 대규모 언어 모델의 환각 현상을 효과적으로 완화하고 전반적인 성능을 향상시킵니다.

Siyu Jiang, Feiyang Chen, Xiaojin Zhang, Kun He2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

이 논문은 로봇공학 분야에서 '지루하고, 더럽고, 위험한 (DDD)' 작업에 대한 개념이 어떻게 사용되어 왔는지 실증적으로 분석하고, 사회과학 문헌을 바탕으로 정의를 재정립하며 로봇 기술이 인간 노동에 미치는 영향을 고려할 수 있는 새로운 프레임워크를 제안합니다.

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

← 이전 다음 →