cs 편의 논문 | Gist.Science

A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition

이 논문은 ABAW 10th 워크숍의 얼굴 표정 인식 과제를 해결하기 위해 DINOv2 기반의 시각 특징 추출과 Wav2Vec 2.0 기반의 청각 특징을 결합한 2 단계 이중 모달 모델을 제안하여, 공식 검증 세트에서 0.5368 의 Macro-F1 점수를 기록하며 기존 베이스라인을 능가하는 성능을 입증했습니다.

Jiajun Sun, Zhe Gao2026-03-13💻 cs

Language Model Teams as Distributed Systems

이 논문은 대규모 언어 모델 (LLM) 팀의 설계와 평가를 위한 체계적인 프레임워크를 구축하기 위해 분산 시스템 이론을 적용하고, 두 분야의 교차점을 통해 LLM 팀의 구조와 성능에 대한 실질적인 통찰을 도출합니다.

Elizabeth Mieczkowski, Katherine M. Collins, Ilia Sucholutsky + 2 more2026-03-13💻 cs

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

이 논문은 비전 - 언어 모델 (VLM) 의 공간 추론 능력과 시각 피드백을 활용하여 자연어 명령에 따라 제약 없는 오픈 보카불러리 3D 장면을 생성 및 편집할 수 있는 에이전트 'SceneAssistant'를 제안합니다.

Jun Luo, Jiaxiang Tang, Ruijie Lu + 1 more2026-03-13💻 cs

HandelBot: Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies

이 논문은 시뮬레이션에서 학습된 정책을 물리적 정렬 보정과 잔류 강화학습을 통한 빠른 적응으로 결합하여, 30 분의 물리적 상호작용 데이터만으로 정밀한 양손 피아노 연주라는 고난도 작업을 성공적으로 수행하는 HandelBot 프레임워크를 제안합니다.

Amber Xie, Haozhi Qi, Dorsa Sadigh2026-03-13💻 cs

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

이 논문은 고정된 계산 비용의 한계를 극복하고 중요도에 따라 자원을 효율적으로 할당하기 위해, 입력 이미지 크기와 연산을 분리하는 가변 길이의 잠재 인터페이스를 도입하여 확산 트랜스포머의 지연 시간과 품질 간 균형을 최적화하는 'ELIT' 모델을 제안합니다.

Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov + 6 more2026-03-13💻 cs

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

이 논문은 할루시네이션을 줄이고 이미지 편집 및 생성의 충실도를 높이기 위해 고품질 데이터셋과 벤치마크를 구축하고, 새로운 보상 전략을 통해 강화학습을 최적화하는 'FIRM' 프레임워크를 제안합니다.

Xiangyu Zhao, Peiyuan Zhang, Junming Lin + 7 more2026-03-13💻 cs

DVD: Deterministic Video Depth Estimation with Generative Priors

이 논문은 생성적 사전 지식을 활용하여 기존 비디오 깊이 추정 모델의 한계를 극복하고, 제로샷 성능과 데이터 효율성을 극대화하는 최초의 결정론적 프레임워크인 DVD 를 제안합니다.

Hongfei Zhang, Harold Haodong Chen, Chenfei Liao + 12 more2026-03-13💻 cs

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

이 논문은 비디오의 중복 패치를 제거하여 토큰 수를 획기적으로 줄이고 처리 속도를 높임으로써 장고해고 고해상도 비디오 이해를 가능하게 하는 경량 모듈 'AutoGaze'를 제안하고, 이를 통해 멀티모달 대규모 언어 모델의 성능과 확장성을 크게 향상시켰음을 보여줍니다.

Baifeng Shi, Stephanie Fu, Long Lian + 10 more2026-03-13💻 cs

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

이 논문은 다중 객체의 정체성 유지와 다양한 수준의 모션 제어를 동시에 가능하게 하기 위해 조건 인식 3D 회전 위치 임베딩, 계층적 모션 주입 전략, 그리고 잠재 공간에서의 정체성 보상 학습을 도입한 'DreamVideo-Omni' 프레임워크를 제안합니다.

Yujie Wei, Xinyu Liu, Shiwei Zhang + 12 more2026-03-13💻 cs

HumDex:Humanoid Dexterous Manipulation Made Easy

이 논문은 이동성과 정밀도를 동시에 확보한 IMU 기반 휴대용 원격 조작 시스템 'HumDex'와 학습 기반 손 동작 재매핑, 그리고 인간 운동 데이터를 활용한 2 단계 모방 학습 프레임워크를 제안하여, 인간형 로봇의 전신 정교 조작 데이터 수집의 병목 현상을 해결하고 새로운 환경과 객체에 대한 일반화 성능을 크게 향상시켰음을 보여줍니다.

Liang Heng, Yihe Tang, Jiajun Xu + 3 more2026-03-13💻 cs

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

이 논문은 실시간 응답성과 논리적 추론을 동시에 달성하기 위해 입력되는 비디오 클립에 대한 추론을 활성화하는 'Video Streaming Thinking(VST)' 패러다임을 제안하고, 이를 위한 포스트 트레이닝 파이프라인과 자동 데이터 생성 방법을 통해 기존 오프라인 모델 대비 응답 속도를 획기적으로 단축하면서도 다양한 비디오 이해 작업에서 뛰어난 성능을 입증했습니다.

Yiran Guan, Liang Yin, Dingkang Liang + 5 more2026-03-13💻 cs

$Ψ_0$ : An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

이 논문은 인간과 휴머노이드 로봇 간의 운동학적 차이로 인한 기존 접근법의 한계를 극복하기 위해, 대규모 인간 시점 데이터를 활용한 사전 학습과 고품질 로봇 데이터를 통한 후속 학습이라는 2 단계 훈련 패러다임을 도입하여, 훨씬 적은 데이터로 기존 모델보다 40% 이상 뛰어난 성능을 보이는 오픈 소스 휴머노이드 로코-조작 기초 모델 ' $Î¨_0$ '을 제안합니다.

Songlin Wei, Hongyi Jing, Boqian Li + 12 more2026-03-13💻 cs

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

이 논문은 자연과학부터 사회과학까지 10 개 학문 분야의 520 개 샘플로 구성된 이미지 편집 벤치마크 'GRADE'를 제안하여, 기존 모델이 구조화된 학문적 지식과 추론이 필요한 편집 작업에서 심각한 한계를 보임을 입증하고 향후 연구 방향을 제시합니다.

Mingxin Liu, Ziqian Fan, Zhaokai Wang + 13 more2026-03-13💻 cs

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

이 논문은 29 개 데이터셋의 다중 태스크 사전 학습을 통해 이미지, 비디오, 3D 기하학적 재구성, 로봇 조작 등 다양한 시공간적 추론 작업에서 전문 모델과 경쟁하는 성능을 보이는 단일 범용 비전 백본 'OmniStream'을 제안합니다.

Yibin Yan, Jilan Xu, Shangzhe Di + 2 more2026-03-13💻 cs

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

이 논문은 시각적 근거에 기반한 심층적 구성적 추론 능력을 평가하기 위해 프로그래머블하게 검증 가능한 벤치마크 'MM-CondChain'을 제안하고, 에이전트 합성 파이프라인을 통해 구축된 이 벤치마크를 통해 현재 최첨단 멀티모달 대형 언어 모델들조차 심층적 구성적 추론에서 여전히 심각한 한계를 겪고 있음을 실증합니다.

Haozhan Shen, Shilin Yan, Hongwei Xue + 5 more2026-03-13💻 cs

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

본 논문은 다양한 비디오의 복잡도에 따라 토큰 할당을 동적으로 조절하여 재구성 품질과 생성 효율성을 극대화하는 적응형 비디오 토큰화 프레임워크인 EVATok 을 제안하고, 이를 통해 기존 최첨단 모델 대비 토큰 사용량을 24.4% 이상 절감하면서도 우수한 성능을 달성함을 보여줍니다.

Tianwei Xiong, Jun Hao Liew, Zilong Huang + 3 more2026-03-13💻 cs

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

이 논문은 팀 의사결정에서 투표가 동등한 비중을 가질 경우, 이전 결정들을 무시하고 비밀투표를 하는 것이 사회적 학습을 통한 정보 공유보다 최적의 성능을 보장함을 보여줍니다.

Joong Bum Rhim, Vivek K. Goyal2026-03-12💻 cs

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

이 논문은 순차적 의사결정 과정에서 마지막 에이전트의 정확도를 높이기 위해 초기 신념을 실제 확률과 다르게 설정하여, 에이전트들이 '옳은' 결정보다는 '정보 제공'에 중점을 두는 것이 베이지안 위험을 최소화할 수 있음을 보여줍니다.

Joong Bum Rhim, Vivek K Goyal2026-03-12💻 cs

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

이 논문은 베르누이 과정의 매개변수 추정을 위해 최적의 자원 할당 전략을 제안하고, 오라클 지원 할당과 유사한 성능을 내는 간단한 정지 규칙을 개발하여 활성 이미징 시나리오에서 평균 제곱 오차를 크게 개선하는 방법을 제시합니다.

Safa C. Medin, John Murray-Bruce, David Castañón + 1 more2026-03-12💻 cs

In Pursuit of Many: A Review of Modern Multiple Object Tracking Systems

이 논문은 현대의 다중 객체 추적 (MOT) 시스템이 직면한 과제를 해결하기 위한 다양한 패러다임과 아키텍처를 종합적으로 검토하고, 벤치마크 및 평가 지표의 변화를 분석하며, 향후 연구 방향과 실용적 배포를 위한 전망을 제시합니다.

Mk Bashar, Samia Islam, Kashifa Kawaakib Hussain, Md. Bakhtiar Hasan, A. B. M. Ashikur Rahman, Md. Hasanul Kabir2026-03-12💻 cs

← 이전 다음 →

cs