cs.CV 편의 논문 | Gist.Science

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

PRISM 은 관절별 잠재 벡터 분해와 잡음 없는 조건 주입 기법을 통해 텍스트, 포즈, 긴 시퀀스 생성 등 다양한 태스크를 단일 모델로 통합하며 기존 방법의 한계를 극복한 스트리밍 인간 모션 생성 프레임워크를 제안합니다.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

이 논문은 희소한 병리학자 주석과 지수 이동 평균 기반의 교사 네트워크를 활용하여 점진적으로 가짜 마스크를 정제하는 약지도 교사 - 학생 프레임워크를 제안함으로써, 비용 효율적이고 일반화 가능한 대장암 조직병리선 분할을 가능하게 합니다.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

이 논문은 단일 주체의 캡처 데이터만으로도 다양한 표정 일반화 능력을 향상시키기 위해, 학습 중 유사한 표정을 검색하여 증강하는 'RAF(Retrieval-Augmented Faces)' 기법을 제안하고 템플릿 없는 애니메이션 가능한 헤드 아바타의 표현 충실도를 크게 개선함을 보여줍니다.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

RBF Weighted Hyper-Involution for RGB-D Object Detection

이 논문은 RGB-D 객체 탐지를 위해 원시 깊이 맵의 공간적 상호작용 패턴에 따라 동적으로 조정되는 RBF 가중 초-전환 (hyper-involution) 과 정보 손실 없이 특징을 융합하는 학습 가능한 업샘플링 레이어를 도입하여, 실시간으로 높은 성능을 달성하는 두 스트림 모델을 제안합니다.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

이 논문은 포즈 정보를 활용한 컨텍스트 학습 (PA-ICVL) 을 통해 비현실적 렌더링 (NPR) 영역의 시각적 환각을 기존 RGB 기반 방법보다 훨씬 정확하게 탐지하는 새로운 비전 - 언어 모델 (VLM) 시스템을 제안하고 그 유효성을 입증합니다.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

이 논문은 의료 분할 작업의 성능을 직접적으로 최적화하기 위해 분할 모델의 의미론적 기울기를 피드백으로 활용하는 이수준 최적화 프레임워크 'Fuse4Seg'를 제안하여, 기존 시각 중심 융합 방식의 한계를 극복하고 동시에 물리적 정확성과 임상적 해석 가능성을 보장합니다.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

이 논문은 파라미터 효율적 미세 조정 (PEFT) 의 일반화 성능을 향상시키기 위해 적응기에서 학습된 특징에 곱셈 노이즈를 가해 일관성 정규화를 수행하는 'PACE'를 제안하며, 이를 통해 그래디언트 노름을 감소시키고 사전 학습된 지식을 유지하여 다양한 시각 및 언어 작업에서 기존 방법들을 능가하는 성능을 입증합니다.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

이 논문은 UAV 영상에서 배경 노이즈를 줄이고 행동 관련 객체 정보에 집중하여 미래 동작을 예측하는 'FALCON'이라는 자기지도 학습 전처리 방법을 제안함으로써, UAV 행동 인식의 정확도를 높이고 추론 속도를 크게 개선했다고 요약할 수 있습니다.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

이 논문은 고해상도 사진 데이터셋과 사진가들의 전문적인 가이드를 기반으로 한 얼굴 중심 생성 확산 사전 지식을 학습하여, 기존 방법의 한계를 극복하고 눈과 입과 같은 중요한 부위의 아티팩트를 최소화하면서도 사실적인 안면 복원 결과를 달성하는 'AuthFace' 프레임워크를 제안합니다.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

이 논문은 추가 데이터셋 없이 자기일관성 학습 전략과 경량 네트워크를 활용하여 불규칙하게 수집된 지진 데이터를 고품질로 재구성하는 효율적인 자기지도 학습 방법을 제안합니다.

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

이 논문은 비디오 콘텐츠의 높은 중복성을 해결하기 위해 사용자 지시를 기반으로 관심 영역을 식별하고 적응형 풀링을 통해 시각 토큰을 최대 18 배까지 압축하면서도 성능을 유지하는 프롬프트 기반 풀링 LLaVA(PPLLaVA) 를 제안하여 비디오 이해의 효율성과 처리량을 획기적으로 개선합니다.

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

이 논문은 생성 속도와 제어력을 개선하기 위해 모션 공간에서 표현을 생성하는 트랜스포머 기반의 확산 모델인 'Ditto'를 제안하여, 실시간 대화형 애플리케이션에 적합한 정교한 표정과 제어가 가능한 실시간 talking head 합성 프레임워크를 제시합니다.

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

이 논문은 다양한 비전 인코더의 시각 토큰을 효과적으로 통합하는 경량화된 설계 원칙을 제안하고, 이를 적용한 'LEO'라는 새로운 아키텍처가 다양한 벤치마크와 자율주행 도메인에서 기존 혼합 비전 인코더 (MoVE) 기반 모델보다 우수한 성능을 보임을 입증합니다.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

이 논문은 3D 가우스 스플래팅의 기하학적 정확도를 높이고 플로터 아티팩트를 줄이며 메모리 효율성을 개선하기 위해 고유값 기반의 기하학적 손실 항을 도입한 'FeatureGS'를 제안합니다.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

이 논문은 3D 가우스 스플래팅과 확산 모델을 활용한 새로운 뷰 합성 기법과 재투영 오류 기반의 점진적 픽셀 필터링 전략을 결합하여, 희소하거나 극단적인 시점에서도 신뢰할 수 있는 픽셀만 선별적으로 학습함으로써 장면 좌표 회귀 기반의 시각적 국소화 정확도를 획기적으로 향상시키는 PoI 프레임워크를 제안합니다.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

이 논문은 대규모 멀티모달 언어 모델을 활용한 과학적 발견, 실험, 콘텐츠 생성 및 평가의 5 가지 핵심 영역에 대한 데이터셋, 방법론, 평가 전략, 한계 및 윤리적 문제를 포괄적으로 검토하여 AI 기반 과학 연구의 현재와 미래를 조명하는 종합적인 조사를 제공합니다.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

← 이전 다음 →

cs.CV