cs.CV 편의 논문 | Gist.Science

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

이 논문은 뇌 기능 네트워크의 계층적 위상을 고차 왜곡 없이 정밀하게 모델링하기 위해 로렌츠 모델을 기반으로 한 쌍곡선 그래프 합성곱 네트워크 (Brain-HGCN) 를 제안하고, 이를 통해 정신 질환 분류 성능을 기존 유클리드 기반 방법보다 크게 향상시켰음을 보여줍니다.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

이 논문은 3D 손 자세 분석과 객체 인식, 인간 - 물체 상호작용 인식을 결합한 경량 프레임워크 I2S 를 제안하여, 증강현실 기반 보안 시스템에서 실시간으로 사용자를 97.52% 의 F1 점수로 정확하게 식별하는 방법을 제시합니다.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

이 논문은 심층 시각 특징의 비선형 매니폴드 구조를 확산 맵과 미분 가능한 니스트롬 보간을 통해 반영하여, 기존 유클리드 거리 기반보다 더 정확한 해석 가능한 세밀한 분류를 가능하게 하는 'GeoProto'라는 새로운 프로토타입 매칭 패러다임을 제안합니다.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

이 논문은 기존 모델의 한계를 극복하고 조명, 그림자, 반사 등 물리적으로 타당한 이미지 합성을 가능하게 하는 훈련 없는 프레임워크 'SHINE'과 이를 평가하기 위한 새로운 벤치마크 'ComplexCompo'를 제안합니다.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

이 논문은 기존 삼각형 메쉬를 사각형으로 변환하는 방식의 한계를 극복하고, 혼합 토폴로지 처리를 위한 통합 토큰화 방법과 강화 학습 기반의 미세 조정 기법을 통해 사각형 메쉬를 종단간 생성하는 최초의 오토레거시 프레임워크인 'QuadGPT'를 제안합니다.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

이 논문은 유한 속도로 확률 질량을 이동시키는 감쇠 파동 방정식과 스토캐스틱 Kac 표현을 활용하여, 적은 함수 평가 횟수로도 높은 품질의 이미지를 생성하면서도 수치적 안정성을 유지하는 'DistillKac'이라는 새로운 이미지 생성 모델을 제안합니다.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

이 논문은 기존 평가 방법의 한계를 극복하고 MLLM 의 시각적 감정 인식 능력을 개방형 어휘와 다면적 맥락을 고려하여 확장 가능하게 평가하기 위한 '감정 진술 판단 (Emotion Statement Judgment)' 태스크와 자동화 파이프라인을 제안하며, 이를 통해 현재 MLLM 들의 강점과 인간 대비 약점을 규명했습니다.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

이 논문은 의료 영상 분할 모델에서 파생된 하류 지표 (예: 장기 크기) 의 불확실성을 정량화하기 위해, 기존 블랙박스 방식보다 효율적이고 간결한 구간을 제공하며 공변량 이동 하에서도 타겟 커버리지를 회복하는 새로운 프레임워크인 COMPASS 를 제안합니다.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

본 논문은 엔지니어링 설계의 계층적 추상화 과정을 평가하기 위해 8,006 개 이상의 문제로 구성된 'CircuitSense' 벤치마크를 제안하며, 시각적 인식과 기호적 추론 간의 심각한 격차를 규명하고 공학적 역량 평가에서 기호적 추론의 핵심적 역할을 강조합니다.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

이 논문은 중간 특징 공간 없이 뇌 신호를 직접 조건으로 하여 이미지 생성을 수행하는 'NeuroAdapter' 프레임워크와 뇌 영역별 기여도를 분석하는 'IBBI' 해석성 도구를 제안함으로써, 뇌 활동 기반의 시각적 복원 과정을 투명하게 이해할 수 있는 새로운 길을 제시합니다.

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

이 논문은 OCR 기반의 글자 정확도와 스타일 분류 손실을 통해 의미 구조 잠재 공간을 구축하고, 이를 기반으로 한 잠은 확산 트랜스포머 (InkDiT) 를 도입하여 기존 방법들의 한계를 극복하고 전체 텍스트 줄에 대한 고품질 온라인 필기 생성을 가능하게 하는 'DiffInk' 프레임워크를 제안합니다.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

이 논문은 기존 지도학습 기반의 한계를 극복하고 인간 선호도와 평가 지표를 최적화하기 위해 R1 스타일의 강화 미세조정 (SMART-R1) 과 'SFT-RFT-SFT' 반복 학습 전략을 도입하여 Waymo 오픈 시뮬레이션 에이전트 챌린지에서 최상위 성능을 달성한 다중 에이전트 교통 시뮬레이션 프레임워크를 제안합니다.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

이 논문은 20 만 개 이상의 인간 선호도 쌍으로 훈련된 새로운 reward 모델인 EditReward 를 제안하여 오픈소스 이미지 편집 모델의 품질 향상을 위한 고품질 데이터 선별 및 학습을 가능하게 하고 인간 선호도와의 높은 정합성을 입증합니다.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

이 논문은 포즈가 지정되지 않은 단일 이미지 또는 다중 뷰 컬렉션에서 별도의 스타일 참조 이미지에 조건부로 작동하며, 퍼-scene 최적화나 사전 계산된 포즈 없이도 기하학적 정합성과 뷰 일관성을 유지하는 단일 순방향 3D 가우스 스플래팅 프레임워크인 'Stylos'를 제안합니다.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

이 논문은 기존 벤치마크의 한계를 극복하고 점진적 난이도의 멀티태스크·멀티언어 문화 인식 능력을 평가하기 위해 만화를 기반으로 한 새로운 벤치마크인 C $^3$ B 를 제안하고, 이를 통해 현재 멀티모달 대규모 언어 모델과 인간 간의 성능 격차를 확인했습니다.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

이 논문은 비디오 잠재 확산 모델의 시간적 인과성을 증류한 비디오 일관성 모델 (VCM) 을 활용하여, 자동 미분 없이도 고화질 비디오 복원 작업에서 기존 프레임 단위 이미지 기반 방법보다 뛰어난 일관성과 품질을 달성하는 최초의 제로샷 역해결사 LVTINO 를 제안합니다.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

이 논문은 DiT 기반 모델의 강력한 생성 사전 지식을 활용하기 위해 점 기반이 아닌 영역 기반 편집 패러다임을 도입하고, 개인화 어댑터와 MLLM을 결합하여 왜곡을 줄이고 일관성을 높인 DragFlow 프레임워크를 제안하며, 이를 통해 드래그 편집의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

ChainMPQ 는 훈련 없이 텍스트와 시각적 기억을 활용한 교차 체인 추론을 통해 대규모 비전 - 언어 모델의 관계 할루시네이션을 효과적으로 완화하는 방법론을 제안합니다.

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

이 논문은 심초음파 탐침 유도 시스템의 개인별 3D 구조 이해 부족 문제를 해결하기 위해, 초음파 기반 모델의 강력한 이미지 표현 능력에 개인별 3D 구조 이해 기능을 주입하는 'VA-Adapter'를 제안하여 적은 파라미터로 기존 모델보다 우수한 성능을 달성함을 보여줍니다.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

이 논문은 기존 학습 없이 추론 시 공간적·시간적 레이아웃과 텍스트-이미지 정렬을 개선하기 위해 테스트 시간 최적화와 매개변수 기반 기억 메커니즘을 도입한 TTOM 프레임워크를 제안하여 구성적 비디오 생성의 성능을 향상시킵니다.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

← 이전 다음 →

cs.CV