cs.CV 편의 논문 | Gist.Science

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

이 논문은 텍스트 기반 생성 모델을 활용하여 3D 장면의 스타일 일관성과 뷰 일관성을 동시에 향상시키고, 분할 마스크를 기반으로 한 다중 영역 제어 스타일 전이를 가능하게 하는 새로운 3D 스타일라이제이션 기법을 제안합니다.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

이 논문은 데이터가 부족한 도메인에서 부분적으로 짝지어진 데이터를 활용하여 사전 훈련된 소스 도메인 확산 모델과 타겟 도메인 잠재 정렬 확산 모델을 공유 잠재 공간에서 정렬함으로써, 높은 충실도와 다양성을 갖춘 반지도 학습 도메인 번역 프레임워크인 LADB 를 제안합니다.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

이 논문은 다양한 조명과 촬영 조건에서 수집된 7,299 장의 이미지로 구성된 'TrueSkin' 데이터셋을 제안하여 기존 다중 모달 및 생성 모델의 피부색 인식 및 생성 편향을 해결하고, 이를 통해 모델의 정확성과 공정성을 크게 향상시키는 방법을 제시합니다.

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

이 논문은 비디오 생성을 위한 Diffusion Transformer(DiT) 의 추론 지연을 해결하기 위해, 중간 시간 단계에서의 특징 유사성을 기반으로 불필요한 계산을 동적으로 캐싱 및 재사용하여 학습 없이 최대 6 배의 속도 향상을 달성하는 '블록 단위 캐싱 (BWCache)' 방법을 제안합니다.

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

이 논문은 뇌 기능 네트워크의 계층적 위상을 고차 왜곡 없이 정밀하게 모델링하기 위해 로렌츠 모델을 기반으로 한 쌍곡선 그래프 합성곱 네트워크 (Brain-HGCN) 를 제안하고, 이를 통해 정신 질환 분류 성능을 기존 유클리드 기반 방법보다 크게 향상시켰음을 보여줍니다.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

이 논문은 3D 손 자세 분석과 객체 인식, 인간 - 물체 상호작용 인식을 결합한 경량 프레임워크 I2S 를 제안하여, 증강현실 기반 보안 시스템에서 실시간으로 사용자를 97.52% 의 F1 점수로 정확하게 식별하는 방법을 제시합니다.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

이 논문은 심층 시각 특징의 비선형 매니폴드 구조를 확산 맵과 미분 가능한 니스트롬 보간을 통해 반영하여, 기존 유클리드 거리 기반보다 더 정확한 해석 가능한 세밀한 분류를 가능하게 하는 'GeoProto'라는 새로운 프로토타입 매칭 패러다임을 제안합니다.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

이 논문은 기존 모델의 한계를 극복하고 조명, 그림자, 반사 등 물리적으로 타당한 이미지 합성을 가능하게 하는 훈련 없는 프레임워크 'SHINE'과 이를 평가하기 위한 새로운 벤치마크 'ComplexCompo'를 제안합니다.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

이 논문은 기존 삼각형 메쉬를 사각형으로 변환하는 방식의 한계를 극복하고, 혼합 토폴로지 처리를 위한 통합 토큰화 방법과 강화 학습 기반의 미세 조정 기법을 통해 사각형 메쉬를 종단간 생성하는 최초의 오토레거시 프레임워크인 'QuadGPT'를 제안합니다.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

이 논문은 유한 속도로 확률 질량을 이동시키는 감쇠 파동 방정식과 스토캐스틱 Kac 표현을 활용하여, 적은 함수 평가 횟수로도 높은 품질의 이미지를 생성하면서도 수치적 안정성을 유지하는 'DistillKac'이라는 새로운 이미지 생성 모델을 제안합니다.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

이 논문은 기존 평가 방법의 한계를 극복하고 MLLM 의 시각적 감정 인식 능력을 개방형 어휘와 다면적 맥락을 고려하여 확장 가능하게 평가하기 위한 '감정 진술 판단 (Emotion Statement Judgment)' 태스크와 자동화 파이프라인을 제안하며, 이를 통해 현재 MLLM 들의 강점과 인간 대비 약점을 규명했습니다.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

이 논문은 의료 영상 분할 모델에서 파생된 하류 지표 (예: 장기 크기) 의 불확실성을 정량화하기 위해, 기존 블랙박스 방식보다 효율적이고 간결한 구간을 제공하며 공변량 이동 하에서도 타겟 커버리지를 회복하는 새로운 프레임워크인 COMPASS 를 제안합니다.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

본 논문은 엔지니어링 설계의 계층적 추상화 과정을 평가하기 위해 8,006 개 이상의 문제로 구성된 'CircuitSense' 벤치마크를 제안하며, 시각적 인식과 기호적 추론 간의 심각한 격차를 규명하고 공학적 역량 평가에서 기호적 추론의 핵심적 역할을 강조합니다.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

← 이전 다음 →

cs.CV

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

DistillKac: Few-Step Image Generation via Damped Wave Equations

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Towards Interpretable Visual Decoding with Attention to Brain Representations

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

cs.CV

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

DistillKac: Few-Step Image Generation via Damped Wave Equations

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Towards Interpretable Visual Decoding with Attention to Brain Representations

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Culture In a Frame: C3^33B as a Comic-Based Benchmark for Multimodal Culturally Awareness

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness