cs.CV 편의 논문 | Gist.Science

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

이 논문은 피부암 진단을 지원하기 위해 참조 이미지와 텍스트 설명을 결합한 복합 질의에 대해 전역 및 지역적 특징을 정렬하는 트랜스포머 기반 프레임워크를 제안하고, Derm7pt 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

이 논문은 대규모 언어 모델 (LLM) 을 구조화된 의미 교사로서 활용하여 사전 학습된 후 제거함으로써, 적은 데이터로 높은 성능을 내면서도 임상 환경에 배포 가능한 경량 의료 비전 트랜스포머 (ViT) 인 'VIVID-Med'프레임워크를 제안합니다.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

이 논문은 결측 모달리티가 존재하는 실제 환경에서 각 모달리티의 신뢰도를 동적으로 평가하고 지배적인 모달리티에 다른 모달리티를 점진적으로 정렬함으로써 다중 모달리티 감정 분석의 강건성을 향상시킨 'PRLF' 프레임워크를 제안합니다.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian YangWed, 11 Ma💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

이 논문은 비균일한 열화 조건에서 고해상도 이미지를 복원하기 위해 불확실성 기반의 적응형 노이즈 생성 모듈과 멀티모달 대형 언어 모델을 활용한 품질 인식 사전 지식을 통합한 'QUSR'이라는 새로운 확산 기반 초해상도 모델을 제안합니다.

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

이 논문은 SegFormer 기반의 자동화된 다중 영역 분할을 통해 HR-pQCT 이미지에서 골격뿐만 아니라 연부조직까지 포함한 방사선학적 특징을 추출하여 골다공증 진단 정확도를 기존 뼈 기반 모델보다 향상시킨 최초의 연구입니다.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Rotation Equivariant Mamba for Vision Tasks

이 논문은 기존 비전 Mamba 아키텍처의 회전 민감성 문제를 해결하기 위해 회전 등변성을 내재한 새로운 모델 EQ-VMamba 를 제안하고, 다양한 시각 작업에서 우수한 성능과 파라미터 효율성을 입증합니다.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben XuWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

이 논문은 6G 네트워크 환경에서 분산된 데이터를 기반으로 한 페더러티드 러닝의 지연 시간, 대역폭, 신뢰성 제약을 해결하기 위해, 네트워크 상태와 학습 목표를 인지하여 클라이언트 선정부터 자원 할당 및 코드 생성까지 자동화하는 '에이전트 기반 AI'를 제어 평면 지능 계층으로 제안하고 그 유효성을 입증합니다.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

이 논문은 저조도 환경에서 센서 신호가 부분적으로 손실되더라도 견고한 성능을 보장하기 위해 융합과 디커플링을 통합한 3-브랜치 아키텍처 'RTFDNet'을 제안하며, 시너지 특징 융합과 교차 모달 및 영역 디커플링 정규화를 통해 단일 모드 추론을 가능하게 합니다.

Kunyu Tan, Mingjian LiangWed, 11 Ma💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 는 LLM 이 작성한 평가 기준 (rubric) 에서 파생된 세분화된 보상 신호를 활용하여 강화 학습을 통해 기존 감독 학습 및 이전 RL 방법보다 우수한 성능과 다양성을 보이는 밀도 이미지 캡셔닝 프레임워크를 제안합니다.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

이 논문은 실제 관측 환경의 고동적 범위와 광시야 문제를 해결하기 위해 패치 기반 학습과 비선형 밝기 변환을 도입한 딥러닝 기반 전파 간섭계 영상 재구성 모델 POLISH 를 개선하여, 차세대 전파 천문학에서 강중력렌즈 발견 효율을 기존 방법 대비 10 배 향상시킬 수 있음을 보였습니다.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

이 논문은 이미지 복원 시 국소 구조 보존과 장기적 공간 일관성을 동시에 달성하기 위해, 2D 토폴로지 왜곡과 장기 의존성 감쇠 문제를 해결하는 위계적 상태 공간 모델인 'Progressive Split-Mamba (PS-Mamba)'를 제안하고 다양한 복원 작업에서 기존 모델보다 우수한 성능을 입증합니다.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

이 논문은 사전 훈련된 3D 인코더 없이 원시 포인트 클라우드를 직접 처리하여 3D 데이터를 LLM 의 어휘를 확장하는 '외국어'로 간주하는 엔드투엔드 3D 멀티모달 모델 'SAGE'를 제안하고, 이를 통해 기존 방법들보다 뛰어난 성능과 효율성을 입증합니다.

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

이 논문은 이미지와 같은 시드 데이터 없이도 추론 능력을 향상시키기 위해 제안자, 코더, 솔버라는 세 가지 역할을 도입하고 그룹 상대적 정책 최적화 (GRPO) 를 활용한 강화 학습 기반의 자기 진화 프레임워크인 MM-Zero 를 제안합니다.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

이 논문은 카메라 시점, 손 크기, 녹화 조건 등의 차이로 인한 도메인 이동 문제를 해결하기 위해, 20 차원 관절 각도 기술자를 기반으로 한 기하학적 인식 메트릭 학습 프레임워크를 제안하여 저자원 환경에서 다양한 수화 언어 간 소수 샷 인식 성능을 획기적으로 향상시켰음을 보여줍니다.

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

본 논문은 복잡한 위상적 특성을 가진 혈관 해부학 구조의 모델링 과제를 해결하기 위해, 자연어 프롬프트를 통한 위상적 사전 지식을 시각 표현과 통합한 범용 기반 모델 'TubeMLLM'과 이를 평가하는 새로운 멀티모달 벤치마크 'TubeMData'를 제안하며, 다양한 데이터셋에서 기존 모델 대비 뛰어난 제로샷 일반화 성능과 위상적 일관성을 입증합니다.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

Distributed Convolutional Neural Networks for Object Recognition

이 논문은 양극성 샘플을 고차원 공간의 컴팩트한 집합으로, 음극성 샘플을 원점으로 매핑하는 새로운 손실 함수를 제안하여 양극성 클래스의 특징만 추출하는 경량 분산 합성곱 신경망 (DisCNN) 을 통해 복잡한 배경 속 객체 탐지 및 미시적 클래스에 대한 우수한 일반화 성능을 입증했습니다.

Liang SunWed, 11 Ma💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

이 논문은 MRI 데이터의 부족과 다양한 자기장 세기 간의 공통된 열화 패턴을 활용하기 위해 사전 훈련된 3D 기반 모델과 자기장 특이적 스펙트럼 보정 메커니즘을 통합한 'UniField'라는 통합 프레임워크를 제안하고, 대규모 공개 데이터셋을 통해 기존 최첨단 방법보다 PSNR 및 SSIM 성능을 획기적으로 향상시켰음을 보여줍니다.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan YuanWed, 11 Ma💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

이 논문은 드론 및 회전 기계의 안전을 위해 고속 회전 물체의 미세초 지연 추적이 가능한 새로운 이벤트 기반 방법인 'HelixTrack'을 제안하고, 이를 검증하기 위한 새로운 데이터셋 'TQE'를 소개합니다.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri MatasWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

이 논문은 의류의 전신 이미지에서 일관된 평면 의류 표현을 생성하기 위해 전역적 의류 단서를 포착하는 'GCBM'과 평면 구조적 사전지식을 주입하는 'FSCM'을 통해 인간의 관찰과 평면 의류 합성 간의 간극을 해소하는 새로운 확산 기반 프레임워크인 BridgeDiff 를 제안하고 있습니다.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

이 논문은 기존 잠재 공간의 압축으로 인한 정보 손실 문제를 해결하기 위해, DINOv2 의 밀집 시각 표현 공간에서 조건부 확산 트랜스포머와 시간 기반 게이트 모듈을 활용하여 구조적 안정성과 행동 정확도를 향상시킨 새로운 내비게이션 월드 모델 (RAE-NWM) 을 제안합니다.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

← 이전 다음 →