cs.CV 편의 논문 | Gist.Science

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

이 논문은 소수의 시연 데이터와 비전 - 언어 모델의 시각적 이해 능력을 활용하여, 의미론적 특징점 대응을 기반으로 행동을 왜곡하는 오픈 - 루프 정책을 통해 자율적 기능적 놀이를 수행하고 이를 통해 인간 수준의 모방 정책을 학습하는 'Tether'라는 새로운 로봇 학습 방법을 제안합니다.

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

이 논문은 물리 기반 신경 리타게팅 알고리즘과 강화 학습을 결합한 통합 멀티모달 제어 프레임워크인 ULTRA 를 제안하여, 인간형 로봇이 사전 정의된 동작 참조 없이도 egocentric 시각 입력만으로 자율적인 전신 loco-manipulation 을 수행할 수 있도록 합니다.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

이 논문은 힘 감지 데이터 수집과 모방 학습을 통한 초기 정책 학습, 그리고 정량적 지표와 인간 피드백을 결합한 선호도 기반 미세 조정을 통해, 감자나 오이 등 다양한 과일의 껍질 벗기기 작업에서 90% 이상의 성공률과 뛰어난 일반화 능력을 달성하는 로봇 조작 학습 프레임워크를 제안합니다.

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

MIBURI: Towards Expressive Interactive Gesture Synthesis

이 논문은 실시간 대화에 맞춰 자연스럽고 표현력 있는 전신 제스처와 얼굴 표정을 생성하는 최초의 온라인 인과적 프레임워크인 MIBURI 를 제안하며, 이를 통해 기존 에이전트의 경직된 동작 문제를 해결하고 인간과 유사한 상호작용을 가능하게 합니다.

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Utonia: Toward One Encoder for All Point Clouds

이 논문은 원격 탐사, LiDAR, RGB-D 등 다양한 도메인의 포인트 클라우드를 단일 자기지도 학습 트랜스포머 인코더인 'Utonia'로 통합하여 범용 3D 표현을 학습하고, 이를 로봇 조작 및 시각 - 언어 추론 등 다양한 하위 작업의 성능 향상에 활용하는 기초 모델을 제안합니다.

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

이 논문은 1 스테이지 객체 검출기의 극단적인 클래스 불균형 문제를 해결하기 위해 분류 작업을 랭킹 작업으로 전환하고, 비미분 가능하고 비볼록한 평균 정밀도 손실 (AP-loss) 을 최적화할 수 있는 새로운 알고리즘을 제안하여 네트워크 구조 변경 없이 검출 성능을 획기적으로 향상시켰습니다.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

이 논문은 원스텝 객체 감지기의 극심한 전경 - 배경 불균형 문제를 해결하기 위해 분류 작업을 랭킹 작업으로 전환하고, 비차분 가능하고 비볼록한 평균 정밀도 손실 (AP-loss) 을 최적화하기 위해 퍼셉트론 학습과 역전파를 결합한 새로운 알고리즘을 제안하여 기존 방법보다 뛰어난 성능을 달성함을 보여줍니다.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

OmniTracker: Unifying Object Tracking by Tracking-with-Detection

이 논문은 검출과 추적을 상호 보완적으로 결합한 '추적-검출 (Tracking-with-Detection)' 패러다임을 제안하여, 기존에 분리되어 있던 인스턴스 및 카테고리 추적 작업을 단일 공유 네트워크 아키텍처로 통합하고 성능을 향상시킨 OmniTracker 를 소개합니다.

Junke Wang, Zuxuan Wu, Dongdong Chen + 4 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

이 논문은 기존 공간 주의 메커니즘의 한계를 극복하고 큰 커널을 가진 합성곱에서 파라미터 공유 문제를 해결하기 위해, 계산 오버헤드는 거의 증가시키지 않으면서 네트워크 성능을 크게 향상시키는 새로운 '수용野 주의 합성곱 (RFAConv)'을 제안합니다.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

이 논문은 기존 광학 설계가 컴퓨터 비전 작업과 단절되어 있고 종단간 최적화가 불안정하다는 문제를 해결하기 위해, 사전 학습된 비전 모델을 고정하고 렌즈만 최적화하여 더 넓은 설계 공간을 탐색하고 기존 렌즈보다 우수한 성능을 보이는 '작업 주도 렌즈 설계'를 제안합니다.

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

이 논문은 데이터가 부족한 상황에서 약지도 학습인 다중 인스턴스 학습 (MIL) 의 성능을 향상시키기 위해 인스턴스 분포의 위상적 구조를 보존하는 위상적 유도 편향을 도입한 '위상 유도 MIL(TG-MIL)' 방법을 제안하고, 희귀 질환 분류 등 다양한 시나리오에서 기존 최첨단 모델 대비 평균 2.8%~15.3% 의 성능 개선을 입증했습니다.

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

이 논문은 기존 시간 인덱싱의 한계를 극복하기 위해 '거리 인덱싱'과 반복적 참조 추정 전략을 도입하여 비디오 프레임 보간 시 객체 운동의 모호성을 해소하고, 더 선명한 보간 결과와 정밀한 시간 제어 기능을 제공하는 새로운 방법을 제안합니다.

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

이 논문은 대규모 멀티모달 데이터의 복잡성을 포착하기 위해 DAG 를 넘어선 잠재적 부분 인과 모델을 제안하고, 통계적 식별성을 통해 멀티모달 대비 학습 (MMCL) 이 잠재 변수를 학습한다는 이론적 근거를 제시하여 CLIP 과 같은 사전 훈련 모델의 표현 분리 및 도메인 일반화 능력을 입증합니다.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

이 논문은 기존 지도 학습 기반 방법의 한계를 극복하고 전이 학습, 데이터 증강 및 테스트 시간 증강 기법을 도입하여 다양한 실험 환경과 돌연변이 유형에 적용 가능한 정밀한 제브라피시 심혈관 분석 프레임워크 (ZACAF) 를 개발하고, 이를 통해 심근증 모델인 nrap 돌연변이 제브라피시의 심혈관 기능을 성공적으로 정량화했음을 제시합니다.

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

이 논문은 대규모 언어 모델을 활용한 적응형 미세-세분화 설명과 위치 강화 고화질 국소화 기법을 통해 다양한 크기와 형태의 이상을 정밀하게 탐지 및 국소화하는 새로운 제로샷 이상 탐지 방법인 FiLo 를 제안하여 MVTec 및 VisA 데이터셋에서 최첨단 성능을 달성했습니다.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

이 논문은 SAM 의 단순성 편향 감소 특성을 활용하여 학습 초기에 데이터 클러스터링과 업샘플링을 수행하는 'USEFUL' 방법을 제안함으로써 다양한 아키텍처와 데이터셋에서 기존 최첨단 성능을 달성하는 것을 증명합니다.

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

이 논문은 자율주행 환경에서 사전 정의된 객체 범위를 넘어 미지의 물체도 탐지할 수 있도록 LiDAR 기하학적 단서와 카메라 BEV 특징을 결합한 2 단계 학습 프레임워크인 OS-Det3D 를 제안합니다.

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

이 논문은 차량 내성 효율성을 위해 드라이버의 자세와 상호작용 객체 정보를 활용하여 토큰을 선택하는 'POGUISE+'라는 다중 태스크 비전 트랜스포머 모델을 제안함으로써, 기존 방법 대비 연산 비용을 크게 줄이면서도 Drive&Act, 100-Driver, 3MDAD 데이터셋에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

이 논문은 다중 카메라, LiDAR, 시맨틱 분할 마스크 및 텍스트 주석을 활용하여 late fusion 방식으로 통합한 MSSPlace 를 제안함으로써 단일 모달리티 기반 방법보다 우수한 성능을 보이는 다중 센서 장소 인식 모델을 제시합니다.

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

이 논문은 시각 장애인의 내비게이션을 지원하기 위해 21 개의 야외 영상과 90 가지 필수 객체 분류 체계로 구성된 새로운 데이터셋을 공개하고, 기존 컴퓨터 비전 모델이 이러한 특정 객체 인식에 미흡함을 입증했습니다.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

← 이전 다음 →