Image Captioning via Compact Bidirectional Architecture
이 논문은 기존 단방향 생성의 한계를 극복하고 병렬 실행이 가능한 컴팩트 양방향 트랜스포머 아키텍처를 제안하여 MSCOCO 벤치마크에서 비시각 - 언어 사전학습 모델을 제외한 최첨단 성능을 달성한 연구입니다.
1396 편의 논문
이 논문은 기존 단방향 생성의 한계를 극복하고 병렬 실행이 가능한 컴팩트 양방향 트랜스포머 아키텍처를 제안하여 MSCOCO 벤치마크에서 비시각 - 언어 사전학습 모델을 제외한 최첨단 성능을 달성한 연구입니다.
이 논문은 다양한 카메라 각도와 가려짐으로 인한 어려움을 극복하기 위해 3D 축구장 모델과 검출된 필드 라인을 비선형 최적화 과정에 활용하는 'PnLCalib'라는 새로운 최적화 기반 보정 파이프라인을 제안하여 기존 방법들보다 향상된 정확도와 견고성을 달성했다고 설명합니다.
이 논문은 단일 인체 기반 또는 분리 모델링 방식의 한계를 극복하기 위해 인과적 상호작용 주입, 역할 진화 스캐닝, 지역적 패턴 증폭 기법을 도입한 효율적이고 효과적인 인간 - 인간 모션 생성 프레임워크인 TIMotion 을 제안하고 InterHuman 및 InterX 데이터셋에서 우수한 성능을 입증합니다.
이 논문은 양자화와 희소화 연산에서 발생하는 불연속성 문제를 해결하기 위해 양자화를 첨가 노이즈로 모델링하고, 이를 보정하는 정교한 기울기 경로를 제공하는 통합 프레임워크를 제안하여 임의의 정밀도와 희소성 수준에서 안정적으로 신경망을 학습시키는 방법을 제시합니다.
이 논문은 기존 데이터 축소 기법에 특징 또는 주의 주석과 같은 '우월 정보(Privileged Information)'를 추가로 합성하여 모델 학습을 보조함으로써, ImageNet-1K 등 다양한 데이터셋에서 기존 방법들의 성능을 획기적으로 향상시킨 'DRUPI' 방법을 제안합니다.
이 논문은 잠재 변수의 변환을 희소 성분으로 분해하여 시퀀스 데이터에서 비지도 학습을 수행함으로써, 독립적인 요인과 변환 원리를 모두 포착하는 새로운 형태의 분리된 표현을 학습하고 데이터 가능성과 근사 공변성 오류 측면에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 수중 원격 조작 차량의 실시간 시각 피드백을 위해 사전 임무 정보를 활용한 학습 기반의 새로운 뷰 합성 기법을 통해 기존 방법보다 우수한 압축률과 화질을 달성하는 모델 기반 이미지 압축 기술을 제안합니다.
이 논문은 사전 훈련된 비전 - 언어 모델의 특성을 활용한 클래스 기반 클러스터링과 적응형 임계값 기반의 선택적 질의 전략을 통해, 적은 레이블 데이터로도 높은 정확도를 달성하는 예산 효율적 액티브 프롬프트 학습 프레임워크를 제안합니다.
본 논문은 LiDAR 점구름을 제약 조건으로 활용하고 왜곡 보정 및 정규화 손실 함수를 도입하여 지상 원거리 촬영 환경에서 발생하는 기하학적 오류와 화질 저하 문제를 해결하고, AIR-LONGYAN 데이터셋을 공개하는 항공 원격 감지를 위한 정밀한 3D 가우스 스플래팅 기법인 ARSGaussian 을 제안합니다.
이 논문은 모바일 로봇의 능동적 상호작용을 통한 환경 탐사 한계를 극복하기 위해 다양한 물체 관계를 인코딩한 3D 관계 객체 그래프를 제안하고, 이를 기반으로 한 시스템이 기존 비전 - 언어 모델 기반 방법보다 다양한 장면과 물체에서 뛰어난 일반화 성능을 보임을 입증합니다.
이 논문은 로봇과 증강현실 장치에만 감지되어 인간의 시야를 방해하지 않는 새로운 형태의 비가시성 표지자 'iMarkers'를 제안하고, 그 하드웨어 설계와 오픈소스 소프트웨어 알고리즘을 통해 다양한 로봇 시나리오에서의 효과성과 적응성을 입증합니다.
이 논문은 2015 년 이후 발표된 200 편 이상의 논문을 분석하여 Wi-Fi 센싱의 일반화 문제를 해결하기 위한 기술, 데이터셋, 그리고 향후 연구 방향을 체계적으로 정리하고, 이를 위한 'Sensing Dataset Platform(SDP)'을 소개합니다.
이 논문은 텍스트 인식과 편집을 통합된 프레임워크로 결합하고 순환 자기지도 학습을 통해 복잡한 파이프라인 없이 자연스러운 장면 텍스트 편집을 가능하게 하는 새로운 방법인 RS-STE 를 제안합니다.
이 논문은 제한된 주석 데이터 환경에서 의료 이미지 분할 성능을 향상시키기 위해, 노이즈 제거 확산 확률 모델 (DDPM) 을 활용한 비지도 학습 기반의 마스 생성과 교차 훈련을 결합한 새로운 반지도 학습 프레임워크를 제안하고 다양한 벤치마크에서 기존 기법들을 능가하는 결과를 입증했습니다.
이 논문은 지역적 AI 생성 이미지 검출의 한계를 극복하기 위해 15 만 장의 대규모 데이터셋 'BR-Gen'과 노이즈 지문을 활용한 포geries 증폭 메커니즘을 도입한 'NFA-ViT' 모델을 제안하여 검출 성능과 일반화 능력을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 광학 및 SAR 이미지의 상호 보완적 특성을 활용하여 복잡한 환경에서의 객체 탐지 성능을 향상시키기 위해 대규모 정렬된 데이터셋 (M4-SAR), 통합 벤치마크 툴킷, 그리고 새로운 융합 탐지 프레임워크 (E2E-OSDet) 를 제안합니다.
이 논문은 이산 벡터 양자화의 한계를 극복하고 신체 부위 간 상호작용을 강화하기 위해, 신체와 손을 독립적으로 인코딩하는 UD-VAE, 액션 조건부 퓨전 (ACF), 그리고 적응형 단위 변조 (AUM) 를 결합한 연속 표현 기반의 새로운 반응 합성 프레임워크인 MARRS 를 제안합니다.
이 논문은 다국어 텍스트 렌더링을 위해 DiT 기반의 EasyText 프레임워크를 제안하고, 위치 인코딩 기술과 대규모 다국어 데이터셋을 활용하여 정밀하고 제어 가능한 고품질 텍스트 생성을 달성함을 보여줍니다.
이 논문은 생물학적 뉴런의 시냅스 필터링 메커니즘에서 영감을 받아 크로스 스케일 게이트 코딩 (CSGC) 과 경량 잔차 블록을 도입함으로써, 자율 주행 등 3D 객체 감지 작업에서 기존 SMOKE 대비 에너지 소비를 획기적으로 줄이면서도 성능을 크게 향상시킨 저전력 스파이킹 신경망 아키텍처 'SpikeSMOKE'를 제안합니다.
이 논문은 유동장 데이터의 물리적 특징을 구조화된 텍스트로 변환하고 데이터 압축 전략을 적용하여 대규모 시각 - 언어 모델의 과학적 이해 능력을 획기적으로 향상시킨 새로운 프레임워크 'FieldLVLM'을 제안합니다.