Stateful Token Reduction for Long-Video Hybrid VLMs
이 논문은 하이브리드 아키텍처 (어텐션과 Mamba 블록이 혼합된 구조) 를 가진 장시간 비디오 VLM 에서 레이어별 토큰 중요도 변화에 대응하기 위해, 점진적 토큰 축소 스케줄과 언어 인식 점수 메커니즘을 제안하여 압축률 25% 에서도 기존 성능을 유지하면서 전처리 속도를 3.8~4.2 배 향상시키는 방법을 제시합니다.
9815 편의 논문
이 논문은 하이브리드 아키텍처 (어텐션과 Mamba 블록이 혼합된 구조) 를 가진 장시간 비디오 VLM 에서 레이어별 토큰 중요도 변화에 대응하기 위해, 점진적 토큰 축소 스케줄과 언어 인식 점수 메커니즘을 제안하여 압축률 25% 에서도 기존 성능을 유지하면서 전처리 속도를 3.8~4.2 배 향상시키는 방법을 제시합니다.
이 논문은 불확실성 레이블이 포함된 다중 라벨 의료 영상 데이터셋에서 신뢰할 수 있는 흉부 질환 분류를 위해, 해부학적 복잡성을 포착하는 적응형 확장 컨볼루션과 디리클레 증거 학습을 결합한 'AdURA-Net'이라는 새로운 프레임워크를 제안합니다.
본 논문은 아키텍처 개선 및 하이퍼파라미터 최적화를 통해 SOUP-GAN 과 CSR-GAN 모델을 고해상도 MRI 이미지 재구성을 위해 최적화하였으며, CSR-GAN 이 고주파 세부 사항과 잡음 제거에서, SOUP-GAN 이 구조적 무결성 유지에서 각각 우수한 성능을 보임을 입증했습니다.
이 논문은 확률적 요인이 없는 결정론적 흐름 매칭 (Flow Matching) 을 기반으로 하여 데이터 일관성 보정과 재사용을 통해 신경망 함수 평가 횟수를 줄임으로써 희소 뷰 CT 재구성의 효율성과 품질을 동시에 개선한 'FMCT' 및 'EFMCT' 프레임워크를 제안합니다.
이 논문은 자연어 프롬프트나 주관적 평가에 의존하지 않고, 생성 및 판별 트랙을 통해 6 가지 추론 도메인에서 6,000 개의 결정론적 퍼즐로 시각적 추론 능력을 엄격하게 평가하는 'TACIT 벤치마크'를 제안합니다.
이 논문은 시각적 토큰의 주의력 상실을 방지하고 추론을 시각적 맥락에 효과적으로 고정시키기 위해 의미적으로 관련성 있으면서도 다양한 시각적 토큰 코어셋을 재주입하는 'VisRef' 프레임워크를 제안하여, 추가적인 강화학습 미세조정 없이도 멀티모달 대형 추론 모델의 테스트 시간 확장 성능을 획기적으로 향상시킵니다.
이 논문은 자율주행 차량 환경에 맞춘 CompGTSRB 데이터셋을 활용하여 생성된 자연주의적 적대적 패치 (NAPs) 가 물리적 환경에서 교통 표지판 탐지기의 STOP 클래스 신뢰도를 얼마나 효과적으로 저하시키는지 Quanser QCar 테스트베드를 통해 실험적으로 평가하고, 이를 통해 신뢰할 수 있는 물리적 평가 프로토콜의 유용성과 임베디드 인지 파이프라인에 대한 방어 연구의 필요성을 제시합니다.
이 논문은 양자 상태 판별에 기반한 'Pretty Good Measurement (PGM)'을 다중 클래스 분류기로 재해석하여 폐암 아형 분류 및 전립선암 위험도 stratification 과 같은 방사선학 (radiomics) 사례에 적용한 결과, 기존 고전적 방법과 경쟁력 있거나 더 우수한 성능을 보임을 입증했습니다.
이 논문은 차원 축소나 패치 분할과 같은 기법을 사용하지 않고 단일 양자 생성기로 MNIST 및 패션-MNIST 데이터셋의 고해상도 이미지를 생성하여 양자 생성 모델의 성능을 새로운 수준으로 끌어올린 연구 결과를 제시합니다.
이 논문은 가시광 및 적외선 밀도 예측 모델의 취약점을 평가하기 위해, 단일 패치가 두 모달리티를 동시에 교란할 수 있도록 위치와 색상을 공동으로 최적화하는 새로운 적대적 패치 생성 프레임워크 (AP-PCO) 를 제안합니다.
이 논문은 오존 흡수 특성을 활용하여 반사된 하향 복사 에너지를 추정함으로써 기존 LWIR 수동 거리 측정의 오차를 100m 이상에서 최대 1.2m 수준으로 획기적으로 줄인 새로운 4-대역 및 초분광 거리 측정 방법을 제안하고 그 유효성을 입증합니다.
이 논문은 의료 영상 및 기타 데이터 소스로부터 결과 발생에 필수적이고 충분하며 모달리티가 누락되더라도 견고한 예측을 가능하게 하는 특징을 학습하기 위해, 확률적 필요성과 충분성 (PNS) 을 모달리티 불변 및 모달리티 특정 구성 요소로 분해하여 확장한 새로운 다중 모달 학습 방법을 제안하고 그 유효성을 검증합니다.
이 논문은 각 단계에서 검증 가능한 불확실성 보장을 제공하는 'Proof-of-Perception(PoP)' 프레임워크를 제안하여, 멀티모달 추론의 정확성과 신뢰성을 높이고 계산 비용을 효율적으로 관리하는 방법을 제시합니다.
이 논문은 조명, 그림자, 색상 불변성 등 물리적 사전 지식을 구조화된 제어 임베딩 모듈 (SCEM) 을 통해 추출하여 조건부 확산 모델에 적용함으로써, 다양한 저조도 환경에서 뛰어난 일반화 성능과 시각적 품질을 달성하는 새로운 이미지 향상 기법을 제안합니다.
이 논문은 혈관 회피와 안전성 제약을 고려하여 전기적 자극을 통해 시각을 회복하는 피질 시각 보철물의 전극 배치를 최적화하기 위해, 예측된 지각 결과를 직접적으로 반영하는 차분 가능한 최적화 프레임워크를 제안하고 그 유효성을 입증합니다.
본 논문은 U-Net 기반 분할을 통해 배경을 제거하고 효율적인 특징 추출을 수행하며, OOD 인식 거부 메커니즘을 통해 신뢰도가 낮은 샘플을 식별하는 동시에 모바일 환경에서의 실시간 배포 가능성을 검증한 고도화된 육류 신선도 분류 프레임워크를 제안합니다.
이 논문은 수동 라벨링 없이 동기방사선 CT 데이터를 자동으로 분할하기 위해 클러스터링 기반의 가짜 라벨을 생성하고 'Unbiased Teacher' 기법으로 이를 자기 수정하는 새로운 프레임워크를 제안하며, 이를 통해 기존 가짜 라벨 대비 픽셀 정확도와 평균 교집합 합집합 비율 (mIoU) 을 각각 13.31% 와 15.94% 향상시켰음을 보여줍니다.
이 논문은 물리 법칙을 엄격히 반영한 조건부 확산 모델인 DiffSOS 를 제안하여, 기존 알고리즘의 한계를 극복하고 초음파 단층촬영 (USCT) 에서 고해상도 음속 재구성과 불확실성 정량화를 동시에 달성함을 보여줍니다.
이 논문은 2D 와 3D 표현을 경량 정렬 메커니즘으로 통합하고 국소적 삼중항 기반의 장면 그래프 생성 파이프라인을 도입하여 대규모 사전 학습 없이도 7B 파라미터 규모에서 최첨단 공간 추론 능력을 달성한 'SSR(구조화된 장면 추론)' 프레임워크를 제안합니다.
3D-비전 언어 모델의 학습에서 발생하는 기하학적 정보 손실 문제를 해결하기 위해, 중간 점구름 토큰과 시각 입력 토큰 간의 일관성 손실을 통해 미세한 3D 기하 - 의미 정보를 보존하는 새로운 특징 수준 정렬 정규화 방법인 PointAlign 을 제안하고, 이를 통해 분류 및 캡셔닝 성능을 크게 향상시켰습니다.