DINOv3 Meets YOLO26 for Weed Detection in Vegetable Crops
본 논문은 대규모 잡초 - 작물 데이터셋을 구축하고 DINOv3 를 YOLO26 에 통합하여 잡초 탐지 성능과 도메인 간 일반화 능력을 획기적으로 향상시킨 새로운 모델을 제안합니다.
9591 편의 논문
본 논문은 대규모 잡초 - 작물 데이터셋을 구축하고 DINOv3 를 YOLO26 에 통합하여 잡초 탐지 성능과 도메인 간 일반화 능력을 획기적으로 향상시킨 새로운 모델을 제안합니다.
이 논문은 저자원 및 원격 환경에서 전문 장비 없이도 스마트폰을 통해 안구 홍반 정량화, 깜빡임 빈도 추정, 동공 반사 분석, 공막 색소 지수화, 그리고 병변 침범 측정 등 5 가지 설명 가능한 모듈을 제공하는 경량 컴퓨터 비전 기반의 안과 선별 및 장기 추적 시스템 'SKINOPATHY AI'의 아키텍처, 알고리즘, 윤리적 한계를 제시합니다.
이 논문은 종양학적 FDG-PET/CT 스캔에서 전문가의 눈동자 추적 데이터를 기반으로 한 'GazeXPErT' 데이터셋을 제시하여, AI 모델의 해석 가능성과 설명 가능성을 높이고 종양 분할 및 병변 국소화 성능을 향상시키는 방법을 탐구합니다.
이 논문은 극심한 클래스 불균형으로 인해 기존 영역 지표만으로는 화이트보드 획 분할의 실패를 감지하기 어렵다는 문제를 해결하기 위해, 경계 지표와 얇은 획 하위집단 분석을 포함한 새로운 평가 프로토콜을 제안하고, 이를 통해 학습된 모델이 전통적인 이진화 방법보다 평균 정확도는 낮을지라도 worst-case 상황에서 더 높은 신뢰성을 제공함을 입증했습니다.
이 논문은 MLLM 의 시각적 주의를 통합하고 질문 기반 노이즈를 줄인 'ConFoThinking'프레임워크를 제안하여, 시각적 질문 답변 (VQA) 작업에서 정밀한 영역 식별 및 성능 향상을 달성함을 보여줍니다.
본 논문은 생성형 AI 가 복잡한 이미지보다 단순한 색상 생성과 같은 지시사항을 따르는 데 어려움을 겪는 '단순성의 역설'을 규명하기 위해 순응도 (Obedience) 의 계층적 평가 체계와 순수 색상 생성에 특화된 새로운 벤치마크 'VIOLIN'을 제안합니다.
이 논문은 터키산 올리브 품종을 분류하기 위해 스테레오 카메라로 촬영한 이미지를 MobileNetV2 와 EfficientNetB0 같은 CNN 모델로 분석한 결과, 전이 학습을 적용한 EfficientNetB0 가 94.5% 의 정확도로 가장 우수한 성능을 보였음을 입증합니다.
이 논문은 약 5000 만 개의 클립으로 훈련된 비디오 기초 모델 'Summer-22B'의 개발 과정에서 데이터셋 엔지니어링이 가장 많은 노력을 요구했으며, P 파라미터화와 초구면 제약 최적화 등의 기술적 결정 사항과 배운 교훈을 체계적으로 보고합니다.
이 논문은 GUI 에이전트의 장기 작업 시 KV 캐시 메모리 부담을 해결하기 위해, UI 요소의 공간적 중요성과 상호작용 궤적의 의미적 중복성을 고려한 훈련 없는 이중 브랜치 압축 프레임워크인 ST-Lite 를 제안하며, 이를 통해 캐시 사용량을 10-20% 로 줄이면서도 2.45 배의 디코딩 가속화와 동등하거나 더 나은 성능을 달성함을 보여줍니다.
이 논문은 LoRA 기반의 지속적 학습에서 기존 방법의 한계를 극복하고 지식 공유와 격리를 효과적으로 분리하기 위해 작업 주도 하위 공간 분해와 에너지 기반 최적화를 제안하는 'LoDA'를 소개합니다.
본 논문은 텍스트-비디오 생성 모델의 콘텐츠 무결성과 저작권 보호를 위해 프레임 재배열 및 시간적 왜곡에 강인한 'SKeDA'라는 생성형 워터마킹 프레임워크를 제안합니다.
이 논문은 ADE20K 데이터셋에서 검증된 개념 유도 (Concept Induction) 기반 CNN 은닉 뉴런 해석 프레임워크가 대규모 장면 인식 벤치마크인 SUN2012 데이터셋에서도 효과적으로 적용될 수 있음을 실증적으로 확인한 사례 연구입니다.
이 논문은 하이브리드 아키텍처 (어텐션과 Mamba 블록이 혼합된 구조) 를 가진 장시간 비디오 VLM 에서 레이어별 토큰 중요도 변화에 대응하기 위해, 점진적 토큰 축소 스케줄과 언어 인식 점수 메커니즘을 제안하여 압축률 25% 에서도 기존 성능을 유지하면서 전처리 속도를 3.8~4.2 배 향상시키는 방법을 제시합니다.
이 논문은 불확실성 레이블이 포함된 다중 라벨 의료 영상 데이터셋에서 신뢰할 수 있는 흉부 질환 분류를 위해, 해부학적 복잡성을 포착하는 적응형 확장 컨볼루션과 디리클레 증거 학습을 결합한 'AdURA-Net'이라는 새로운 프레임워크를 제안합니다.
본 논문은 아키텍처 개선 및 하이퍼파라미터 최적화를 통해 SOUP-GAN 과 CSR-GAN 모델을 고해상도 MRI 이미지 재구성을 위해 최적화하였으며, CSR-GAN 이 고주파 세부 사항과 잡음 제거에서, SOUP-GAN 이 구조적 무결성 유지에서 각각 우수한 성능을 보임을 입증했습니다.
이 논문은 확률적 요인이 없는 결정론적 흐름 매칭 (Flow Matching) 을 기반으로 하여 데이터 일관성 보정과 재사용을 통해 신경망 함수 평가 횟수를 줄임으로써 희소 뷰 CT 재구성의 효율성과 품질을 동시에 개선한 'FMCT' 및 'EFMCT' 프레임워크를 제안합니다.
이 논문은 자연어 프롬프트나 주관적 평가에 의존하지 않고, 생성 및 판별 트랙을 통해 6 가지 추론 도메인에서 6,000 개의 결정론적 퍼즐로 시각적 추론 능력을 엄격하게 평가하는 'TACIT 벤치마크'를 제안합니다.
이 논문은 시각적 토큰의 주의력 상실을 방지하고 추론을 시각적 맥락에 효과적으로 고정시키기 위해 의미적으로 관련성 있으면서도 다양한 시각적 토큰 코어셋을 재주입하는 'VisRef' 프레임워크를 제안하여, 추가적인 강화학습 미세조정 없이도 멀티모달 대형 추론 모델의 테스트 시간 확장 성능을 획기적으로 향상시킵니다.
이 논문은 자율주행 차량 환경에 맞춘 CompGTSRB 데이터셋을 활용하여 생성된 자연주의적 적대적 패치 (NAPs) 가 물리적 환경에서 교통 표지판 탐지기의 STOP 클래스 신뢰도를 얼마나 효과적으로 저하시키는지 Quanser QCar 테스트베드를 통해 실험적으로 평가하고, 이를 통해 신뢰할 수 있는 물리적 평가 프로토콜의 유용성과 임베디드 인지 파이프라인에 대한 방어 연구의 필요성을 제시합니다.
이 논문은 양자 상태 판별에 기반한 'Pretty Good Measurement (PGM)'을 다중 클래스 분류기로 재해석하여 폐암 아형 분류 및 전립선암 위험도 stratification 과 같은 방사선학 (radiomics) 사례에 적용한 결과, 기존 고전적 방법과 경쟁력 있거나 더 우수한 성능을 보임을 입증했습니다.