A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery
이 논문은 고정된 ConvNeXt 백본과 제안된 특징 보정 블록 (FCB) 을 활용하여 다중 스펙트럼 항공 영상에서 잡초 분할의 정확도를 85% 이상으로 높이면서도 학습 시간과 메모리 요구 사항을 크게 줄인 경량 모델 FCBNet 을 소개합니다.
9764 편의 논문
이 논문은 고정된 ConvNeXt 백본과 제안된 특징 보정 블록 (FCB) 을 활용하여 다중 스펙트럼 항공 영상에서 잡초 분할의 정확도를 85% 이상으로 높이면서도 학습 시간과 메모리 요구 사항을 크게 줄인 경량 모델 FCBNet 을 소개합니다.
이 논문은 실패 경험과 전문가 튜토리얼 영상을 결합한 '반성 - 재시도' 패러다임을 통해 비전 - 언어 모델 (VLM) 이 게임 플레이에서 시각적 경험을 내면화하고 전략을 개선할 수 있음을 입증하는 종합적인 벤치마크 'GameVerse'를 제안합니다.
이 논문은 AI 시대의 과학적 소양을 정의하고 K-16+ 교육 환경에서 과학 지식과 추론의 교수·학습·평가 간 일관성을 제고하기 위해 필요한 생성형 AI 의 아키텍처와 도구, 그리고 향후 연구 방향을 제시합니다.
이 논문은 객체 간의 관계를 포착하여 공간 추론 능력을 향상시키기 위해 입력 이미지에 장면 그래프를 오버레이하는 새로운 비주얼 프롬핑 기법인 'Graph-of-Mark(GoM)'을 제안하고, 이를 통해 멀티모달 언어 모델의 제로샷 성능을 최대 11% 포인트까지 개선했음을 입증합니다.
이 논문은 전역 시간 인덱스를 활용한 순차-병렬 3D 위치 인코딩 (Causal-RoPE SP) 과 연산 융합 기법을 도입하여 Diffusion Transformer 기반 비디오 생성 모델의 메모리 병목과 지연 시간을 해결하고, 480P 5 초 영상 생성 시 1.58 배의 속도 향상과 실시간 추론을 가능하게 합니다.
이 논문은 의료 분야에서는 체인 오브 씽킹 (CoT) 프롬프팅이 오히려 성능을 저하시키는 '의료 지각 병목' 현상이 발생함을 발견하고, 이를 해결하기 위해 영역 관심사 힌트와 고품질 텍스트 안내를 활용한 훈련 없는 추론 시 그라운딩 개입이 정확도를 향상시킨다는 것을 제시합니다.
이 논문은 엣지 환경에서 AI 서비스와 마이크로서비스의 복잡한 의존성을 그래프 어텐션 네트워크와 자기 모방 학습을 강화 학습에 통합한 SIL-GPO 프레임워크를 통해 최적의 오케스트레이션을 실현하고 종단 간 지연 시간을 획기적으로 줄이는 방법을 제안합니다.
이 논문은 수면 환경의 제한된 특징과 간섭으로 인해 기존 보정 방법이 부진한 문제를 해결하기 위해, 탐지 목표와 결합된 엔드 - 투 - 엔드 학습을 통해 외관 보정을 자동으로 미세 조정하는 트랜스포머 기반의 가분산 보정 융합 모델 'CalibFusion'을 제안합니다.
이 논문은 데이터 유출을 방지하고 과대평가된 성능을 교정하기 위해 중첩 교차검증과 시간/그룹 인식 분할을 적용한 앙상블 학습 기반의 ERP 재무 리스크 탐지 프레임워크 'ERP-RiskBench'를 제안하며, 이를 통해 조달 규정 준수 이상과 거래 사기를 효과적으로 식별할 수 있는 재현 가능한 실험 환경을 구축합니다.
이 논문은 이미지 생성 모델에서 효과적이었던 의미적 잡음 초기화가 비디오 생성으로 확장될 때 통계적으로 유의미한 성능 향상을 보이지 않았으며, 이는 시간적 결합으로 인한 신호의 불안정성 때문임을 진단적 연구를 통해 규명했습니다.
이 논문은 긴 과학 텍스트를 입력받아 참조 이미지의 스타일을 반영하면서도 수정이 가능한 고품질의 과학 일러스트레이션을 생성하는 엔드 투 엔드 시스템인 'AutoFigure-Edit'를 제안합니다.
이 논문은 제한된 주석 데이터 환경에서 옥수수, 쌀, 밀 잎의 질병 단계를 정확히 분류하고 Grad-CAM 을 통해 의사결정 과정을 설명 가능한 하이브리드 퓨샷 학습 모델을 제안합니다.
이 논문은 다차원 보상 간섭과 이질적 데이터 경계 충돌을 해결하는 병렬 상대적 정책 최적화 (PRPO) 와 제어된 오류 주입을 통한 객관적 평가를 가능하게 하는 MCDR-Bench 를 제안하여, 차트 데이터의 심층 연구 능력을 체계적으로 향상시키는 통합 프레임워크를 구축했습니다.
이 논문은 사용자의 환경 제어와 공유 추론을 가능하게 하기 위해 외부 메모리를 도입하고 생성 과정을 메모리, 관찰, 역학 모듈로 분해하여 편집 가능한 멀티플레이어 월드를 생성하는 'MultiGen' 시스템을 제안합니다.
이 논문은 이미지 내 가시성과 관점 추론 능력을 평가하기 위해 최소 편집을 기반으로 한 새로운 벤치마크 'VB'를 제안하고, 다양한 비전 - 언어 모델들의 성능을 정밀하게 분석한 결과를 제시합니다.
이 논문은 생성형 AI 의 장기적 일관성과 다중 모달 제어 문제를 해결하기 위해 고수준 서사 계획과 동적 메모리 은행을 결합한 '내러티브 웨버 (Narrative Weaver)' 프레임워크를 제안하고, 이를 평가하기 위한 대규모 데이터셋을 공개한 연구입니다.
이 논문은 안구 추적 데이터를 시각적 추론을 위한 지도 신호로 활용하여 의료용 시각 - 언어 모델이 방사선 전문의와 유사한 순차적 증거 수집 방식을 학습하도록 함으로써 진단 성능과 외부 도메인 견고성을 향상시키는 방법을 제안합니다.
이 논문은 시맨틱 가이드드 합성 (SyGuS) 과 TSL논리를 활용하여 기존 부울 추상화의 한계를 넘어 데이터 변환과 시간적 명세를 동시에 학습하는 새로운 마이닝 기법을 제안하며, 이를 통해 OpenAI-Gymnasium 환경에서 기존 수동 학습 베이스라인보다 훨씬 강력한 성능과 샘플 효율성을 입증했습니다.
이 논문은 작은 언어 모델 (SLM) 이 대규모 도구 환경에서도 효과적으로 작동할 수 있도록 컨텍스트 제어와 실행 구조를 학습 가능한 의사결정으로 간주하고, rubric 기반 강화 학습 미세 조정을 통해 긴 작업 흐름을 안정화하는 ATLAS 프레임워크를 제안합니다.
이 논문은 정지궤도 위성의 보조 데이터를 활용하여 장기 관측 청사진을 수립하고, 탑재 센서 데이터로 단기 계획을 정교화하는 계층적 계획 방식을 도입함으로써, 기존 동적 타겟팅 시스템의 성능을 최대 41% 향상시켰음을 보여줍니다.