PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue
이 논문은 다양한 도메인의 문서 레이아웃 분석 (DLA) 에서 발생하는 구조적 차이를 극복하고 일반화 성능을 향상시키기 위해, 도메인 특성에 맞춰 생성된 설명적 지식을 단서로 활용하는 'PromptDLA'라는 새로운 프레임워크를 제안하고 있습니다.
3309 편의 논문
이 논문은 다양한 도메인의 문서 레이아웃 분석 (DLA) 에서 발생하는 구조적 차이를 극복하고 일반화 성능을 향상시키기 위해, 도메인 특성에 맞춰 생성된 설명적 지식을 단서로 활용하는 'PromptDLA'라는 새로운 프레임워크를 제안하고 있습니다.
이 논문은 시각적 맥락의 허위 상관관계로 인한 비합리적인 예측 문제를 해결하기 위해 인과적 개입 모듈과 계층적 그래프 신경망을 결합한 CIGPose 프레임워크를 제안하여 COCO-WholeBody 데이터셋에서 새로운 최고 성능을 달성했습니다.
이 논문은 메타 학습을 통한 사전 훈련과 테스트 시 데이터에 적응적으로 학습률 및 업데이트 빈도를 조정하는 메커니즘을 도입하여, 분포 변화 하에서도 강건하고 정확한 궤적 예측을 가능하게 하는 MetaDAT 방법을 제안합니다.
이 논문은 불완전한 인식과 진화하는 객체 분류를 가진 실제 환경에서 자동주행 차량을 위해 새로운 객체 클래스가 순차적으로 도입되는 '오픈 월드 모션 예측' 설정을 제안하고, 가짜 라벨링과 비전 - 언어 모델, 그리고 쿼리 특징 분산을 활용한 재샘플링 전략을 통해 기존 클래스의 망각을 방지하면서 새로운 클래스에 적응하는 최초의 엔드 - 투 - 엔드 클래스 증분 모션 예측 프레임워크를 제시합니다.
이 논문은 다양한 의료 영상 모드에서 단일 뷰 내의 이상 징후 간 관계와 뷰 간 역동적 변화를 동시에 모델링하고 결측 데이터를 처리하여 진단 정확도와 견고성을 향상시키는 새로운 그래프 기반 학습 프레임워크인 GIIM 을 제안합니다.
이 논문은 임상 가이드라인을 텍스트로 변환하여 재학습 없이 3 차원 표적 부위를 자동 윤곽화하는 새로운 AI 에이전트 'OncoAgent'를 제안하며, 위암 사례에서 전감시 학습 기반 모델과 유사한 성능과 더 높은 임상적 선호도를 입증했습니다.
이 논문은 자율주행 비전 - 언어 - 행동 모델의 지각 저하 및 장기 계획 불안정성 문제를 해결하기 위해, 자기 앵커 기반의 시각적 증류와 오라클 가이드 궤적 최적화를 결합한 협업 증류 프레임워크인 EvoDriveVLA 를 제안하여 오픈루프 및 클로즈드루프 평가에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 기존 이항 관계의 한계를 극복하고 수술실의 고차원적 토폴로지 구조를 보존하여 다중 모달 데이터의 정밀한 구조를 유지하면서도 안전-중요 추론 성능을 향상시키는 새로운 통합 토폴로지 장면 표현 'TopoOR'을 제안합니다.
이 논문은 19 세기 고대 그리스어 판본의 복잡한 레이아웃과 열화된 문자를 인식하기 위해 전용 OCR 파이프라인을 구축하여 100 만 개 이상의 토큰으로 구성된 대규모 오픈 코퍼스 'Patrologia Graeca Corpus'를 공개하고, 이를 통해 다성조 그리스어 OCR 의 새로운 벤치마크를 제시했다고 요약할 수 있습니다.
이 논문은 원격 탐사 비전 - 언어 모델 (RSVLM) 의 성능을 종합적으로 평가하기 위해 지리 공간적 맥락, 다양한 데이터 소스, 그리고 언어적 편향을 줄이기 위한 엄격한 프로토콜을 포함한 새로운 벤치마크 'OmniEarth'를 제안하고 기존 모델들의 한계를 분석합니다.
이 논문은 기존 비전 - 언어 모델의 계산 비효율성을 해결하기 위해 훈련 없이 실행 가능한 'PruneSID'를 제안하며, 의미적 중요도와 다양성을 시너지적으로 고려한 두 단계 토큰 압축 기법을 통해 극단적인 토큰 감소율에서도 최첨단 성능과 빠른 처리 속도를 달성함을 보여줍니다.
본 논문은 자유로운 손으로 그린 스케치를 사실적인 이미지로 변환하는 과제를 해결하기 위해, 구성 요소별 특징을 포착하는 자기주의 인코딩과 좌표 보존 융합 모듈을 활용한 2 단계 프레임워크를 제안하여 기존 GAN 및 확산 모델보다 뛰어난 이미지 충실도와 의미론적 정확도를 달성함을 보여줍니다.
이 논문은 기존 비디오 생성 모델의 실시간 스트리밍 한계를 극복하기 위해 시간적 맥락을 효과적으로 활용하고 비대칭적 생성 전략을 도입한 '대각선 증류 (Diagonal Distillation)' 기법을 제안하여, 5 초 분량의 비디오를 2.61 초 (초당 31 프레임) 내에 생성하며 기존 모델 대비 277.3 배의 속도 향상을 달성했다고 요약할 수 있습니다.
이 논문은 사전 학습된 비전 - 언어 모델의 지식을 유지하면서 소량의 데이터로 안정적으로 적응할 수 있도록 프롬프트의 진화 경로를 제어하는 새로운 프레임워크인 EvoPrompt 를 제안합니다.
이 논문은 조직 및 작업 다양성으로 인한 한계를 극복하기 위해 언어 기반 채널 선택과 언어 기반 하이퍼 집계 메커니즘을 도입하여 로봇 보조 최소 침습 수술 비디오 이해를 위한 다작업 연합 학습 프레임워크인 SurgFed 를 제안하고, 다양한 공개 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.
이 논문은 긴 문맥적 설명을 전역 탐색 우선순위로 활용하고 3D 공간 추론을 통해 관점 의존적 검증을 수행함으로써, 별도의 학습 없이 복잡한 3D 환경에서 텍스트 기반 인스턴스 탐색의 최신 성능을 달성한 'Context-Nav'를 제안합니다.
이 논문은 자율주행용 비전 - 언어 모델 (VLM) 이 응답의 불일치와 시간적 추론 부족이라는 한계를 겪고 있음을 지적하고, 이를 해결하기 위해 미래 장면 추론을 평가하는 'FutureVQA' 벤치마크와 시간 레이블 없이도 일관성과 추론 능력을 향상시키는 자기지도 학습 기법을 제안합니다.
이 논문은 자율주행 시스템의 안전성을 위협하는 센서 열화 및 적대적 공격에 대응하기 위해, 기존 비전-비행 (BEV) 감지 모델에 플러그 앤 플레이 방식으로 적용 가능한 잠재적 세계 모델을 통해 손상된 관측 데이터를 복원하는 강인한 방법론인 RESBev 를 제안합니다.
이 논문은 장기적 의존성과 미세한 경계 세부 사항을 모두 효과적으로 모델링하기 위해 차별화된 교차 어텐션 (DCA) 과 채널 - 공간 특징 융합 (CSFF) 전략을 도입하여 계산 복잡성을 줄이고 분별력 있는 구조를 강조하는 새로운 의료 영상 분할 프레임워크인 DCAU-Net 을 제안합니다.
이 연구는 두 개의 대규모 폐암 선별 코호트를 분석한 결과, 저선량 CT 를 통해 정량화한 폐쇄성 폐섬유증 (PPFE) 의 진행이 사망률 및 호흡기 관련 임상 결과와 독립적으로 연관됨을 확인하여, PPFE 진행 정량 평가가 선별 프로그램 내 고위험군 식별을 위한 유용한 영상 바이오마커가 될 수 있음을 시사합니다.