TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering
이 논문은 기존 모델들이 시각적 텍스트의 구조적 결함을 인식하지 못하는 문제를 해결하기 위해, 구조적 이상 감지 능력을 갖춘 새로운 강화학습 전략인 'TextPecker'를 제안하여 텍스트 생성 모델의 구조적 충실도와 의미 정합성을 획기적으로 향상시킨 연구입니다.
7569 편의 논문
이 논문은 기존 모델들이 시각적 텍스트의 구조적 결함을 인식하지 못하는 문제를 해결하기 위해, 구조적 이상 감지 능력을 갖춘 새로운 강화학습 전략인 'TextPecker'를 제안하여 텍스트 생성 모델의 구조적 충실도와 의미 정합성을 획기적으로 향상시킨 연구입니다.
이 논문은 대규모 데이터와 추론 주석이 없어도 경쟁력 있는 자율 주행 성능을 달성하기 위해 GRPO 의 난이도 편향을 해결하는 Dr. GRPO 알고리즘을 적용한 데이터 효율적인 비전 - 언어 - 행동 모델 NoRD 를 제안합니다.
이 논문은 멀티모달 LLM 의 추론 능력을 향상시키기 위해 시각적 복잡도와 추론 불확실성을 기반으로 샘플의 난이도를 정의하고, 이를 난이도별 그룹으로 재분할하여 표준편차 정규화를 수행하는 'Durian'이라는 새로운 방법을 제안합니다.
이 논문은 약한 질감과 가변적인 조명 환경에서 내시경 로봇의 정밀한 항해를 위해 확산 모델을 활용하여 희소 깊이를 밀집 깊이로 재구성하는 EndoDDC 방법을 제안하고, 공개된 데이터셋에서 기존 최첨단 모델보다 우수한 성능을 입증했습니다.
이 논문은 개념 이해와 공간 정밀도 간의 표현적 충돌을 해결하기 위해 점진적 커리큘럼 학습과 프로그레시브 표현 직조 (PRW) 모듈을 도입한 통합 이미지 생성 프레임워크인 CoLoGen 을 제안합니다.
이 논문은 마인크래프트에서 1,264 만 개의 멀티플레이어 프레임을 수집하고 점진적 학습 파이프라인을 통해 일관된 다중 관점 관찰을 시뮬레이션하는 새로운 멀티플레이어 비디오 월드 모델 'Solaris'를 제안합니다.
이 논문은 쿼리 빈도 패턴과 군집 일관성 지표를 활용하여 계산 자원을 동적으로 할당하는 적응형 사전 필터링 프레임워크를 제안함으로써, 기존 정적 검색 전략 대비 거리 계산량을 20.4% 줄이면서도 고차원 유사성 검색의 재현율과 지연 시간을 최적화함을 보여줍니다.
이 논문은 RNA-단백질, RNA-소분자, RNA-RNA 상호작용 예측을 위해 생물학적 대규모 언어 모델 (BioLLM) 의 임베딩을 동적 상태 공간 정렬로 통합하는 'CrossLLM-Mamba' 프레임워크를 제안하여 기존 정적 융합 방식의 한계를 극복하고 최첨단 성능을 달성했음을 보여줍니다.
이 논문은 파운데이션 모델의 기술적 편향을 줄이고 생물학적 관련성에 집중함으로써 임상 현장에 적용 가능한 강건한 디지털 병리학 모델을 개발하기 위해 하류 태스크 학습 시 새로운 강건성 손실 함수를 도입하는 방법을 제시합니다.
이 논문은 몬테카를로 트리 탐색 (MCTS) 과 신경망 구조 탐색 (NAS) 을 결합하여 의료 영상 분할의 정확도를 높이고, 탐색 비용과 모델 크기를 대폭 줄인 'MNAS-Unet' 프레임워크를 제안합니다.
이 논문은 단일 UAV 영상에서 모노큘러 기하학 리프팅 모듈과 물리 기반 최적화 모듈을 통해 깊이 모호성과 불안정한 운동 추정을 해결하여, 물리적으로 일관된 동적 4D 가우시안 스플래팅 프레임워크인 AeroDGS 를 제안하고 이를 검증하기 위한 실세계 UAV 데이터셋을 구축했습니다.
이 논문은 수동 분할 없이 3D CT 이미지에서 신장 종양의 악성도를 예측하기 위해 장기 중심 주의 (OFA) 손실 함수를 활용한 딥러닝 프레임워크를 제안하여 기존 분할 기반 모델보다 높은 성능을 달성했음을 보여줍니다.
이 논문은 비전 트랜스포머 (ViT) 의 아티팩트가 배경 패치를 활용한 게으른 집계 행동에서 비롯된다는 점을 규명하고, CLS 토큰에 패치 특징을 선택적으로 통합하는 방식을 제안하여 다양한 감독 하에서 성능을 일관되게 향상시켰습니다.
이 논문은 SELFIES 시퀀스, 분자 그래프, 그리고 볼츠만 가중치를 적용한 컨포머 앙상블을 교차 어텐션과 FiLM 을 통해 융합하여 분자 특성 예측 성능을 획기적으로 향상시킨 경량 다중 모달 모델 'MolFM-Lite'를 제안하고, MoleculeNet 벤치마크에서 단일 모달 기반 모델 대비 우수한 성능을 입증합니다.
이 논문은 MLLM 이 이미지 내 텍스트를 실제로 '읽는지' 아니면 텍스트 프롬프트에 의존하는지 진단하기 위해 시각화된 질문 (VQ) 설정을 도입하고, 이를 통해 발견된 모달리티 게으름을 해결하기 위해 구조적 제약을 부과하는 플러그 앤 플레이 학습 전략인 SimpleOCR 을 제안하여 모델의 시각적 텍스트 추출 능력을 효과적으로 향상시킵니다.
이 논문은 웨어러블 보조 장치의 사생활 보호와 지연 시간 문제를 해결하기 위해, 스트리밍 비디오를 경량 텍스트 기억으로 변환하는 비동기 스레드 구조를 통해 에지 환경에서 실시간 에피소드적 기억 질문 응답을 수행하는 멀티모달 대규모 언어 모델의 가능성을 입증하고 있습니다.
이 논문은 MammoWise 라는 로컬 멀티모델 파이프라인을 제안하여 오픈 소스 비전 - 언어 모델을 활용하고 RAG 및 QLoRA 미세조정 기술을 통해 유방촬영술 보고서 생성 및 분류의 정확성과 재현성을 향상시키는 실용적인 프레임워크를 제시합니다.
이 논문은 주거 평면 생성 모델이 대규모 데이터 분포에 최적화되는 과정에서 간과하기 쉬운 공간 구성적 지배력과 기능적 위계를 복원하기 위해, 비미분 가능한 오라클을 통해 공간 문법 지식을 주입하는 '공간 문법 유도 사후 학습 (SSPT)' 방법론과 이를 평가하는 벤치마크를 제안하고, 이를 통해 PPO 기반 강화학습이 계산 효율성과 성능 면에서 우수한 결과를 보임을 입증했습니다.
이 논문은 참조 이미지와 자연어 편집을 결합한 구성형 이미지 검색을 위해 오픈 어휘 시각 사전 표현과 자기지도 학습 기반의 V-Dict-AE 를 도입하여, 기존 방법들의 한계를 극복하고 DFMM-Compose 벤치마크에서 성능과 의도 일관성, 다양성을 동시에 향상시킨 Pix2Key 모델을 제안합니다.
본 논문은 저선량 CBCT 영상의 노이즈 제거와 에지 보존을 위해 하이브리드 어텐션 트랜스포머와 잔차 학습을 결합한 HARU-Net 을 제안하여, 기존 최첨단 방법들보다 우수한 성능과 낮은 계산 비용을 달성함을 보여줍니다.