TopoOR: A Unified Topological Scene Representation for the Operating Room
이 논문은 기존 이항 관계의 한계를 극복하고 수술실의 고차원적 토폴로지 구조를 보존하여 다중 모달 데이터의 정밀한 구조를 유지하면서도 안전-중요 추론 성능을 향상시키는 새로운 통합 토폴로지 장면 표현 'TopoOR'을 제안합니다.
2641 편의 논문
이 논문은 기존 이항 관계의 한계를 극복하고 수술실의 고차원적 토폴로지 구조를 보존하여 다중 모달 데이터의 정밀한 구조를 유지하면서도 안전-중요 추론 성능을 향상시키는 새로운 통합 토폴로지 장면 표현 'TopoOR'을 제안합니다.
이 논문은 19 세기 고대 그리스어 판본의 복잡한 레이아웃과 열화된 문자를 인식하기 위해 전용 OCR 파이프라인을 구축하여 100 만 개 이상의 토큰으로 구성된 대규모 오픈 코퍼스 'Patrologia Graeca Corpus'를 공개하고, 이를 통해 다성조 그리스어 OCR 의 새로운 벤치마크를 제시했다고 요약할 수 있습니다.
이 논문은 원격 탐사 비전 - 언어 모델 (RSVLM) 의 성능을 종합적으로 평가하기 위해 지리 공간적 맥락, 다양한 데이터 소스, 그리고 언어적 편향을 줄이기 위한 엄격한 프로토콜을 포함한 새로운 벤치마크 'OmniEarth'를 제안하고 기존 모델들의 한계를 분석합니다.
이 논문은 기존 비전 - 언어 모델의 계산 비효율성을 해결하기 위해 훈련 없이 실행 가능한 'PruneSID'를 제안하며, 의미적 중요도와 다양성을 시너지적으로 고려한 두 단계 토큰 압축 기법을 통해 극단적인 토큰 감소율에서도 최첨단 성능과 빠른 처리 속도를 달성함을 보여줍니다.
본 논문은 자유로운 손으로 그린 스케치를 사실적인 이미지로 변환하는 과제를 해결하기 위해, 구성 요소별 특징을 포착하는 자기주의 인코딩과 좌표 보존 융합 모듈을 활용한 2 단계 프레임워크를 제안하여 기존 GAN 및 확산 모델보다 뛰어난 이미지 충실도와 의미론적 정확도를 달성함을 보여줍니다.
이 논문은 기존 비디오 생성 모델의 실시간 스트리밍 한계를 극복하기 위해 시간적 맥락을 효과적으로 활용하고 비대칭적 생성 전략을 도입한 '대각선 증류 (Diagonal Distillation)' 기법을 제안하여, 5 초 분량의 비디오를 2.61 초 (초당 31 프레임) 내에 생성하며 기존 모델 대비 277.3 배의 속도 향상을 달성했다고 요약할 수 있습니다.
이 논문은 사전 학습된 비전 - 언어 모델의 지식을 유지하면서 소량의 데이터로 안정적으로 적응할 수 있도록 프롬프트의 진화 경로를 제어하는 새로운 프레임워크인 EvoPrompt 를 제안합니다.
이 논문은 조직 및 작업 다양성으로 인한 한계를 극복하기 위해 언어 기반 채널 선택과 언어 기반 하이퍼 집계 메커니즘을 도입하여 로봇 보조 최소 침습 수술 비디오 이해를 위한 다작업 연합 학습 프레임워크인 SurgFed 를 제안하고, 다양한 공개 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.
이 논문은 긴 문맥적 설명을 전역 탐색 우선순위로 활용하고 3D 공간 추론을 통해 관점 의존적 검증을 수행함으로써, 별도의 학습 없이 복잡한 3D 환경에서 텍스트 기반 인스턴스 탐색의 최신 성능을 달성한 'Context-Nav'를 제안합니다.
이 논문은 자율주행용 비전 - 언어 모델 (VLM) 이 응답의 불일치와 시간적 추론 부족이라는 한계를 겪고 있음을 지적하고, 이를 해결하기 위해 미래 장면 추론을 평가하는 'FutureVQA' 벤치마크와 시간 레이블 없이도 일관성과 추론 능력을 향상시키는 자기지도 학습 기법을 제안합니다.
이 논문은 자율주행 시스템의 안전성을 위협하는 센서 열화 및 적대적 공격에 대응하기 위해, 기존 비전-비행 (BEV) 감지 모델에 플러그 앤 플레이 방식으로 적용 가능한 잠재적 세계 모델을 통해 손상된 관측 데이터를 복원하는 강인한 방법론인 RESBev 를 제안합니다.
이 논문은 장기적 의존성과 미세한 경계 세부 사항을 모두 효과적으로 모델링하기 위해 차별화된 교차 어텐션 (DCA) 과 채널 - 공간 특징 융합 (CSFF) 전략을 도입하여 계산 복잡성을 줄이고 분별력 있는 구조를 강조하는 새로운 의료 영상 분할 프레임워크인 DCAU-Net 을 제안합니다.
이 연구는 두 개의 대규모 폐암 선별 코호트를 분석한 결과, 저선량 CT 를 통해 정량화한 폐쇄성 폐섬유증 (PPFE) 의 진행이 사망률 및 호흡기 관련 임상 결과와 독립적으로 연관됨을 확인하여, PPFE 진행 정량 평가가 선별 프로그램 내 고위험군 식별을 위한 유용한 영상 바이오마커가 될 수 있음을 시사합니다.
이 논문은 대규모 교차 멀티모달 데이터셋 없이도 기존 통합 모델을 강화학습 기반의 그룹 상대적 정책 최적화 (GRPO) 를 통해 시각적 스토리텔링 및 단계별 추론과 같은 멀티모달 교차 생성 능력을 갖춘 모델로 진화시키는 새로운 후속 훈련 전략을 제안합니다.
이 논문은 동적 인간 환경에서의 embodied question answering (EQA) 과제를 위해 인간 활동과 시간적 변화를 포함한 'DynHiL-EQA' 데이터셋을 제안하고, 모호한 관측을 검증하고 정보성 있는 증거만 선택적으로 기억에 저장하는 훈련 없는 'DIVRR' 프레임워크를 통해 occlusion 상황에서의 강건성과 추론 효율성을 동시에 향상시켰습니다.
이 논문은 다양한 시간 비행 비가시선 (ToF NLOS) 이미징 방법들을 공통된 수식과 하드웨어 설정 하에 체계적으로 분석하고, 이를 라돈 변환 및 주파수 영역 모델과 연관 짓는 동시에 동일한 실험 조건에서 성능을 비교 평가하여 향후 연구의 객관적 기준을 제시합니다.
본 논문은 엔트로피 기반 MCTS 와 시각적 환각 주입을 통해 대규모 프로세스 감독 데이터셋을 구축하고, 이를 활용한 토큰 단위 프로세스 보상 모델 (GeoPRM) 과 프로세스 인식 트리-GRPO 알고리즘을 도입하여 원격 탐사 분야에서 검증 가능한 단계별 추론과 테스트 시간 확장을 가능하게 한 'GeoSolver'프레임워크를 제안합니다.
이 논문은 원격 탐사 분야에서 기존 방법의 한계를 극복하고 정밀한 시각 - 언어 정렬을 달성하기 위해 다중 세분화 일관성 학습을 도입한 GeoAlignCLIP 프레임워크와 RSFG-100k 데이터셋을 제안하고, 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 핀홀 이미지의 단순 합을 넘어 전경 (panorama) 고유의 전체적 공간 및 맥락 관계를 포착하는 '전경 - 언어 모델링 (PLM)' 패러다임을 제안하고, 이를 위해 재학습 없이 기존 모델에 적용 가능한 희소 어텐션 모듈과 악천후 및 사고 등 다양한 전경 시나리오를 포함하는 대규모 데이터셋 'PanoVQA'를 개발하여 전경 기반의 견고한 시각 - 언어 추론을 가능하게 했습니다.
이 논문은 쿼리와 키의 부호만 남기고 비트 연산으로 어텐션을 계산하는 'BinaryAttention'을 제안하여, 학습 가능한 편향과 양자화 인식 훈련을 통해 1 비트 정량화 손실을 보완하고 기존 풀-프레시전 어텐션보다 정확도를 유지하면서 A100 GPU 에서 FlashAttention2 보다 2 배 이상 빠른 속도를 달성했습니다.