DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime
이 논문은 엣지 디바이스에서도 실시간으로 작동하며 기존 최첨단 방법의 성능을 유지하면서 포괄적인 팬옵틱 씬 그래프를 생성하고, 제한된 컴퓨팅 자원으로도 효율적으로 학습 가능한 저지연 모델인 'DSFlash'를 제안합니다.
3447 편의 논문
이 논문은 엣지 디바이스에서도 실시간으로 작동하며 기존 최첨단 방법의 성능을 유지하면서 포괄적인 팬옵틱 씬 그래프를 생성하고, 제한된 컴퓨팅 자원으로도 효율적으로 학습 가능한 저지연 모델인 'DSFlash'를 제안합니다.
이 논문은 메모리 내 연산 (IMC) 시스템에서 아날로그 - 디지털 변환기 (ADC) 의 해상도 요구 사항을 줄이고 양자화 오차를 최소화하기 위해 경계 이상치를 억제하는 새로운 비선형 양자화 기법인 BS-KMQ 를 제안하고, 이를 통해 기존 설계 대비 7 배의 면적 개선과 최대 24 배의 에너지 효율 향상을 달성함을 보여줍니다.
이 논문은 이미지와 비디오의 확장 가능한 재구성을 위해 베이스 레이어와 향상 레이어로 구성된 2D 가우스 스플래팅을 제안하고, 레이어 간 호환성과 안정적인 점진적 재구성을 보장하기 위해 레이어 간 가우스를 동시에 최적화하는 결합 학습 전략을 통해 기존 순차적 학습 방식보다 PSNR 을 크게 향상시킨 P-GSVC 프레임워크를 소개합니다.
이 논문은 TLA+ 를 통한 형식적 검증과 YCSB 벤치마크를 통해 교차 영역 사이트 간 합의 지연을 32.90% 감소시키고 꼬리 지연을 49.24% 줄여 대규모 AI 연산의 성능을 향상시킨 새로운 합의 프로토콜 CD-Raft 를 제안합니다.
이 논문은 정적 분석 도구의 높은 오탐지율을 해결하기 위해 코드 속성 그래프를 기반으로 한 그래프 합성곱 신경망 (GCN) 모델을 제안하여, CamBenchCAP 및 CryptoAPI-Bench 데이터셋에서 각각 100% 및 최대 96.6% 의 정확도로 오탐지를 효과적으로 예측하고 보안 취약점을 식별하는 데 성공했다고 요약할 수 있습니다.
이 논문은 41,000 건 이상의 실제 PET/CT 보고서로 구성된 대규모 벤치마크 'PET-F2I-41K'를 제시하고, 이를 통해 기존 LLM 들의 한계를 극복하며 임상적 정확도와 사실성을 크게 향상시킨 파라미터 효율적 미세조정 모델 'PET-F2I-7B'를 개발하고 평가한 연구입니다.
이 논문은 시각적 가림이 발생하는 그리퍼 - 객체 상호작용 중 효율적이고 정확한 물체 자세 추정을 위해 렌더링 데이터나 사전 학습 모델 없이 그래프 이론 기반의 일회성 점군 등록 방식을 적용한 새로운 촉각 국소화 프레임워크 'TacLoc'을 제안합니다.
이 논문은 수동으로 설계된 기하학적 특징과 신경망 기반의 의미론적 특징을 통합하여 복잡한 장면에서도 우수한 성능을 보이는 새로운 이미지 스티칭 프레임워크 'UniStitch'를 제안합니다.
이 논문은 부분 관측성 하의 안전-목표 도달 문제를 해결하기 위해, 정보 수집을 제어 리아푸노프 함수로, 안전성을 컨포멀 예측 기반 제어 장벽 함수로 모델링하여 실시간으로 계산 가능한 계층적 제어 아키텍처를 제안합니다.
이 논문은 CG 이미지 품질 평가의 한계를 해결하기 위해 6 가지 지각 차원을 기반으로 한 대규모 데이터셋과 질의응답 벤치마크를 구축하고, 시각적으로 유사한 이미지의 설명을 검색하여 증강 생성하는 R4-CGQA 프레임워크를 제안함으로써 비전 언어 모델의 CG 품질 평가 성능을 크게 향상시켰습니다.
이 논문은 기존 방법의 모델 의존성 한계를 극복하기 위해 AI 생성 이미지 출처 추적을 이미지 분류가 아닌 인스턴스 검색 문제로 재정의하고, 저비트 지문 생성과 비지도 사전 학습을 기반으로 한 모델 독립적 프레임워크 'LIDA'를 제안하여 제로샷 및 퓨샷 환경에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 테스트 시간 최적화의 부담을 제거하고 추론 속도를 획기적으로 개선하면서도 강력한 확산 모델의 사전 지식을 활용하여, 4.5 GPU 일의 낮은 학습 비용으로 다양한 환경에서 제로샷 성능을 달성하는 단일 단계 확산 기반 깊이 완성 프레임워크 'Marigold-SSD'를 제안합니다.
이 논문은 LLM 의 의미적 사전 지식을 인코더에 증류하고 화자 수를 예측하여 동적으로 디코딩 분기를 선택하는 Talker-Count Routing 을 도입함으로써, 계산 비용은 낮추면서도 화자 수가 증가할수록 성능이 향상되는 효율적인 인코더 전용 다화자 음성 인식 프레임워크를 제안합니다.
이 논문은 Clough-Tocher 및 멀티쿼드릭 RBF 보간법의 노이즈가 있는 데이터에 대한 재현 가능한 비교를 통해, 열역학적 공정 시스템에서 노이즈가 포함된 측정값을 폐기하기보다 구조화하여 보간함으로써 물리적으로 의미 있는 공정 거동을 복원할 수 있음을 시사합니다.
이 논문은 생성형 AI 로 생성된 합성 이미지와 실제 사진의 잠재 표현 내 계층 간 일관성 차이를 포착하는 '잠재 전이 불일치 (LTD)' 방법을 제안하여, 기존 방법들보다 뛰어난 일반화 성능과 탐지 정확도를 달성했다고 요약할 수 있습니다.
이 논문은 실시간 추론이 가능한 경량 U-Net 기반의 HyPER-GAN 을 제안하여, 합성 데이터의 시각적 사실감과 의미론적 일관성을 향상시키면서도 기존 방법들보다 낮은 지연 시간으로 컴퓨터 비전 알고리즘 훈련용 데이터를 개선하는 하이브리드 학습 전략을 제시합니다.
이 논문은 입력 메시의 위상적 품질에 구애받지 않고 구조적 레이아웃과 교차장을 동시에 예측하여 고품질의 사각형 메시를 생성하는 새로운 학습 기반 프레임워크 'TopGen'과 대규모 데이터셋을 제안합니다.
이 논문은 물리적으로 복제 불가능한 함수 (PUF) 와 심볼릭 실행을 결합하여 산업 제어 소프트웨어를 특정 하드웨어에 안전하게 바인딩하고, 비인가 환경에서의 안전성 보장 및 역공학 방지를 가능하게 하는 새로운 복사 보호 기법을 제안합니다.
이 논문은 단일 로봇 암으로 복잡한 직물 조작을 가능하게 하는 비전 기반 촉각 그리퍼 'Touch G.O.G.'와 이를 위한 통합 제어 프레임워크를 제안하며, 고해상도 합성 데이터 생성 및 정밀한 엣지 추정 기술을 통해 단일 암으로도 신뢰성 있는 직물 펼치기 작업을 성공적으로 수행함을 보여줍니다.
AdaClearGrasp 는 시각 - 언어 모델을 활용해 밀집된 혼잡 환경에서 대상물을 직접 잡을지 주변 물체를 치울지 적응적으로 결정하고, 강화 학습을 통해 다양한 물체에서 제로샷으로 성공적인 잡기를 수행하며, 실패 시 재계획을 통해 폐루프 보정을 가능하게 하는 프레임워크를 제안합니다.