AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering
이 논문은 PhoBERT 와 비전 트랜스포머를 활용한 대규모 자동 구축 베트남어 시각 질문 답변 (VQA) 데이터셋 'AutoViVQA'를 제안하고, 다양한 자동 평가 지표와 다국어 설정 하에서 트랜스포머 기반 아키텍처의 성능을 체계적으로 비교 분석합니다.
2393 편의 논문
이 논문은 PhoBERT 와 비전 트랜스포머를 활용한 대규모 자동 구축 베트남어 시각 질문 답변 (VQA) 데이터셋 'AutoViVQA'를 제안하고, 다양한 자동 평가 지표와 다국어 설정 하에서 트랜스포머 기반 아키텍처의 성능을 체계적으로 비교 분석합니다.
이 논문은 다양한 대화 시나리오와 데이터셋에 유연하게 적응할 수 있도록 지시 및 스키마 정렬 메커니즘을 도입한 통합 엔드투엔드 스키마 인식 지시 튜닝 프레임워크인 ESAinsTOD 를 제안하여, 기존 최첨단 모델보다 뛰어난 성능과 저자원 환경에서의 일반화 능력을 입증합니다.
이 논문은 RLHF 의 비용 문제를 해결하기 위해 불확실성 추정과 새로운 샘플링 기법을 활용한 'ActiveUltraFeedback'이라는 능동 학습 파이프라인을 제안하며, 기존 방법보다 적은 양의 주석 데이터로도 동등하거나 더 우수한 성능을 달성함을 보여줍니다.
이 논문은 Muon 최적화기의 등방성 가정이 비등방적인 곡률 스펙트럼을 가진 심층 신경망에 부적합하다는 점을 지적하고, Shampoo 의 구조적 추정치를 활용한 화이트닝 좌표계에서 편광 분해를 통해 등방성 제약과 기하학적 적응성을 조화시킨 새로운 최적화 알고리즘 'Mousse'를 제안하여 160M~800M 파라미터 규모의 언어 모델에서 학습 단계를 약 12% 단축하고 성능을 향상시켰음을 보여줍니다.
이 논문은 MLLM 의 안전성을 악의적 의도에서 잠재적 결과로 확장하기 위해 OOD-MMSafe 벤치마크를 제안하고, 인과적 맹점을 해결하여 위험 식별 실패율을 획기적으로 낮춘 CASPO 프레임워크를 개발했습니다.
이 논문은 다중 오디오 이해 능력이 부족한 대규모 오디오 - 언어 모델을 평가하기 위한 'MUGEN' 벤치마크를 제안하고, 오디오 입력 순서를 다양화하는 '오디오 순열 자기 일관성' 전략과 사고 연쇄 기법을 결합하여 성능을 유의미하게 향상시킬 수 있음을 보여줍니다.
이 논문은 질문의 유무에 따른 답변 타당성 평가의 차이를 측정하여 고품질의 시각 - 언어 결합 추론이 필요한 데이터를 비용 효율적으로 선별하는 'CVS'라는 학습 없는 데이터 선택 방법을 제안하고, 이를 통해 적은 데이터로 더 높은 성능을 달성함을 입증합니다.
이 논문은 정적 인지, 경직된 워크플로우, 비효율적인 컨텍스트 활용이라는 기존 자율 에이전트의 한계를 극복하기 위해 진화하는 인지, 실시간 상황 기반 의사결정, 탄력적인 기억 오케스트레이션을 통합한 자가 진화형 멀티 에이전트 프레임워크인 'AutoAgent'를 제안하고, 다양한 벤치마크에서 뛰어난 적응성과 성능을 입증합니다.
이 논문은 논문 저자의 반박 (rebuttal) 을 암시적 지도 신호로 활용하여 구체적이고 실행 가능한 리뷰 피드백을 생성하는 새로운 프레임워크 'RbtAct'와 대규모 데이터셋을 제안하고, 이를 통해 기존 모델보다 실행 가능성과 구체성이 향상된 리뷰를 생성함을 보여줍니다.
이 논문은 실제 1 인칭 비디오를 기반으로 한 'EXPLORE-Bench' 벤치마크를 제안하여, 다중 모달 대규모 언어 모델이 1 인칭 관점에서 행동의 장기적 물리적 결과를 추론하는 데 여전히 한계가 있음을 규명하고, 단계별 추론을 통한 성능 개선 가능성을 제시합니다.
이 논문은 추가적인 학습 단계나 외부 모듈 없이 비전-언어 모델의 내부 주의 메커니즘을 활용해 목표 개념을 나타내는 시각 토큰을 추출하여 메모리로 저장함으로써, 효율적이고 확장 가능한 개인화 기능을 구현하는 'Ego' 방법을 제안합니다.
이 논문은 3D 재구성과 인스턴스 분할을 활용하여 구조화된 공간 인지 지도와 할로센트릭-공간 트리 (AST) 를 구축함으로써, 추가 학습 없이도 멀티모달 및 텍스트 전용 기반 모델의 공간 추론 능력을 획기적으로 향상시키는 'World2Mind' 툴킷을 제안합니다.
이 논문은 시뮬레이션 기반 추론 (SBI) 기법을 활용하여 중성미자 유도 핵자 방출 모델의 매개변수를 추정함으로써, 기존 MicroBooNE 실험의 경험적 튜닝보다 더 나은 적합도를 달성하고 다른 시뮬레이션 모델 (NuWro) 에도 적용 가능성을 입증했습니다.
이 논문은 '불투명 직렬 깊이 (opaque serial depth)'라는 개념을 정립하고 이를 통해 체인 오브 씽킹 (Chain of Thought) 없이 수행 가능한 추론의 한계를 정량화하여, 모델이 외부화되지 않은 추론을 할 수 있는 잠재력을 평가하는 새로운 도구를 제시합니다.
본 논문은 고전 신경망 (LSTM) 과 양자 회로 Born 머신을 결합한 하이브리드 양자 - 고전 프레임워크를 제안하여 주가 변동성 예측의 정확도를 기존 고전 모델보다 크게 향상시켰음을 실증합니다.
이 논문은 라벨 인식 채널 중요도 점수 (LCIS) 를 기반으로 덜 중요한 채널을 적응적으로 제거하여 분할 학습의 통신 오버헤드를 줄이면서도 테스트 정확도를 향상시키는 'ACP-SL' 방식을 제안합니다.
이 논문은 CERN 의 CMS 와 같은 대규모 과학 협업에서 민감한 데이터를 온프레미스로 보호하면서 내비게이션과 지식 공유를 개선하기 위해 Selenium 과 OCR 기반 자동 파이프라인, 2 단계 벡터 데이터베이스 아키텍처를 활용한 온프레미스 RAG 기반 AI 어시스턴트 'MITRA'를 제안합니다.
이 논문은 다중 격자 (MG) 패러다임에서 영감을 받아 기존 트랜스포머 모델의 핵심 구조를 변경하지 않고 노이즈 민감도를 줄이고 학습 안정성을 향상시키는 경량 '가상 프로젝터 (pseudo-projector)' 모듈을 제안하고, 텍스트 분류 및 합성 벤치마크를 통해 그 유효성을 입증했습니다.
이 논문은 다수의 embodied 에이전트로부터 수집된 장기 시점의 이기중심 비디오를 동시에 이해하는 새로운 문제를 정의하고, 이를 평가하기 위한 MA-EgoQA 벤치마크와 공유 메모리 및 동적 검색을 활용한 EgoMAS 기반 모델을 제안하며, 현재 모델들이 다중 스트림 처리에 한계가 있음을 보여줍니다.
이 논문은 접근성 기술과 산업용 소음 모니터링의 필요성에 기반하여 음성 인식 외의 오디오 이해 능력을 평가하기 위해 SCENEBench 라는 새로운 벤치마크를 제안하고, 최신 대규모 오디오 언어 모델 (LALM) 들의 성능과 한계를 분석합니다.