LaVCa: LLM-assisted Visual Cortex Captioning
이 논문은 대규모 언어 모델 (LLM) 을 활용하여 뇌의 시각 피질 뉴런이 특정 이미지에 반응하는 이유를 자연어 캡션으로 생성하고 해석하는 'LaVCa'라는 새로운 접근법을 제안하며, 기존 방법보다 더 정교하고 상세한 뇌 표현의 특성을 규명했다고 요약할 수 있습니다.
6771 편의 논문
이 논문은 대규모 언어 모델 (LLM) 을 활용하여 뇌의 시각 피질 뉴런이 특정 이미지에 반응하는 이유를 자연어 캡션으로 생성하고 해석하는 'LaVCa'라는 새로운 접근법을 제안하며, 기존 방법보다 더 정교하고 상세한 뇌 표현의 특성을 규명했다고 요약할 수 있습니다.
이 논문은 LLM 의 하류 작업 성능 예측 정확도를 높이기 위해 작업 난이도 특성에 따라 클러스터링하는 COD 프레임워크를 제안하고, 이를 통해 예측 가능한 하위 집단의 성능을 전체 평가 세트로 외삽하여 70B 파라미터 모델에서 평균 1.55% 의 낮은 예측 오차를 달성했음을 보여줍니다.
이 논문은 BraTS 데이터셋의 다중 MRI 시퀀스를 기반으로 UNet 을 활용한 2D 및 3D 분할 결과를 가중 평균으로 융합하고 사전 학습된 ResNet50 모델에 입력하여 뇌종양 아형 분류 정확도를 99.25% 로 극대화하는 새로운 기법을 제안합니다.
이 논문은 BraTS 데이터셋을 기반으로 UNET, Inception, ResNet 아키텍처를 활용한 딥러닝 기반 2D 및 3D MRI 뇌종양 자동 분할 모델을 제안하여, 3D 분할에서 98.91% 의 정확도와 0.9888 의 Dice 점수를 달성함으로써 임상 진단 효율성을 크게 향상시켰음을 보여줍니다.
이 논문은 텍스트-이미지 확산 모델의 미세 조정을 위해 REINFORCE 의 분산 감소 기법과 PPO 의 견고함을 결합하여 샘플 효율성과 최종 성능 간의 균형을 개선한 새로운 강화 학습 방법인 'LOOP(Leave-One-Out PPO)'를 제안합니다.
이 논문은 Minecraft 와 같은 동적 환경에서 실시간 대응 능력을 향상시키기 위해, 중앙 집중식 메모리 기반의 계획 스레드와 기술 라이브러리를 활용한 행동 스레드로 구성된 병렬 계획 - 실행 프레임워크를 제안합니다.
이 논문은 웨어러블 센서와 식이 데이터를 활용하여 대형 언어 모델과 기계 학습을 결합한 'GlucoLens' 시스템을 개발함으로써 식후 고혈당을 예측하고 개인 맞춤형 행동 치료 경로를 제시하는 설명 가능한 솔루션을 제안합니다.
이 논문은 사전 학습된 가우시안 프로세스 모델로 생성된 해부학적 랜드마크를 통합한 새로운 토큰화 방식과 트랜스포머 기반의 기하학적 딥러닝 모델을 제안하여, 고비용 침습적 PET 스캔 없이도 알츠하이머병 진단 및 중위험군의 뇌 아밀로이드 양성 예측 정확도를 향상시켰습니다.
이 연구는 카자흐스탄 학자들을 대상으로 CGScholar 플랫폼을 활용하여 AI 도구와 동료 피드백이 학술적 글쓰기 능력 및 피드백 수용 태도에 미치는 영향을 분석한 결과, AI 기반 피드백에 대한 개방성과 동료 피드백에 대한 높은 기대가 공존하며 두 요소를 통합하는 것이 학술 글쓰기 품질 향상에 유익함을 보여주었습니다.
이 논문은 대규모 시각 - 언어 모델 (VLM) 의 사회적 추론 능력을 중간 계층의 주석 맵으로 증류하여 사회적 준거성을 갖춘 로봇 항법을 위한 공간 비용 지도를 생성하고, 이를 통해 기존 방법 대비 성공률을 14.2% 에서 50% 까지 향상시킨 'ViLAM'이라는 새로운 방법을 제안합니다.
이 논문은 비전 - 언어 모델을 활용하여 환경의 의미와 접촉 허용도를 분석하고, 이를 기반으로 접촉이 필요한 복잡한 환경에서도 안정적이고 효율적인 로봇 경로 계획을 가능하게 하는 'IMPACT' 프레임워크를 제안합니다.
이 논문은 인간과 LLM 간의 상호작용을 통해 데이터 분석 워크플로우를 선언적 표현으로 분해하고 코드를 생성하는 'iProg' 도구를 제안하며, 천체물리학과 생화학 분야의 사례를 통해 기존 노코드 방식보다 성능과 코드 품질이 우수하며 개발 속도가 획기적으로 향상됨을 입증합니다.
이 논문은 대규모 언어 모델이 직업별 여성 등장인물을 과대표출하면서도 실제 노동 시장 데이터보다는 성별 고정관념에 더 부합하는 편향을 유지하는 역설적 현상을 규명하고, 이를 해결하기 위한 균형 잡힌 완화 조치의 중요성을 강조합니다.
이 논문은 비동기적인 2D 구조 정렬과 물리적 충돌이 없는 3D 확산 모델을 통합하여, 단일 이미지에서의 양손 재구성 시 발생하는 복잡한 오목과 관통 문제를 해결하고 정밀한 상호작용 복원을 가능하게 하는 새로운 접근법을 제안합니다.
이 논문은 고비용의 수동 단계 주석이 필요 없이 예측 엔트로피를 기반으로 논리적 전환점을 자동으로 식별하여 효율적인 과정 보상 모델 (EDU-PRM) 을 제안하며, 적은 학습 데이터로도 최첨단 성능을 달성하고 추론 정확도를 높이며 토큰 사용량을 대폭 줄인다는 결과를 보여줍니다.
본 논문은 대규모 언어 모델 (LLM) 을 활용하여 임상 시뮬레이션, 논문 분석, 의학 뉴스 요약 기능을 제공하는 'MediTools'를 개발하고 의료 전문가 및 학생들의 피드백을 통해 의료 교육 혁신 가능성을 입증한 연구입니다.
이 논문은 SMOTE, ADASYN, CTGAN 을 통합한 새로운 하이브리드 데이터 균형화 프레임워크인 'MetaBoost'와 반사실 분석을 활용하여 대사증후군 예측의 정확도를 높이고, 혈당과 중성지방이 주요 위험 인자임을 규명함으로써 임상적 통찰력을 제공합니다.
본 논문은 2019 년부터 2025 년까지의 대규모 언어 모델 및 자율 AI 에이전트 평가 벤치마크를 통합된 분류체계로 정리하고, 에이전트 프레임워크, 실제 응용 사례, 에이전트 간 협력 프로토콜을 종합적으로 검토하며 향후 연구 방향을 제시합니다.
이 논문은 특정 공간 영역과 형태를 제한하고 주파수 영역 기반 주입 기법을 활용하여 블랙박스 환경에서도 모든 클래스를 표적으로 삼으면서도 은닉성과 공격 성능을 동시에 확보하는 새로운 다중 표적 백도어 공격 기법인 SFIBA 를 제안합니다.
이 논문은 해양 포유류叫声부터 복잡한 실세계 음향에 이르기까지 다양한 도메인의 음향 이해와 추론 능력을 평가하기 위해 DCASE 2025 챌린지의 Task 5 로 오디오 질문 응답 (AQA) 벤치마크를 제안하고, 다양한 오디오 - 언어 모델들의 성능을 비교 분석합니다.