cs 편의 논문 | Gist.Science

To Believe or Not To Believe: Comparing Supporting Information Tools to Aid Human Judgments of AI Veracity

이 논문은 생성형 AI 의 사실성 판단을 지원하기 위해 다양한 정보 도구 (전체 소스 텍스트, 발췌, LLM 설명) 를 비교한 사용자 연구를 통해, 발췌가 정확성과 속도 간 균형을 이루는 반면 LLM 설명은 부적절한 신뢰를 유발해 오류 탐지 능력을 저하시킨다는 점을 규명했습니다.

Jessica Irons, Patrick Cooper, Necva Bolucu + 6 more2026-03-13💻 cs

Edge-Cloud Collaborative Speech Emotion Captioning via Token-Level Speculative Decoding in Audio-Language Models

이 논문은 에지 장치의 제한된 리소스와 프라이버시 문제를 해결하면서도 정서적 정확도를 높이기 위해, 에지 모델이 초안 작성과 불확실성 기반의 클라우드 검증을 결합한 '불확실성 유도 추측 디코딩 (UGSD)' 방식을 제안하여 음성 감정 캡셔닝 시스템의 품질과 효율성을 동시에 개선한 연구입니다.

Xiangyuan Xue, Jiajun Lu, Yan Gao + 3 more2026-03-13💻 cs

Faster Relational Algorithms Using Geometric Data Structures

이 논문은 조인 결과의 물리적 생성 없이도 효율적인 샘플링과 카운팅 기법을 활용하여 RBBD 트리를 온더플라이로 확장하는 프레임워크를 제안함으로써, 관계형 데이터베이스 환경에서 $k$ -센터/평균/중앙값 클러스터링 알고리즘의 실행 시간을 기존 대비 $k$ 배 개선하면서도 동일한 근사 보장을 유지하는 방법을 제시합니다.

Aryan Esmailpour, Stavros Sintos2026-03-13💻 cs

DeepHistoViT: An Interpretable Vision Transformer Framework for Histopathological Cancer Classification

이 논문은 조직병리학적 이미지 분석을 위한 해석 가능한 비전 트랜스포머 프레임워크인 DeepHistoViT 를 제안하며, 폐암, 대장암, 급성 림프구성 백혈병 데이터셋에서 99.85% 이상의 높은 정확도와 진단적 관련 영역의 시각화를 통해 임상 의사결정을 지원할 수 있음을 입증합니다.

Ravi Mosalpuri, Mohammed Abdelsamea, Ahmed Karam Eldaly2026-03-13💻 cs

Real-time Rendering-based Surgical Instrument Tracking via Evolutionary Optimization

이 논문은 CMA-ES 진화 최적화 알고리즘과 배치 렌더링을 결합하여 시야 가시성 저하 및 데이터 부족 문제를 해결하고, 로봇 보조 최소 침습 수술에서 기존 방법보다 정확도와 실시간 성능이 뛰어난 수술 기구 추적 프레임워크를 제안합니다.

Hanyang Hu, Zekai Liang, Florian Richter + 1 more2026-03-13💻 cs

Reproducible Synthetic Clinical Letters for Seizure Frequency Information Extraction

이 논문은 민감한 환자 데이터를 공유하지 않고도 간질 발작 빈도 정보를 효과적으로 추출할 수 있도록, 구조화된 레이블과 근거가 포함된 합성 임상 편지 데이터를 활용한 재현 가능한 프라이버시 보호 프레임워크를 제안하고 그 유효성을 입증했습니다.

Yujian Gan, Stephen H. Barlow, Ben Holgate + 4 more2026-03-13💻 cs

Seeing Isn't Orienting: A Cognitively Grounded Benchmark Reveals Systematic Orientation Failures in MLLMs Supplementary

이 논문은 기존 벤치마크가 방향성 이해를 제대로 평가하지 못한다는 점을 지적하며, 인간 인지에 기반한 계층적 벤치마크 'DORI'를 제안하고 최신 멀티모달 모델들이 객체 중심 방향성 추론에서 체계적인 실패를 보임을 입증했습니다.

Nazia Tasnim, Keanu Nichols, Yuting Yang + 4 more2026-03-13💻 cs

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

이 논문은 텍스트 기반 영상 생성의 카메라 제어 한계를 극복하기 위해, 비전 - 언어 모델 기반의 플래너와 컨트롤러를 결합한 'ShotVerse' 프레임워크와 정교한 데이터셋을 제안하여 텍스트 설명을 기반으로 정밀하고 일관된 다중 샷 영화적 영상을 자동 생성하는 새로운 패러다임을 제시합니다.

Songlin Yang, Zhe Wang, Xuyi Yang + 7 more2026-03-13💻 cs

Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding

이 논문은 단일 샘플 기반의 불안정한 교사를 대체하여 교사의 샘플링 변이를 명시적으로 모델링하고 질감지향 신호 매칭과 적대적 증류 목표를 통합한 'R-MSD' 프레임워크를 제안함으로써, 4B 규모의 비디오 이해 모델에서 VideoMME, Video-MMMU, MathVerse 등 주요 벤치마크에서 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

Songlin Li, Xin Zhu, Zechao Guan + 2 more2026-03-13💻 cs

Grounding Robot Generalization in Training Data via Retrieval-Augmented VLMs

이 논문은 평가 작업과 학습 데이터를 직접 비교하여 로봇 정책의 일반화 유형을 해석 가능하게 분류하는 확장 가능한 프레임워크인 RADAR 를 제안하며, 이를 통해 일반화 평가의 정밀성을 높이는 방법을 제시합니다.

Jensen Gao, Dorsa Sadigh, Sandy Huang + 1 more2026-03-13💻 cs

A Generalized Theory of Load Distribution in Redundantly-actuated Robotic Systems

이 논문은 다중 독립 폐쇄 운동 사슬로 구성된 중복 구동 로봇 시스템에서 강체에 가해지는 하중 분포를 설명하는 일반화된 이론을 제시하고, 기존 방법론의 한계를 보완하며 선형 시간 복잡도로 계산 가능한 명시적 해법을 도출하여 다중 그리퍼, 보행 로봇, 협력 로봇 등의 힘 제어에 중요한 시사점을 제공합니다.

Joshua Flight, Clément Gosselin2026-03-13💻 cs

NCCLbpf: Verified, Composable Policy Execution for GPU Collective Communication

NCCLbpf 는 NCCL 의 주소 공간 내에서 실행되는 검증되지 않은 네이티브 플러그인의 위험을 해결하기 위해, NCCL 자체를 수정하지 않고도 eBPF 런타임을 내장하여 부하 시 정적 검증을 통한 안전성 보장, 정책의 구성 가능성 및 실시간 업데이트를 가능하게 하며, 8 개 NVIDIA B300 GPU 환경에서 0.03% 미만의 오버헤드로 최대 27% 의 AllReduce 처리량 향상을 입증한 검증된 고성능 확장 프레임워크입니다.

Yusheng Zheng2026-03-13💻 cs

Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning

이 논문은 밀집 비디오 캡셔닝의 다중 작업 간섭과 시간적 중복성을 해결하기 위해 국소화와 캡션 생성을 위한 역할별 쿼리를 분리하고, 의미적 일관성을 위한 대비 정렬, 시간적 중복을 억제하는 새로운 손실 함수, 그리고 개념 수준의 표현을 강화하는 경량 모듈을 제안합니다.

Seung Hyup Baek, Jimin Lee, Hyeongkeun Lee + 1 more2026-03-13💻 cs

Detect Anything in Real Time: From Single-Prompt Segmentation to Multi-Class Detection

이 논문은 SAM3 의 비전 백본이 클래스와 무관하다는 구조적 불변성을 활용하여 가중치 수정 없이 실시간 다중 클래스 검출을 가능하게 하는 훈련 없는 프레임워크인 DART 를 제안함으로써, 기존 오픈-보카불러리 검출기보다 뛰어난 성능과 속도를 달성함을 보여줍니다.

Mehmet Kerem Turkcan2026-03-13💻 cs

EducaSim: Interactive Simulacra for CS1 Instructional Practice

이 논문은 대규모 온라인 강의를 위한 초보 교사들의 교수법 연수를 위해 생성형 에이전트를 활용한 대화형 시뮬레이션 프레임워크인 'EducaSim'을 제안하고, 20,000 명의 학생을 지원하는 6 주간의 CS1 과정에서 이를 실험적으로 적용하여 긍정적인 효과를 확인한 내용을 다룹니다.

Cameron Mohne, Nicholas Vo, Dora Demszky + 1 more2026-03-13💻 cs

Enhancing Lightweight Vision Language Models through Group Competitive Learning for Socially Compliant Navigation

이 논문은 사회적 준수 내비게이션을 위한 경량 비전 언어 모델의 추론 능력을 향상시키기 위해 그룹 경쟁 학습 (GCL) 전략을 제안하며, 이를 통해 소형 모델이 대규모 모델보다 뛰어난 성능을 달성하고 실시간 배포의 효율성과 정확성을 동시에 확보할 수 있음을 입증합니다.

Xinyu Zhang, Atsushi Konno, Toshihiko Yamasaki + 1 more2026-03-13💻 cs

Follow the Saliency: Supervised Saliency for Retrieval-augmented Dense Video Captioning

이 논문은 기존 검색 기반 밀도 비디오 캡셔닝의 한계를 극복하기 위해, DVC 지상 진실 주석을 기반으로 추가 주석 없이 학습된 하이라이트 감지 모듈을 통해 프레임 수준의 중요도 (saliency) 를 지도 학습하고, 이를 검색 및 캡션 생성에 통합하여 시간적 일관성을 높인 STaRC 프레임워크를 제안하며 YouCook2 와 ViTT 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Seung hee Choi, MinJu Jeon, Hyunwoo Oh + 2 more2026-03-13💻 cs

CoViLLM: An Adaptive Human-Robot Collaborative Assembly Framework Using Large Language Models for Manufacturing

이 논문은 자연어 지시와 LLM 기반의 작업 계획, 객체 인식 기술을 결합하여 기존 규칙 기반의 한계를 극복하고 맞춤형 및 미처 보지 못한 제품 조립을 지원하는 적응형 인간 - 로봇 협업 프레임워크 'CoViLLM'을 제안하고 그 유효성을 검증합니다.

Jiabao Zhao, Jonghan Lim, Hongliang Li + 1 more2026-03-13💻 cs

NFPO: Stabilized Policy Optimization of Normalizing Flow for Robotic Policy Learning

이 논문은 다중 모드 분포 모델링 능력을 갖춘 정규화 흐름 (Normalizing Flow) 을 로봇 정책 학습에 적용하되, 온라인 강화학습에서의 훈련 불안정성을 해결하여 NFPO 라는 안정화된 알고리즘을 제안하고 시뮬레이션 및 실제 로봇 환경에서 우수한 성능을 입증합니다.

Diyuan Shi, Yiqi Tang, Zifeng Zhuang + 1 more2026-03-13💻 cs

A scalable framework for correcting public transport timetables using real-time data for accessibility analysis

이 논문은 영국의 실시간 버스 데이터를 활용하여 정시표 기반의 접근성 분석 한계를 극복하고, 대규모 공간적·시간적 범위에서 실제 운행 성능을 반영한 확장 가능한 접근성 분석 프레임워크를 제시합니다.

Zihao Chen, Federico Botta2026-03-13💻 cs

← 이전 다음 →