cs.AI 편의 논문 | Gist.Science

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

이 논문은 고정된 ConvNeXt 백본과 제안된 특징 보정 블록 (FCB) 을 활용하여 다중 스펙트럼 항공 영상에서 잡초 분할의 정확도를 85% 이상으로 높이면서도 학습 시간과 메모리 요구 사항을 크게 줄인 경량 모델 FCBNet 을 소개합니다.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

이 논문은 실패 경험과 전문가 튜토리얼 영상을 결합한 '반성 - 재시도' 패러다임을 통해 비전 - 언어 모델 (VLM) 이 게임 플레이에서 시각적 경험을 내면화하고 전략을 개선할 수 있음을 입증하는 종합적인 벤치마크 'GameVerse'를 제안합니다.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

이 논문은 AI 시대의 과학적 소양을 정의하고 K-16+ 교육 환경에서 과학 지식과 추론의 교수·학습·평가 간 일관성을 제고하기 위해 필요한 생성형 AI 의 아키텍처와 도구, 그리고 향후 연구 방향을 제시합니다.

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

이 논문은 객체 간의 관계를 포착하여 공간 추론 능력을 향상시키기 위해 입력 이미지에 장면 그래프를 오버레이하는 새로운 비주얼 프롬핑 기법인 'Graph-of-Mark(GoM)'을 제안하고, 이를 통해 멀티모달 언어 모델의 제로샷 성능을 최대 11% 포인트까지 개선했음을 입증합니다.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

이 논문은 전역 시간 인덱스를 활용한 순차-병렬 3D 위치 인코딩 (Causal-RoPE SP) 과 연산 융합 기법을 도입하여 Diffusion Transformer 기반 비디오 생성 모델의 메모리 병목과 지연 시간을 해결하고, 480P 5 초 영상 생성 시 1.58 배의 속도 향상과 실시간 추론을 가능하게 합니다.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

이 논문은 의료 분야에서는 체인 오브 씽킹 (CoT) 프롬프팅이 오히려 성능을 저하시키는 '의료 지각 병목' 현상이 발생함을 발견하고, 이를 해결하기 위해 영역 관심사 힌트와 고품질 텍스트 안내를 활용한 훈련 없는 추론 시 그라운딩 개입이 정확도를 향상시킨다는 것을 제시합니다.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

이 논문은 엣지 환경에서 AI 서비스와 마이크로서비스의 복잡한 의존성을 그래프 어텐션 네트워크와 자기 모방 학습을 강화 학습에 통합한 SIL-GPO 프레임워크를 통해 최적의 오케스트레이션을 실현하고 종단 간 지연 시간을 획기적으로 줄이는 방법을 제안합니다.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

이 논문은 수면 환경의 제한된 특징과 간섭으로 인해 기존 보정 방법이 부진한 문제를 해결하기 위해, 탐지 목표와 결합된 엔드 - 투 - 엔드 학습을 통해 외관 보정을 자동으로 미세 조정하는 트랜스포머 기반의 가분산 보정 융합 모델 'CalibFusion'을 제안합니다.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk

이 논문은 데이터 유출을 방지하고 과대평가된 성능을 교정하기 위해 중첩 교차검증과 시간/그룹 인식 분할을 적용한 앙상블 학습 기반의 ERP 재무 리스크 탐지 프레임워크 'ERP-RiskBench'를 제안하며, 이를 통해 조달 규정 준수 이상과 거래 사기를 효과적으로 식별할 수 있는 재현 가능한 실험 환경을 구축합니다.

Sanjay Mishra2026-03-10🤖 cs.LG

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

이 논문은 이미지 생성 모델에서 효과적이었던 의미적 잡음 초기화가 비디오 생성으로 확장될 때 통계적으로 유의미한 성능 향상을 보이지 않았으며, 이는 시간적 결합으로 인한 신호의 불안정성 때문임을 진단적 연구를 통해 규명했습니다.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

이 논문은 긴 과학 텍스트를 입력받아 참조 이미지의 스타일을 반영하면서도 수정이 가능한 고품질의 과학 일러스트레이션을 생성하는 엔드 투 엔드 시스템인 'AutoFigure-Edit'를 제안합니다.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

이 논문은 제한된 주석 데이터 환경에서 옥수수, 쌀, 밀 잎의 질병 단계를 정확히 분류하고 Grad-CAM 을 통해 의사결정 과정을 설명 가능한 하이브리드 퓨샷 학습 모델을 제안합니다.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

이 논문은 다차원 보상 간섭과 이질적 데이터 경계 충돌을 해결하는 병렬 상대적 정책 최적화 (PRPO) 와 제어된 오류 주입을 통한 객관적 평가를 가능하게 하는 MCDR-Bench 를 제안하여, 차트 데이터의 심층 연구 능력을 체계적으로 향상시키는 통합 프레임워크를 구축했습니다.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

이 논문은 사용자의 환경 제어와 공유 추론을 가능하게 하기 위해 외부 메모리를 도입하고 생성 과정을 메모리, 관찰, 역학 모듈로 분해하여 편집 가능한 멀티플레이어 월드를 생성하는 'MultiGen' 시스템을 제안합니다.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

이 논문은 이미지 내 가시성과 관점 추론 능력을 평가하기 위해 최소 편집을 기반으로 한 새로운 벤치마크 'VB'를 제안하고, 다양한 비전 - 언어 모델들의 성능을 정밀하게 분석한 결과를 제시합니다.

Neil Tripathi2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

이 논문은 생성형 AI 의 장기적 일관성과 다중 모달 제어 문제를 해결하기 위해 고수준 서사 계획과 동적 메모리 은행을 결합한 '내러티브 웨버 (Narrative Weaver)' 프레임워크를 제안하고, 이를 평가하기 위한 대규모 데이터셋을 공개한 연구입니다.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

이 논문은 안구 추적 데이터를 시각적 추론을 위한 지도 신호로 활용하여 의료용 시각 - 언어 모델이 방사선 전문의와 유사한 순차적 증거 수집 방식을 학습하도록 함으로써 진단 성능과 외부 도메인 견고성을 향상시키는 방법을 제안합니다.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

이 논문은 시맨틱 가이드드 합성 (SyGuS) 과 TSL $_f$ 논리를 활용하여 기존 부울 추상화의 한계를 넘어 데이터 변환과 시간적 명세를 동시에 학습하는 새로운 마이닝 기법을 제안하며, 이를 통해 OpenAI-Gymnasium 환경에서 기존 수동 학습 베이스라인보다 훨씬 강력한 성능과 샘플 효율성을 입증했습니다.

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

이 논문은 작은 언어 모델 (SLM) 이 대규모 도구 환경에서도 효과적으로 작동할 수 있도록 컨텍스트 제어와 실행 구조를 학습 가능한 의사결정으로 간주하고, rubric 기반 강화 학습 미세 조정을 통해 긴 작업 흐름을 안정화하는 ATLAS 프레임워크를 제안합니다.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

이 논문은 정지궤도 위성의 보조 데이터를 활용하여 장기 관측 청사진을 수립하고, 탑재 센서 데이터로 단기 계획을 정교화하는 계층적 계획 방식을 도입함으로써, 기존 동적 타겟팅 시스템의 성능을 최대 41% 향상시켰음을 보여줍니다.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

← 이전 다음 →