cs 편의 논문 | Gist.Science

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

이 논문은 MLLM 의 STEM 시각 추론 한계가 추론이 아닌 지각 능력에 기인한다는 통찰을 바탕으로, 실행 가능한 코드를 지각 매체로 활용하여 대규모 데이터셋 (ICC-1M) 과 평가 벤치마크 (STEM2Code-Eval) 를 구축함으로써 시각 지각 능력을 체계적으로 향상시키는 'CodePercept' 프레임워크를 제안합니다.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

이 논문은 임베딩, 색인, 검색, 재순위화, 생성 등 RAG 파이프라인의 각 모듈을 분리하여 구성 가능하게 하고, 다양한 데이터셋과 벡터 데이터베이스, LLM 을 지원하며 성능 및 정확도 지표를 자동 수집하는 종단간 벤치마킹 프레임워크 'RAGPerf'를 제안합니다.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian Huang2026-03-12💻 cs

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

이 논문은 중소기업의 지역 제한 인프라 환경에서 탄소 배출, 비용, 지연 시간 제약을 동시에 고려하여 마이크로서비스를 동적으로 배치함으로써 탄소 배출을 37.4% 줄이고 운영 비용을 3.6% 절감하는 'Aceso' 시스템을 제안합니다.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra Doudali2026-03-12💻 cs

AI-Generated Rubric Interfaces: K-12 Teachers' Perceptions and Practices

본 연구는 K-12 교사가 MagicSchool.ai 를 활용한 AI 기반 평가기준 생성 워크숍을 통해 AI 가 초안 작성과 기준 명확화에 도움을 주지만, 교사의 수정과 통제 없이는 맞춤화나 교육적 우선순위 부합에 한계가 있음을 확인하고, 교사가 쉽게 커스터마이징하고 통제권을 유지할 수 있는 워크플로우가 구축될 때만 AI 도구를 수용할 의사가 있음을 밝혔습니다.

Bahare Riahi, Sayali Patukale, Joy Niranjan, Yogya Koneru, Tiffany Barnes, Veronica Cateté2026-03-12💻 cs

Incremental Federated Learning for Intrusion Detection in IoT Networks under Evolving Threat Landscape

이 논문은 CICIoMT2024 데이터셋을 활용하여 IoT 환경의 변화하는 위협에 대응하기 위해 연쇄적 학습 (incremental learning) 과 연방 학습 (federated learning) 을 결합한 LSTM 기반 침입 탐지 시스템의 성능을 분석하고, 개념 변화 (concept drift) 하에서 안정적인 성능을 유지하는 최적의 학습 전략을 제시합니다.

Muaan Ur Rehman, Hayretdin Bahs, Rajesh Kalakoti2026-03-12💻 cs

Guiding Diffusion Models with Semantically Degraded Conditions

이 논문은 기존 Classifier-Free Guidance 의 한계를 극복하기 위해 null 프롬프트 대신 의미적으로 부분적으로 훼손된 조건을 사용하여 미세한 의미적 구분을 유도하는 새로운 '조건 열화 안내 (CDG)' 방식을 제안하고, 이를 통해 다양한 확산 모델에서 구성 정확도와 텍스트 - 이미지 정합성을 획기적으로 개선함을 보여줍니다.

Shilong Han, Yuming Zhang, Hongxia Wang2026-03-12💻 cs

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

이 논문은 투명한 유리 실험기구 내의 약한 경계와 광학적 왜곡을 극복하기 위해 국소 - 전역 어텐션과 직사각형 자기 보정 모듈을 결합한 LGA-RCM-YOLO 모델을 제안하고, 이를 통해 화학 실험의 상 인터페이스를 실시간으로 정밀하게 분할하여 실험실 자동화를 위한 시각 센서로 활용 가능함을 입증합니다.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs

The Quadratic Geometry of Flow Matching: Semantic Granularity Alignment for Text-to-Image Synthesis

이 논문은 플로우 매칭 프레임워크 하의 최적화 동역학을 이차 형식으로 분석하여 데이터 상호작용 행렬을 규명하고, 이를 기반으로 그래디언트 충돌을 완화하는 '의미적 세분성 정렬 (SGA)' 기법을 제안하여 텍스트-이미지 생성의 수렴 속도와 구조적 완성도를 동시에 향상시킨다는 내용을 담고 있습니다.

Zhinan Xiong, Shunqi Yuan2026-03-12💻 cs

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

이 논문은 기존 EVM 벤치마크의 데이터 오염과 평가 범위 한계를 지적하며, AI 에이전트가 스마트 컨트랙트 취약점을 탐지할 수는 있으나 인간 개입 없이는 완전 자동화된 감사가 불가능함을 입증했습니다.

Chaoyuan Peng, Lei Wu, Yajin Zhou2026-03-12💻 cs

PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

이 논문은 반사 표면의 재구성을 위해 편광 BRDF 모델과 깊이 기반 가시성 마스크를 3D 가우스 스플래팅에 통합하여 물리적으로 유도된 PolGS++ 프레임워크를 제안하고, 10 분 내의 빠른 훈련으로 고품질 기하학적 복원을 가능하게 한다고 요약할 수 있습니다.

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Backdoor Directions in Vision Transformers

이 논문은 비전 트랜스포머 (ViT) 내의 백도어 공격을 유발하는 특정 '트리거 방향'을 규명하고, 이를 통해 공격의 내부 작동 원리를 분석하며 데이터 없이도 경미한 트리거 공격을 탐지하는 새로운 방법을 제안합니다.

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek2026-03-12💻 cs

Beyond Standard Datacubes: Extracting Features from Irregular and Branching Earth System Data

이 논문은 불규칙하고 분기된 지구 시스템 데이터를 효율적으로 표현하고 특징을 추출하기 위해 압축 트리 구조 기반의 일반화된 데이터 하이퍼큐브를 제안하고, 이를 통해 기존 데이터큐브 모델의 한계를 극복하는 확장 가능하고 사용자 중심의 접근 체계를 제시합니다.

Mathilde Leuridan, James Hawkes, Tiago Quintino, Martin Schultz2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

이 논문은 중국화 전문 평가 능력을 갖춘 HanMoVLM 과 HanMo-Bench 데이터셋을 제안하여 대형 비전 - 언어 모델이 전문가 수준의 예술적 추론을 수행하고 이미지 생성 모델의 품질을 향상시키는 검증기로 활용될 수 있음을 입증합니다.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

이 논문은 약물 오류를 예방하기 위해 다양한 실제 환경의 조건을 반영한 32 종의 약물 이미지와 인스턴스 분할 마스크로 구성된 'MEDISEG' 데이터셋을 제안하고, 이를 통해 YOLO 모델의 높은 성능과 소수 샘플 학습 환경에서도 효과적으로 적용 가능한 범용성을 입증했습니다.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

Spatially conditioned dynamics between population and built form

이 논문은 체코의 지역별 인구와 건축 환경 간의 관계를 정량화하기 위해 공간적으로 명시적인 프레임워크를 개발하여, 건축 형태가 사회적 불평등을 어떻게 재생산하는지 공간적 이질성을 고려해 분석한 결과를 제시합니다.

Anna Brazdova, Martin Fleischmann2026-03-12💻 cs

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

이 논문은 실제 배포 환경의 시각적 도메인 시프트를 고려할 때, 소량의 레이블 데이터만으로도 약물의 의미적 분류는 효과적으로 적응되지만 중첩 및 가려짐 조건에서는 위치 파악과 재인식 성능이 저하됨을 보여주며, 현실적인 다중 약물 데이터로 학습하는 것이 배포 준비도 향상에 중요함을 강조합니다.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

MAD: Memory Allocation meets Software Diversity

이 논문은 DRAM 오류로 인한 RowHammer 공격을 해결하기 위해 메모리 할당과 소프트웨어 다양성 원리를 결합하여 엔트로피 부족 문제를 극복하고, 성능 저하 없이 공격을 지연시켜 대응 시간을 확보하는 'MAD'라는 새로운 방어 기법을 제안합니다.

Manuel Wiesinger, Daniel Dorfmeister, Stefan Brunthaler2026-03-12💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

이 논문은 호지 분해 (Hodge decomposition) 를 활용한 위상적 모델을 통해 서버리스 플랫폼의 복잡한 정보 흐름을 분석하고, 구조적 특성으로 나타나는 조화 흐름을 식별하여 시스템 재구축 없이도 효율성을 개선할 수 있는 실용적인 대응 전략을 제시합니다.

Gianluca Reali, Mauro Femminella2026-03-12💻 cs

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

이 논문은 유방 초음파 진단의 임상 워크플로우를 모방하여 병변 국소화, 세밀한 특징 분석, 증거 기반 추론을 수행하는 계층적 다중 에이전트 프레임워크 'UltrasoundAgents'를 제안하고, 오차 전파를 완화하기 위한 분해형 점진적 학습 전략을 통해 진단 정확도와 설명 가능성을 동시에 향상시켰음을 보여줍니다.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

이 논문은 GPU 기반 생태계에 의존하지 않고 아센드 (Ascend) NPU 하드웨어와 오픈파누 (OpenPangu) LLM 을 기반으로 구축된 최초의 완전 오픈소스 다차원 음성 이해 기반 모델인 OSUM-Pangu 를 소개하며, 비 CUDA 환경에서도 주요 GPU 기반 모델과 유사한 성능을 달성함을 보여줍니다.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie2026-03-12💻 cs

← 이전 다음 →