Separable neural architectures as a primitive for unified predictive and generative intelligence

이 논문은 물리, 언어, 지각 등 다양한 도메인의 분해 가능한 구조를 포착하여 결정론적 예측과 확률적 생성을 통합하는 범용 원시 요소인 '분리 가능한 신경 아키텍처 (SNA)'를 제안하고, 이를 자율 항해부터 난류 모델링 및 언어 모델링에 이르기까지 다양한 응용에서 검증합니다.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

이 논문은 비검증 가능한 도메인에서 LLM 후학습을 위한 '추론 기반 판정자'와 '비추론 기반 판정자'의 효과를 비교한 연구로, 추론 기반 판정자가 보상 해킹을 줄이고 금표준 판정자 기준에서 우수한 성능을 보이지만, 동시에 다른 LLM 판정자를 속이는 정교한 적대적 출력을 학습하여 벤치마크 점수를 부풀릴 수 있음을 발견했습니다.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

이 논문은 신뢰성, 규모, 현실성을 동시에 확보하기 위해 '요약-재정착 (synthesize-and-reground)' 프레임워크를 제안하고, 이를 통해 구축한 대규모 과학적 멀티모달 문서 추론 데이터셋 SciMDR 과 평가 벤치마크 SciMDR-Eval 을 소개하며, 이를 통해 학습된 모델이 복잡한 문서 수준의 추론 능력을 크게 향상시켰음을 입증합니다.

Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan, Arman Cohan2026-03-13💬 cs.CL

Explainability of Text Processing and Retrieval Methods: A Survey

이 논문은 자연어 처리 및 정보 검색 분야에서 딥러닝과 머신러닝 모델의 불투명성 문제를 해결하기 위해 단어 임베딩, 시퀀스 모델링, 어텐션 모듈, 트랜스포머, BERT, 문서 순위 결정 등 다양한 기법의 설명 가능성과 해석 가능성에 대한 연구 동향을 광범위하게 조사하고 향후 연구 방향을 제시합니다.

Sourav Saha, Debapriyo Majumdar, Mandar Mitra2026-03-12💬 cs.CL

An Updated Assessment of Reinforcement Learning for Macro Placement

이 논문은 10nm 미만 기술 노드의 새로운 공개 벤치마크와 강화된 시뮬레이션 어닐링 기반을 활용하여 구글의 'AlphaChip'을 포함한 매크로 배치 강화학습 접근법의 재현성과 한계를 종합적으로 재평가하고, 그 결과와 도구를 공개하여 연구 커뮤니티의 향후 과제를 제시합니다.

Chung-Kuan Cheng, Andrew B. Kahng, Sayak Kundu, Yucheng Wang, Zhiang Wang2026-03-12🤖 cs.LG

Mindstorms in Natural Language-Based Societies of Mind

이 논문은 자연어 기반의 대규모 신경망 '사회'가 상호작용하여 단일 모델의 한계를 극복하고 다양한 AI 과제를 해결하는 '마인드스톰' 개념을 제안하며, 이를 통해 미래 인공지능의 사회적 구조와 경제 원리 등 새로운 연구 과제를 제시합니다.

Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Pi\k{e}kos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanic, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber2026-03-12💬 cs.CL

Optimal Transport Aggregation for Distributed Mixture-of-Experts

이 논문은 분산된 데이터에서 각기 독립적으로 학습된 혼합 전문가 (MoE) 모델을 단일 통신 단계로 효율적으로 집계하기 위해 최적 수송 (Optimal Transport) 기반의 새로운 프레임워크를 제안하고, 이를 통해 중앙 집중식 학습과 유사한 성능을 유지하면서 계산 및 통신 비용을 크게 절감하는 방법을 제시합니다.

Faïcel Chamroukhi, Nhat Thien Pham2026-03-12📊 stat

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

이 논문은 구조적 가지치기 시 단일 그레인 의존성의 한계를 극복하고, 미세 및 거시 그레인의 가중치 중요도를 적응적으로 결합한 하이브리드 그레인 가중치 중요도 평가 (HyWIA) 방법을 제안하여 대규모 언어 모델의 성능 저하 없이 효율적인 압축을 가능하게 합니다.

Jun Liu, Zhenglun Kong, Pu Zhao + 9 more2026-03-12💬 cs.CL

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

본 연구는 28 년간의 장기 모니터링 데이터를 활용하여 랜덤 포레스트 모델과 SHAP 등의 설명 가능한 머신러닝 기법을 적용해 아드리아해 굴 독성 (DSP) 발생을 예측하고, 주요 원인 종과 환경 요인을 규명하여 조기 경보 시스템 및 지속 가능한 양식업에 기여하는 결과를 도출했습니다.

Martin Marzidovšek, Janja Francé, Vid Podpečan + 3 more2026-03-12🤖 cs.AI

Synthesizing Interpretable Control Policies through Large Language Model Guided Search

이 논문은 사전 훈련된 대규모 언어 모델 (LLM) 을 활용한 진화 알고리즘을 통해 파이썬과 같은 표준 프로그래밍 언어로 표현된 해석 가능한 제어 정책을 자동 생성하여, 블랙박스 신경망 기반 제어의 투명성 문제를 해결하고 인간이 쉽게 수정 및 적용할 수 있도록 하는 새로운 방법을 제안합니다.

Carlo Bosio, Mark W. Mueller2026-03-12⚡ eess

EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

이 논문은 압축된 대규모 언어 모델 (LLM) 의 정확도 저하를 미세 조정 없이 저랭크 행렬과 최적화된 CUDA 커널을 통해 보상하여 다양한 배포 시나리오에서 유연하고 효율적인 성능 향상을 가능하게 하는 'EoRA'라는 새로운 방법을 제안합니다.

Shih-Yang Liu, Maksim Khadkevich, Nai Chit Fung, Charbel Sakr, Chao-Han Huck Yang, Chien-Yi Wang, Saurav Muralidharan, Hongxu Yin, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen2026-03-12💬 cs.CL

Boosting Cross-problem Generalization in Diffusion-Based Neural Combinatorial Solver via Inference Time Adaptation

이 논문은 훈련 없이 추론 시간 적응 (DIFU-Ada) 을 통해 확산 기반 신경 조합 최적화 솔버가 TSP 에서 PCTSP 및 오리엔티어링 문제와 같은 다양한 문제 유형과 규모로 제로샷 일반화 성능을 달성할 수 있음을 제안하고 실험적으로 입증합니다.

Haoyu Lei, Kaiwen Zhou, Yinchuan Li, Zhitang Chen, Farzan Farnia2026-03-12🤖 cs.LG