cs.LG 편의 논문 | Gist.Science

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

이 논문은 실제 환경에 더 부합하는 승률 (win-rate) 지표를 분석 대상으로 삼아, 적절히 조정된 Best-of-N 방법이 통계적 최적성을 가지며 reward hacking 을 방지하는 개선된 변형을 제안함으로써 기존 연구의 한계를 극복하고 이 방법론의 실용적 성공을 이론적으로 설명합니다.

Ved Sriraman, Adam Block2026-03-09🤖 cs.AI

Full Dynamic Range Sky-Modelling For Image Based Lighting

이 논문은 고해상도 환경 맵 생성 시 기존 딥러닝 모델의 한계를 극복하고 태양 및 구름 형성을 정밀하게 제어할 수 있는 풀 다이내믹 레인지 (FDR) 기반의 새로운 하늘 모델 '이카루스 (Icarus)'를 제안하여 이미지 기반 조명 (IBL) 의 사실성과 정확도를 혁신적으로 향상시켰음을 보여줍니다.

Ian J. Maquignaz2026-03-09🤖 cs.LG

MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation

이 논문은 다중 목표 다단계 공급망 최적화 문제를 해결하기 위해, 소량의 데이터로도 다양한 작업에 일반화될 수 있도록 구조화된 하위 문제 분해와 파레토 기반 적응 전략을 결합한 새로운 메타 다목적 강화학습 프레임워크인 MIRACL 을 제안하고 그 우수성을 입증합니다.

Rifny Rachman, Josh Tingey, Richard Allmendinger, Wei Pan, Pradyumn Shukla, Bahrul Ilmi Nasution2026-03-09🤖 cs.LG

Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing

이 논문은 기존 방법론들의 한계를 극복하고 결정론적 최적화와 확률적 샘플링을 통합하는 'Score-Guided Proximal Projection(SGPP)' 프레임워크를 제안하여, 사전 훈련된 스코어 필드를 활용한 정규 축소 속성을 통해 분포 외 입력을 데이터 매니폴드로 효과적으로 정렬하면서도 유연한 이미지 편집과 복원을 가능하게 합니다.

Vansh Bansal, James G Scott2026-03-09🤖 cs.LG

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

이 논문은 Kaggle 스타일의 Tabular ML 태스크에 대한 자율 코딩 에이전트의 성능을 평가하기 위해 TML-Bench 벤치마크를 제안하고, 다양한 오픈소스 LLM 모델에 대해 시간 제한과 반복 실행 조건 하에서의 성공률 및 성능 변이성을 분석했습니다.

Mykola Pinchuk2026-03-09🤖 cs.AI

Bridging Domains through Subspace-Aware Model Merging

이 논문은 서로 다른 도메인에서 학습된 모델 간의 서브공간 충돌을 완화하여 도메인 일반화 성능을 향상시키기 위해 주성분 분석을 기반으로 한 공유 직교 기저를 도출하고 대각선 외 성분을 제거하는 'SCORE'라는 새로운 모델 병합 기법을 제안합니다.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

이 논문은 대형 언어 모델의 안전 메커니즘이 '위험 인식'과 '거부 실행'이라는 두 개의 분리된 기하학적 하위 공간으로 작동한다는 '분리된 안전 가설 (DSH)'을 제시하고, 이를 통해 거부 메커니즘을 선택적으로 무력화하는 새로운 공격 기법과 모델별 아키텍처 차이를 규명했습니다.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

이 논문은 확률적 제약 하의 분산 확률적 최소 - 최대 최적화 문제를 해결하기 위해 제안된 새로운 1 차 Softmax-가중 스위칭 경사법을 통해, 부분 참여 환경에서도 기존 2 단계 방법론의 민감성과 진동 없이 최적성 및 실현성 보장을 위한 수렴 이론과 실험적 유효성을 입증합니다.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl Hashemi2026-03-09🤖 cs.LG

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

이 논문은 다중 에이전트 협력의 질을 평가할 때 기존 성과 기반 지표가 시간적 구조를 간과하여 협력 실패를 놓칠 수 있음을 지적하고, 이를 해결하기 위해 '완벽한 교대 (Perfect Alternation)'를 기준으로 한 새로운 시간 민감성 지표 (ALT) 를 제안하며, 이를 통해 학습된 정책이 전통적 지표에서는 높은 점수를 받지만 무작위 정책보다 협력 성능이 현저히 낮을 수 있음을 실증합니다.

Nikolaos Al. Papadopoulos, Konstantinos Psannis2026-03-09🤖 cs.LG

Sparse Crosscoders for diffing MoEs and Dense models

이 논문은 크로스코더 (crosscoders) 를 활용하여 MoE 와 밀집 모델의 내부 표현을 체계적으로 비교한 결과, MoE 가 더 적은 고유 특징을 학습하고 더 전문화된 표현을 발달시키는 반면, 밀집 모델은 더 광범위한 일반 목적의 특징에 정보를 분산한다는 것을 규명했습니다.

Marmik Chaudhari, Nishkal Hundia, Idhant Gulati2026-03-09🤖 cs.LG

MoE Lens -- An Expert Is All You Need

이 논문은 MoE(Mixture of Experts) 모델이 실제로는 소수의 전문화된 전문가에 크게 의존한다는 것을 분석을 통해 규명하고, 이를 바탕으로 성능 저하 없이 추론 효율성을 높일 수 있는 전문가 가지치기 기법의 가능성을 제시합니다.

Marmik Chaudhari, Idhant Gulati, Nishkal Hundia, Pranav Karra, Shivam Raval2026-03-09🤖 cs.LG

Margin and Consistency Supervision for Calibrated and Robust Vision Models

이 논문은 분류 정확도를 유지하면서 모델의 보정 능력과 강건성을 동시에 향상시키기 위해, 로짓 간격 확보와 예측 일관성을 강제하는 새로운 정규화 프레임워크인 '마진 및 일관성 감독 (MaCS)'을 제안합니다.

Salim Khazem2026-03-09🤖 cs.AI

Self-Auditing Parameter-Efficient Fine-Tuning for Few-Shot 3D Medical Image Segmentation

이 논문은 소량의 3D 의료 영상 분할 작업에서 수동 설정 없이 어댑터 구성을 자동화하여 기존 방법론보다 성능을 크게 향상시킨 SEA-PEFT(자기 감사 파라미터 효율적 미세 조정) 방법을 제안합니다.

Son Thai Ly, Hien V. Nguyen2026-03-09🤖 cs.LG

Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls

이 논문은 대규모 언어 모델의 테스트 시간 적응을 위한 다수 샷 프롬프팅의 효과와 한계를 실증적으로 분석하여, 구조화된 작업에서는 유익하지만 개방형 생성 작업에서는 선택 전략에 민감하고 효과가 제한적일 수 있음을 규명했습니다.

Shubhangi Upasani, Chen Wu, Jay Rainton, Bo Li, Changran Hu, Qizheng Zhang, Urmish Thakker2026-03-09🤖 cs.LG

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

이 논문은 외부 오라클이나 실행 피드백 없이도 강화 학습을 통해 생성된 코드에 대한 자기 성찰과 자기 수정 능력을 내재화한 새로운 프레임워크 'ReflexiCoder'를 제안하며, 이를 통해 1.5B~14B 크기의 오픈소스 모델 중 최고 성능을 달성하고 추론 시 토큰 효율성을 40% 향상시켰음을 보여줍니다.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

← 이전 다음 →

cs.LG