Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

이 논문은 대보초와 같은 산호초 생태계의 복원을 위해 인공 부양 및 유생 건강 모니터링에 필수적인 산란 계수 과정을 자동화하여 노동 시간을 획기적으로 단축하고 정확도를 높인 저비용 모듈형 카메라 시스템 'CSLICS'를 제안하고 그 유효성을 입증합니다.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

이 논문은 딥러닝 모델의 잠재 공간에서 개념의 인코딩과 디코딩을 담당하는 방향 쌍을 비지도 학습으로 복원하여 모델의 블랙박스 성격을 해석 가능하게 만들고 예측 오류 수정 및 반사실 생성 등 다양한 응용이 가능하도록 하는 새로운 방법을 제안합니다.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

이 논문은 비전 - 언어 모델의 멀티턴 대화 안전성을 강화하기 위해 새로운 위험 분류 체계와 자동화된 적대적 테스트 프레임워크를 포함한 'MMDS' 데이터셋을 구축하고, 이를 기반으로 사용자 입력과 응답을 실시간으로 감시하는 'LLaVAShield'라는 새로운 안전 보호 메커니즘을 제안합니다.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun ShenWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

이 논문은 Scan Histo 역사 지도 (1925-1950 년) 에서 텍스트 및 도로와 같은 복잡한 아티팩트를 효과적으로 제거하기 위해 이중 통과 U-Net 기반 딥러닝 파이프라인을 개발하여 1970 년대 이전 프랑스 전역의 도시 발자국 데이터를 최초로 공개함으로써 장기 도시화 역동성 연구를 위한 기반을 마련했습니다.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

이 논문은 텍스트 프롬프트의 한계를 극복하고 외부 음악 이해 모델과의 잠재 정서 표현 정렬 (LARA) 을 통해 연속적이고 세밀한 감정 제어가 가능한 음악 생성 프레임워크 'LARA-Gen'을 제안하고, 이를 평가하기 위한 벤치마크와 예측 모델을 구축하여 기존 모델 대비 뛰어난 감정 준수도와 음악 품질을 입증합니다.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Polynomial-time Configuration Generator for Connected Unlabeled Multi-Agent Pathfinding

이 논문은 군집 로봇의 연결성 유지가 필수적인 '연결된 라벨 없는 다중 에이전트 경로 찾기 (CUMAPF)' 문제를 해결하기 위해, 기존 정수 선형 계획법 (ILP) 의 확장성 한계를 극복하고 수백 개의 에이전트로 구성된 문제를 O(n2)O(n^2) 시간 복잡도로 빠르게 해결하는 완전한 알고리즘 'PULL'을 제안합니다.

Takahiro Suzuki, Keisuke OkumuraWed, 11 Ma💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

이 논문은 변화하는 환경에서 기존 계획을 업데이트하는 대신, 빠른 거의-확률적 점근 최적 (ASAO) 알고리즘을 사용하여 독립적인 문제 해결을 반복함으로써 실시간 재계획을 더 효율적으로 수행할 수 있음을 보여줍니다.

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. GammellWed, 11 Ma💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

이 논문은 경량화된 신체 랜드마크 검출기(MediaPipe) 에 최적화된 랜드마크 부분집합을 선택하고 스플라인 기반 보간법을 적용함으로써, 기존 방법 대비 5 배 이상 빠른 속도를 유지하면서 LIBRAS(브라질 수화) 고립 수어 인식의 정확도를 동등하거나 더 높은 수준으로 달성할 수 있음을 입증했습니다.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

이 논문은 LVLM 의 패치 토큰 표현에 내재된 의미적 얽힘 문제를 해결하기 위해, 전역 문맥을 억제하고 해리된 지역적 의미 정보를 유지하는 '가치 (Value) 특징'을 표적으로 하는 정밀한 제어형 적대적 공격 기법인 V-Attack 을 제안하고, 이를 통해 기존 최첨단 방법 대비 평균 36% 높은 공격 성공률을 달성함을 보여줍니다.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

본 논문은 로봇 조작 작업의 성능 향상을 위해 상태-행동-상태 동역학을 모델링하고 명시적 기하학적 재구성을 배제하여 자기지도식 3D 표현을 학습하는 새로운 프레임워크인 AFRO 를 제안하고, 이를 통해 다양한 시뮬레이션 및 실세계 작업에서 기존 방법보다 우수한 조작 성공률을 달성함을 보여줍니다.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

이 논문은 시각과 청각 정보를 통합한 최초의 공식적인 오디오 - 비주얼 월드 모델 (AVWM) 프레임워크를 제안하고, 이를 위해 새로운 데이터셋 AVW-4k 와 3 단계 학습 전략을 갖춘 AV-CDiT 모델을 개발하여 멀티모달 미래 상태 예측 및 내비게이션 성능을 크게 향상시켰음을 보여줍니다.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

Beware of the Classical Benchmark Instances for the Traveling Salesman Problem with Time Windows

이 논문은 기존 TSPTW 벤치마크 인스턴스의 구조적 취약점을 간파하여 50 개 이상의 고객으로 구성된 모든 사례를 초단위로 해결하는 정밀 알고리즘을 제시함으로써, 해당 인스턴스들이 더 이상 문제의 난이도를 평가하거나 머신러닝 학습용 데이터셋으로 적합하지 않음을 경고합니다.

Francisco J. SoulignacWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

이 논문은 VGGT 와 π3\pi^3 모델의 글로벌 어텐션 역할을 분석하여 초기 층을 프레임 어텐션으로 변환하고 K/V 를 서브샘플링하는 훈련 없는 2 단계 가속화 기법을 제안함으로써, 기존 희소 어텐션 방식이 실패하는 고밀도 다중 뷰 환경에서도 정확도를 유지하면서 최대 10 배까지 추론 속도를 획기적으로 향상시켰습니다.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs