cs Arbeiten | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Die Arbeit stellt OmniEarth vor, ein umfassendes Benchmark mit 9.275 Bildern und 44.210 Anweisungen, das zur systematischen Evaluierung von Vision-Language-Modellen in geospatialen Aufgaben unter realistischen Erdbeobachtungsszenarien dient und dabei deutliche Leistungslücken bestehender Modelle aufzeigt.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Die Arbeit stellt MORE-R1 vor, ein neues Modell, das Large Vision-Language Models durch einen zweistufigen Trainingsprozess mit überwachtem Feinabstimmen und verstärkendem Lernen für eine schrittweise, transparente und skalierbare multimodale Extraktion von Objekt-Entitäts-Beziehungen optimiert.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Das Paper stellt PruneSID vor, einen trainingsfreien Ansatz zur effizienten Kompression von Vision-Token in Vision-Language-Modellen, der durch eine synergistische Kombination aus semantischer Clustering und intra-gruppalem Non-Maximum-Suppression sowie einer dynamischen Kompressionsrate einen neuen State-of-the-Art bei gleichzeitiger drastischer Beschleunigung und minimalem Genauigkeitsverlust erreicht.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Die Arbeit stellt StyleVLA vor, ein physikinformiertes Vision-Language-Action-Modell auf Basis von Qwen3-VL-4B, das durch einen hybriden Verlust und einen umfangreichen Datensatz mit 1,2k Szenarien diverse, physikalisch plausible Fahrmanöver in verschiedenen Fahrstilen generiert und dabei proprietäre Modelle wie Gemini-3-Pro deutlich übertrifft.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes BetzWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Die vorgestellte Arbeit stellt einen neuartigen, komponentenbewussten Zwei-Stufen-Rahmen zur Umwandlung von Skizzen in fotorealistische Bilder vor, der durch die Kombination eines selbstaufmerksamkeitsbasierten Autoencoders, einer koordinatenbewahrenden Gated-Fusion und einer räumlich adaptiven Verfeinerung die Bildqualität und semantische Genauigkeit gegenüber bestehenden GAN- und Diffusionsmodellen signifikant verbessert.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Die vorgestellte Arbeit stellt „Diagonal Distillation" vor, eine effiziente Methode zur Echtzeit-Streaming-Videogenerierung, die durch eine asymmetrische Schrittstrategie und die explizite Berücksichtigung temporaler Abhängigkeiten die Latenz drastisch reduziert und gleichzeitig die Bewegungskohärenz sowie die Fehlerakkumulation in langen Sequenzen verbessert.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Dieser Beitrag stellt das Artefaktmodell für regulatorische Requirements Engineering (AM4RRE) vor, das darauf abzielt, die systematische Integration von Compliance-by-Design in den Softwareentwicklungslebenszyklus durch die Überwindung von Herausforderungen wie komplexer Koordination zwischen verschiedenen Perspektiven und ad-hoc-Praktiken zu ermöglichen.

Oleksandr KosenkovWed, 11 Ma💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Die Arbeit stellt SurgFed vor, ein sprachgesteuertes Multi-Task-Federated-Learning-Framework, das durch sprachgesteuerte Kanal-Auswahl und Hyper-Aggregation die Herausforderungen der Gewebe- und Aufgabenvielfalt bei der chirurgischen Videoanalyse über verschiedene Standorte hinweg löst und damit die Segmentierung und Tiefenschätzung in roboterassistierten minimal-invasiven Eingriffen verbessert.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

Die Studie stellt einen RAG-basierten Ansatz vor, der durch die Nutzung von projektspezifischen Artefakten zur Generierung von Embedded-C-Tests die manuelle Testzeit um bis zu 66 % reduziert und dabei eine hohe syntaktische Korrektheit sowie eine erfolgreiche Laufzeitvalidierung von 85 % der generierten Tests erreicht.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo OksanenWed, 11 Ma💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

Die vorgestellte Arbeit stellt eine hybride algebraische Verifikationsmethode für arithmetische Schaltungen vor, die durch parallele Multimodularrechnung modulo verschiedener Primzahlen den Einsatz rechenintensiver Großzahlarithmetik vermeidet und so die Effizienz bei der Wortebenen-Verifikation erheblich steigert.

Clemens Hofstadler, Daniela Kaufmann, Chen ChenWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Die Arbeit stellt Context-Nav vor, ein trainingsfreies System für die textbasierte Instanznavigation, das durch die Nutzung kontextueller Beschreibungen als globaler Erkundungsprior und eine viewpoint-bewusste 3D-Raumverifikation den State-of-the-Art auf Benchmarks wie InstanceNav und CoIN-Bench erreicht.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Diese Arbeit untersucht die Zuverlässigkeit von Vision-Language-Modellen im autonomen Fahren, identifiziert deren Mängel in Konsistenz und temporaler Begründung, stellt einen neuen Benchmark namens FutureVQA vor und schlägt eine selbstüberwachte Feinabstimmung mit Chain-of-Thought-Reasoning vor, um diese Defizite ohne temporale Labels zu beheben.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Die Arbeit stellt mit RuleSafe einen neuen Benchmark für langfristige Manipulationsaufgaben an artikulierten Objekten vor und schlägt VQ-Memory vor, eine kompakte, vektorquantisierte Gedächtnisdarstellung, die die Planung und Generalisierung von Vision-Language-Action-Modellen in nicht-Markovschen Umgebungen signifikant verbessert.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai ChenjiaWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

Die Arbeit stellt RESBev vor, eine robuste und plug-and-play-fähige Methode für die Vogelperspektive (BEV) in autonomen Fahrzeugen, die durch ein latentes Weltmodell korrupte Beobachtungen rekonstruiert und so die Widerstandsfähigkeit bestehender Systeme gegen sensorische Störungen und adversariale Angriffe signifikant verbessert.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Die Arbeit stellt DCAU-Net vor, ein effizientes Framework für die medizinische Bildsegmentierung, das durch eine neue Differential Cross Attention (DCA) zur Reduktion der Rechenkomplexität bei gleichzeitiger Hervorhebung diskriminierender Strukturen sowie eine Channel-Spatial Feature Fusion (CSFF) für die adaptive Integration semantischer und räumlicher Merkmale die Segmentierungsgenauigkeit und Robustheit verbessert.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Diese Studie stellt eine von einem Large Language Model (LLM) gesteuerte Methode zur dynamischen multimodalen Ausdrucks生成 vor, die in virtuellen Lernumgebungen semantisch abgestimmte Sprache und Gesten erzeugt und nachweislich die Lernwirksamkeit, das Engagement sowie das menschliche Erscheinungsbild von pädagogischen Agenten verbessert.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Diese Arbeit stellt eine Reinforcement-Learning-Strategie vor, die Unified Vision-Language-Modelle durch eine hybride Warm-up-Phase und eine erweiterte Group Relative Policy Optimization (GRPO) mit hybriden sowie prozessbasierten Belohnungen befähigt, hochwertige multimodale interleaved Ausgaben ohne große spezialisierte Datensätze zu generieren.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Die Autoren stellen den DynHiL-EQA-Datensatz und das trainingfreie Framework DIVRR vor, um die Herausforderungen dynamischer, von Menschen bevölkerter Umgebungen beim Embodied Question Answering durch eine relevante Sichtverfeinerung und selektive Speicherauswahl zu bewältigen und dabei sowohl die Robustheit als auch die Inferenzeffizienz zu steigern.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

Die Arbeit stellt NS-VLA vor, ein neuartiges neuro-symbolisches Vision-Language-Action-Framework, das durch den Einsatz eines symbolischen Encoders, eines symbolischen Lösers und Online-Reinforcement-Learning die Daten-effizienz, Generalisierbarkeit und Explorationsfähigkeit von Robotern in Manipulationsaufgaben verbessert.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran LuoWed, 11 Ma💻 cs

Compartmentalization-Aware Automated Program Repair

Diese Arbeit stellt einen neuen, auf Large Language Models basierenden Rahmen für die automatische Programmkorrektur vor, der speziell entwickelt wurde, um Sicherheitslücken an Schnittstellen zwischen isolierten Softwarekompartimenten durch eine Kombination aus spezialisiertem Fuzzing, Analysetechniken und Validierung zu identifizieren und zu beheben.

Jia Hu, Youcheng Sun, Pierre OlivierWed, 11 Ma💻 cs

← Zurück Weiter →