cs Arbeiten | Gist.Science

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

Die Arbeit stellt DivCon vor, eine Divide-and-Conquer-Methode, die Text-zu-Bild-Generierung durch die Entkopplung von Layout-Vorhersage und schrittweiser Bildsynthese verbessert, um auch mit leichten Sprachmodellen präzise numerische und räumliche Beziehungen bei komplexen Szenen mit mehreren Objekten zu erreichen.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Diese Arbeit bietet einen umfassenden Überblick und Benchmark über den aktuellen Stand der Deepfake-Technologie, indem sie sowohl Generationsmethoden (wie Face Swapping und Talking Face) als auch Detektionstechniken analysiert, standardisierte Datensätze und Metriken einführt sowie Herausforderungen und zukünftige Forschungsrichtungen aufzeigt.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Weighted Reservoir Sampling With Replacement from Data Streams

Diese Arbeit stellt einen effizienten, einpassigen Algorithmus vor, der gewichtete Stichproben mit Zurücklegen aus Datenströmen unbekannter Größe generiert und dabei die Korrektheit sowie die direkte Nutzbarkeit der laufenden Stichprobe formal nachweist.

Adriano Meligrana, Adriano Fazzone2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Dieses Paper stellt drei neue, hochwertige Testdatensätze vor (Hadrian, Eclipse und ND-Twins), die ohne künstliche Bildverschlechterung die Schwierigkeit der Gesichtserkennung durch natürliche Variationen wie Bartwuchs, Belichtung und Ähnlichkeit bei Zwillingen erhöhen, um Schwächen bestehender Algorithmen aufzudecken.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

RDM: Recurrent Diffusion Model for Human Motion Generation

Die Arbeit stellt RDM vor, ein rekurrentes Diffusionsmodell, das mithilfe von Normalizing Flows effizient lange, textgetreue menschliche Bewegungssequenzen generiert, indem es den rechenintensiven vollständigen Denoising-Prozess früherer Autoregressiver Ansätze umgeht.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

Diese Arbeit stellt eine Methode vor, die Transfer-Entropie nutzt, um den Einfluss zwischen Agenten in der Mensch-Roboter-Interaktion über Belohnungsmodulation zu steuern und so implizite Kommunikation sowie verbesserte Zusammenarbeit oder soziale Unabhängigkeit in kollaborativen und kompetitiven Szenarien zu fördern.

Haoyang Jiang, Elizabeth A. Croft, Michael G. Burke2026-03-10💻 cs

On Polynomial-Time Decidability of k-Negations Fragments of First-Order Theories

Diese Arbeit stellt ein generisches Rahmenwerk vor, das hinreichende Bedingungen für die polynomielle Entscheidbarkeit von Fragmenten erster Ordnung mit einer festen Anzahl von Negationen liefert und damit zeigt, dass schwache Presburger-Arithmetik sowie andere spezifische Theorien in polynomieller Zeit entscheidbar sind, im Gegensatz zu NP-schweren Fragmenten der vollen Presburger-Arithmetik.

Christoph Haase, Alessio Mansutti, Amaury Pouly2026-03-10💻 cs

MORCoRA: Multi-Objective Refactoring Recommendation Considering Review Availability

Das Paper stellt MORCoRA vor, eine multi-objective Suchmethode, die nicht nur Code-Qualitätsverbesserungen und semantische Korrektheit anstrebt, sondern auch sicherstellt, dass die empfohlenen Refactoring-Sequenzen von verfügbaren und fachkundigen Entwicklern zeitnah geprüft werden können.

Lei Chen, Shinpei Hayashi2026-03-10💻 cs

A 1.6-fJ/Spike Subthreshold Analog Spiking Neuron in 28 nm CMOS

Diese Arbeit stellt einen in 28-nm-CMOS-Technologie gefertigten, extrem energieeffizienten analoge Spiking-Neuronen mit einem Verbrauch von 1,6 fJ pro Spike vor, der als Kernkomponente für einen neuromorphen System-on-Chip dient und in einem quantisierten Spiking-Neuronalen Netzwerk eine MNIST-Genauigkeit von 82,5 % erreicht.

Marwan Besrour, Takwa Omrani, Jacob Lavoie, Gabriel Martin-Hardy, Esmaeil Ranjbar Koleibi, Jeremy Menard, Konin Koua, Philippe Marcoux, Mounir Boukadoum, Rejean Fontaine2026-03-10💻 cs

Life Histories of Taboo Knowledge Artifacts

Diese Studie untersucht anhand einer Mixed-Methods-Analyse, wie Wikipedia-Artikel zu tabuisierten Themen trotz Konflikten und Zensur entstehen und bestehen bleiben, und identifiziert sechs Entwicklungsmuster, die resilienter Führung, organisierter Unterstützung und emergenter Governance bedürfen.

Kaylea Champion, Benjamin Mako Hill2026-03-10💻 cs

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Diese Arbeit stellt das multimodale System MLVAS vor, das durch die Kombination von Videostroboskopie und Audioanalyse sowie fortschrittlicher Segmentierung und Merkmalsextraktion eine objektive, assistierte Diagnose der Stimmlippenlähmung ermöglicht.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming Li2026-03-10💻 cs

The Future of Software Testing: AI-Powered Test Case Generation and Validation

Diese Arbeit untersucht das transformative Potenzial künstlicher Intelligenz zur Automatisierung und Optimierung der Testfallgenerierung und -validierung, wobei sie sowohl die gesteigerte Effizienz und Abdeckung als auch die Herausforderungen wie Datenqualität und die Balance zwischen Automatisierung und menschlicher Aufsicht beleuchtet.

Mohammad Baqar, Rajat Khanda2026-03-10💻 cs

Safe Navigation of Bipedal Robots via Koopman Operator-Based Model Predictive Control

Diese Arbeit stellt einen sicheren Navigationsrahmen für bipede Roboter vor, der Deep Reinforcement Learning mit einer auf dem Koopman-Operator basierenden, linearisierten Modellprädiktiven Regelung kombiniert, um die nichtlineare Dynamik präziser zu erfassen und die Erfolgsrate in komplexen Umgebungen zu steigern.

Jeonghwan Kim, Yunhai Han, Harish Ravichandar, Sehoon Ha2026-03-10💻 cs

InterMind: Doctor-Patient-Family Interactive Depression Assessment Empowered by Large Language Models

Das Paper stellt InterMind vor, ein von großen Sprachmodellen gestütztes System, das durch die Einbeziehung von Familie, die Nutzung von Retrieval-Augmented Generation und Chain-of-Thoughts sowie die Generierung interpretierbarer Berichte die Effizienz und Genauigkeit der Depressionsdiagnose im Dreiklang aus Arzt, Patient und Angehörigen verbessert.

Zhiyuan Zhou, Jilong Liu, Sanwang Wang, Shijie Hao, Yanrong Guo, Richang Hong2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

Die Arbeit stellt PiVOT vor, einen neuen Visual-Prompting-Mechanismus für das generische Objekttracking, der einen vortrainierten Fundamentmodell (CLIP) nutzt, um Online-Visual-Prompts automatisch zu generieren und zu verfeinern, wodurch der Tracker durch kontrastive Führung Störobjekte effektiv unterdrücken und die Verfolgungsleistung verbessern kann.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Diagnosing and Repairing Distributed Routing Configurations Using Selective Symbolic Simulation

Das Paper stellt S^2Sim vor, ein System zur automatischen Diagnose und Reparatur verteilter Routing-Konfigurationen durch selektive symbolische Simulation, das Fehler identifiziert und Patches vorschlägt, indem es intent-konforme Varianten findet.

Rulan Yang, Gao Han, Hanyang Shao, Xiaoqiang Zheng, Xing Fang, Ziyi Wang, Lizhao You, Ruiting Zhou, Linghe Kong, Ennan Zhai, Qiao Xiang, Jiwu Shu2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

Die Arbeit stellt den Pose Prior Learner (PPL) vor, eine selbstüberwachte Methode, die ohne menschliche Annotationen allgemeine Pose-Priors für Objektkategorien lernt und so die Genauigkeit der Pose-Schätzung, insbesondere bei verdeckten Bildern, durch den Einsatz einer hierarchischen Speicherstruktur und iterativer Inferenz verbessert.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Die Arbeit stellt ExpGest vor, ein neuartiges Diffusionsmodell, das durch die Synchronisation von Audio- und Textinformationen sowie einen speziellen Emotionsklassifikator erstmals ausdrucksstarke, kontrollierbare Ganzkörpergesten erzeugt und damit die Starrheit bestehender Upper-Body-Methoden überwindet.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Optimal Mediation Mechanism in Bilateral Trade

Die Arbeit untersucht revenue-maximierende Vermittlungsmechanismen im bilateralen Handel bei interdependenten Wertschätzungen, zeigt ein Unmöglichkeitstrilemma für Incentive-Compatibility, Gehorsam und Informationsgehalt auf und charakterisiert optimale Lösungen unter Relaxierungsbedingungen, die entweder zu einer Informationsasymmetrie zugunsten niedrig bewerteter Käufer oder zu einem „Lemons-Market"-Effekt führen.

Zhikang Fan, Weiran Shen, Shaojie Tang, Yao Wang2026-03-10💻 cs

I/O complexity and pebble games with partial computations

Diese Arbeit stellt eine neue Variante des Pebble-Games vor, die partielle Berechnungen zulässt, um Datenbewegungen in DAGs mit beliebigen Eingangsgraden zu modellieren, und zeigt, dass die Entscheidungsfrage nach einer optimalen Strategie NP-vollständig ist, während Approximationsalgorithmen für Spezialfälle skizziert werden.

Aleksandros Sobczyk2026-03-10💻 cs

← Zurück Weiter →