cs.CV Arbeiten | Gist.Science

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Die Arbeit stellt GroundCount vor, ein Framework, das die Zählgenauigkeit von Vision-Language-Modellen durch die Integration expliziter räumlicher Verankerung aus Objekterkennungsmodellen verbessert und so Halluzinationen reduziert, wobei die Wirksamkeit stark von der Architekturkompatibilität und der Art der Eingabe (z. B. Positionscodierung) abhängt.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Die Arbeit stellt das Color Fidelity Dataset (CFD) und die Color Fidelity Metric (CFM) vor, um die oft zu lebhaften Farben bei text-zu-Bild-Generierungen zu bewerten, und schlägt eine training-freie Verfeinerungsmethode (CFR) vor, um die Farbtreue realistischer Bilder zu verbessern.

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

In einer interdisziplinären Zusammenarbeit zwischen Informatikern und Kunsthistorikern untersucht diese Studie, wie Vision-Language-Modelle künstlerische Stile erkennen, und zeigt durch quantitative Analysen und Expertenbewertungen, dass die meisten für die Stilvorhersage genutzten Konzepte von Kunsthistorikern als semantisch kohärent und relevant eingestuft werden.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

Die Arbeit stellt DynVLA vor, ein autonomes Fahrmodell, das durch die neuartige „Dynamics CoT"-Methode und einen speziellen „Dynamics Tokenizer" kompakte Weltvorhersagen generiert, um physikalisch fundierte und effiziente Entscheidungen zu treffen, die in umfangreichen Experimenten Text- und Bildbasierte Ansätze übertreffen.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Die Arbeit stellt V2M-Zero vor, eine Methode zur Erzeugung von zeitlich synchronisierter Musik aus Videos ohne gepaarte Trainingsdaten, indem sie die gemeinsame zeitliche Struktur beider Modalitäten über intramodale Ereigniskurven nutzt, um Text-zu-Musik-Modelle effektiv für Video-zu-Musik-Aufgaben anzupassen.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Agentar-Fin-OCR

Das Paper stellt Agentar-Fin-OCR vor, ein auf Finanzdokumente zugeschnittenes OCR-System, das mittels fortschrittlicher Algorithmen zur Überbrückung von Seitengrenzen und tabellarischer Zelllokalisierung strukturierte Ausgaben erzeugt, und führt gleichzeitig FinDocBench als spezialisierten Benchmark für die Evaluierung ein.

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Die Arbeit stellt NeFTY vor, ein differenzierbares physikalisches Framework, das mithilfe eines neuronalen Feldes und eines rigorosen numerischen Löschers die quantitative 3D-Rekonstruktion von Materialeigenschaften und die Lokalisierung von Untergrundfehlern aus transienten Oberflächentemperaturmessungen ermöglicht.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

Die Arbeit stellt LiTo vor, eine 3D-Latenzdarstellung, die Geometrie und view-abhängige Erscheinung durch Tokenisierung von Oberflächenlichtfeldern vereint, um realistische optische Effekte zu erzeugen und die Generierung von 3D-Objekten mit konsistenten Materialien und Beleuchtung aus einem einzigen Eingabebild zu ermöglichen.

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

Die Arbeit stellt ein vollautomatisiertes KI-System vor, das mithilfe einer populationbasierter Agentenarchitektur und durch Analyse von YouTube-Comedy-Videos trainierter LLM-Kritiker kurze Sketch-Comedy-Videos in professioneller Qualität generiert.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

Image Captioning via Compact Bidirectional Architecture

Die vorgestellte Arbeit stellt ein kompaktes bidirektionales Transformer-Modell für die Bildbeschriftung vor, das durch die parallele Kopplung von links-rechts- und rechts-links-Flüssen sowohl implizit als auch explizit bidirektionale Kontexte nutzt und durch Satz- und Wortebene-Ensemble-Methoden neue State-of-the-Art-Ergebnisse auf dem MSCOCO-Datensatz erzielt.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

Die Studie stellt SDR-GAIN vor, ein Echtzeit-Generatives Adversarial Network, das durch Separation und Dimensionsreduktion verdeckte Gelenkpunkte von Fußgängern in autonomen Fahrszenarien präzise rekonstruiert und dabei die Leistung bestehender Methoden auf den Datensätzen COCO und JAAD übertrifft.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

Der Artikel stellt PnLCalib vor, eine optimierungsbasierte Methode zur Kalibrierung von Sportkameras in Übertragungsvideos, die durch die Kombination eines 3D-Fußballfeldmodils mit einer nichtlinearen Verfeinerung mittels erkannten Feldlinien eine robustere und präzisere Registrierung unter schwierigen Bedingungen wie variierenden Kamerawinkeln und Verdeckungen ermöglicht.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

Die Studie stellt DP-IQA vor, eine bahnbrechende Methode zur blinden Bildqualitätsbewertung, die das Wissen vortrainierter Diffusionsmodelle nutzt und durch Wissensdestillation in ein leichtgewichtiges CNN überführt wird, um in komplexen, realen Szenarien eine state-of-the-art Generalisierungsfähigkeit zu erreichen.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Controllable Dance Generation with Style-Guided Motion Diffusion

Die Arbeit stellt SGMD vor, ein stilgeleitetes Motion-Diffusion-Modell, das Transformer-Architekturen mit einem Stil-Modulationsmodul und einem räumlich-zeitlichen Maskierungsmechanismus kombiniert, um kontrollierbare, stilistisch konsistente und realistische Tanzsequenzen zu generieren, die sowohl zur Musik als auch zu benutzerdefinierten Stilvorgaben passen.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Die Arbeit stellt TIMotion vor, ein effizientes Framework für die Generierung von menschlich-menschlichen Bewegungen, das durch kausale interaktive Injektion, rollenbasierte Scanning-Verfahren und lokale Musterverstärkung die zeitliche Modellierung und Interaktionsmischung verbessert, um suboptimale Ergebnisse und redundante Parameter bestehender Methoden zu überwinden.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Die Arbeit stellt ein einheitliches Framework vor, das Quantisierung und Sparsifizierung als additives Rauschen modelliert und durch eine prinzipiengeleitete Denoisings-Transformation eine stabile Gradientenbahn schafft, wodurch das Training von neuronalen Netzen mit beliebiger Präzision und Sparsity, einschließlich sub-1-Bit-Architekturen, ermöglicht wird.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Die Arbeit stellt DRUPI vor, eine Methode zur Datensatzkondensation, die durch die Synthese privilegierter Informationen wie Feature- oder Attention-Labels die Leistung von reduzierten Datensätzen erheblich verbessert.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng Zhang2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Diese Arbeit stellt ein unüberwachtes Lernverfahren vor, das Sequenzdaten durch die Faktorisierung latenter Transformationen in spärlich aktive rotations- und potentialbasierte Vektorfelder analysiert, um damit neuartige entkoppelte Repräsentationen zu erzeugen, die sowohl unabhängige Faktoren als auch Transformationprimitive erfassen und gleichzeitig state-of-the-art-Ergebnisse in Bezug auf Datenwahrscheinlichkeit und äquivariante Fehler erzielen.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Die Autoren stellen eine modellbasierte Bildkomprimierungsmethode vor, die auf trainierten Modellen zur Synthese neuer Ansichten und Gradientenabstiegs-Optimierung basiert, um die Echtzeit-Übertragung von Bildern für ferngesteuerte Unterwasserfahrzeuge über akustische Kanäle mit begrenzter Bandbreite zu ermöglichen.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Die vorgestellte Arbeit führt einen budget-effizienten Rahmen für das aktive Prompt-Learning ein, der durch klassenbasiertes Clustering und adaptive schwellenwertgesteuerte Abfragen die Anpassung von Vision-Language-Modellen an neue Aufgaben mit weniger gelabelten Daten ermöglicht und dabei bestehende Baselines übertrifft.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul Ok2026-03-11💻 cs

← Zurück Weiter →