Community-Informed AI Models for Police Accountability

Dieser Artikel schlägt einen gemeinwohlorientierten Ansatz vor, bei dem Sozialwissenschaftler in multidisziplinären Teams die Perspektiven verschiedener Interessengruppen einbeziehen, um KI-Modelle zur Analyse von Body-Cam-Aufnahmen der Polizei für eine demokratischere Rechenschaftspflicht zu entwickeln.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Procedural Fairness via Group Counterfactual Explanation

Diese Arbeit stellt GCIG (Group Counterfactual Integrated Gradients) vor, ein Regularisierungsframework, das prozedurale Fairness in maschinellen Lernmodellen sicherstellt, indem es während des Trainings die Erklärungsstabilität über verschiedene geschützte Gruppen hinweg erzwingt und so das Vertrauen in die Modellentscheidungen stärkt, ohne die Vorhersagegenauigkeit zu beeinträchtigen.

Gideon Popoola, John SheppardFri, 13 Ma🤖 cs.LG

"I followed what felt right, not what I was told": Autonomy, Coaching, and Recognizing Bias Through AI-Mediated Dialogue

Die Studie zeigt, dass KI-vermittelte Dialoge im Vergleich zum reinen Lesen die Fähigkeit zur Erkennung von Ableismus verbessern, wobei inklusive oder selbstgesteuerte Ansätze ein ausgewogeneres Ergebnis liefern als direkte Voreingenommenheits-Nudges, die zwar die Unterscheidungsfähigkeit schärfen, aber die allgemeine Negativität erhöhen.

Atieh Taheri, Hamza El Alaoui, Patrick Carrington, Jeffrey P. BighamFri, 13 Ma🤖 cs.AI

Locating Demographic Bias at the Attention-Head Level in CLIP's Vision Encoder

Diese Studie entwickelt einen mechanischen Fairness-Audit-Ansatz, der es ermöglicht, demografische Verzerrungen im CLIP-Vision-Encoder auf Ebene einzelner Aufmerksamkeitsköpfe zu lokalisieren, wobei sich zeigt, dass Geschlechterbias spezifisch in wenigen Köpfen der letzten Schicht verankert ist, während Altersbias diffuser verteilt ist.

Alaa Yasser, Kittipat Phunjanna, Marcos Escudero Viñolo, Catarina Barata, Jenny Benois-PineauFri, 13 Ma🤖 cs.AI

Human-Centred LLM Privacy Audits: Findings and Frictions

Die Studie stellt mit LMP2 ein browserbasiertes Selbstaudit-Tool vor und identifiziert anhand zweier Nutzerstudien sowie einer Evaluierung verschiedener LLMs sowohl die Fähigkeit von Modellen, personenbezogene Merkmale vorherzusagen, als auch neun zentrale Hindernisse für die Entwicklung zuverlässiger, menschenzentrierter Datenschutzprüfungen im Bereich der generativen KI.

Dimitri Staufer, Kirsten Morehouse, David Hartmann, Bettina BerendtFri, 13 Ma💬 cs.CL

Secure human oversight of AI: Threat modeling in a socio-technical context

Der Artikel führt eine Sicherheitsperspektive auf die menschliche Aufsicht über KI ein, modelliert diese als IT-Anwendung zur systematischen Bedrohungsanalyse und bietet damit Leitlinien sowie Abwehrstrategien, um neue Angriffsvektoren in diesem sozio-technischen Kontext zu identifizieren und zu minimieren.

Jonas C. Ditz, Veronika Lazar, Elmar Lichtmeß, Carola Plesch, Matthias Heck, Kevin Baum, Markus Langer2026-03-06🔒 cs.CR

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Die Studie stellt ein neues Evaluierungsframework für das automatische Red-Teaming von KI in der Psychotherapie vor, das durch umfangreiche Simulationen mit Patienten-Charakteren kritische Sicherheitslücken wie die Validierung von Wahnvorstellungen und das Versagen bei Suizidprävention aufdeckt und somit die Notwendigkeit klinischer Tests vor dem Einsatz von KI-gestützter mentaler Gesundheitsversorgung unterstreicht.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Reckless Designs and Broken Promises: Privacy Implications of Targeted Interactive Advertisements on Social Media Platforms

Die Studie zeigt, dass die Standard-Einstellung interaktiver Werbung auf Plattformen wie TikTok, Facebook und Instagram eine Datenschutzlücke darstellt, die es Werbetreibenden ermöglicht, durch Kommentare oder Reaktionen auf sensible Zielgruppenmerkmale zurückzuschließen und so die von den Plattformen versprochene Anonymität der Nutzer zu verletzen.

Julia B. Kieserman, Athanasios Andreou, Laura Edelson, Sandra Siby, Damon McCoy2026-03-06🔒 cs.CR