Paper Mills: KI-Filter entlarvt Fälschungsfabriken

Steffen Breitner, der Autor von Betrugstest.com

Geschrieben von: Steffen Breitner

Veröffentlicht am: 10.03.2026

Australische Forscher haben einen auf maschinellem Lernen basierenden Algorithmus entwickelt, der gefälschte wissenschaftliche Publikationen anhand ihrer Titel und Zusammenfassungen erkennt. Die Ergebnisse sind alarmierend: Fast zehn Prozent aller Krebsstudien der letzten 25 Jahre tragen die sprachlichen Fingerabdrücke sogenannter Paper Mills.

Illustration mehrerer Dokumente mit einer Lupe, die Binärcode und Netzwerkstrukturen sichtbar macht als Symbol für die Analyse gefälschter wissenschaftlicher Publikationen - Erstellt mit AI durch Betrugstest Prompt.

Fließbandforschung statt echter Wissenschaft: Paper Mills produzieren Tausende gefälschte Studien pro Jahr – ein KI-Modell aus Australien macht das Ausmaß erstmals sichtbar.

Ein auf maschinellem Lernen basierender Algorithmus identifiziert gefälschte Studien aus Paper Mills mit über 90 Prozent Trefferquote.
Von 2,6 Millionen untersuchten Krebsstudien aus 25 Jahren tragen rund 261.000 die sprachlichen Fingerabdrücke kommerzieller Fälschungsfabriken.
Betroffen sind nicht nur Nischenjournale: Auch die größten Wissenschaftsverlage der Welt verzeichnen tausende markierte Publikationen.

Was Paper Mills sind und warum sie die Wissenschaft bedrohen

Paper Mills sind kommerzielle Fälschungsfabriken, die gegen Bezahlung komplette wissenschaftliche Manuskripte produzieren und in Fachzeitschriften einschleusen. Die Bezeichnung lehnt sich bewusst an den industriellen Charakter dieser Unternehmen an: Es handelt sich nicht um einzelne Forscher, die ihre Daten frisieren. Vielmehr sind es professionell organisierte Betriebe, die Studien am Fließband herstellen.

Kunden zahlen oft mehrere Tausend Dollar pro Veröffentlichung. Der Preis richtet sich Recherchen zufolge direkt nach dem Impact Factor der Zielzeitschrift – je angesehener das Journal, desto teurer das Produkt.

Standorte rund um den Globus

Die Betriebe operieren häufig aus China, dem Iran, Indien oder Russland heraus, bedienen aber einen internationalen Kundenkreis. Eine Untersuchung der Forscherin Anna Abalkina [Seite auf Englisch] zeigte, dass allein eine russische Paper Mill Publikationen an über 800 Wissenschaftler verkaufte, die an mehr als 300 Universitäten in mindestens 39 Ländern angestellt waren.

Die Kundschaft besteht aus Forschern, die unter enormem Publikationsdruck stehen und ihre Veröffentlichungslisten aufblähen wollen, ohne die Arbeit tatsächlich geleistet zu haben.

Fließbandproduktion mit schlechter Qualität

Um Manuskripte in großer Stückzahl herzustellen, arbeiten Paper Mills mit vorgefertigten Textbausteinen und Vorlagen. Fachwörter werden ausgetauscht, Datensätze fabriziert, Abbildungen manipuliert oder aus anderen Publikationen kopiert. Die resultierenden Studien wirken auf den ersten Blick professionell, weisen aber bei genauerer Betrachtung typische Schwächen auf.

Wer genau hinschaut, findet mangelnde argumentative Schlüssigkeit, geringe sprachliche Vielfalt, inkohärente Abschnitte und willkürlich zusammengestellte Autorengruppen, deren Mitglieder nie zusammengearbeitet haben. Häufig zitieren Paper-Mill-Studien andere Produkte derselben Fälschungswerkstatt, teils als bezahlte Zusatzleistung für Kunden, die auch Zitationszahlen einkaufen.

Gravierende Folgen

Das Problem reicht weit über akademischen Betrug hinaus. Gefälschte Krebsstudien können klinische Entscheidungen beeinflussen, Behandlungsleitlinien verfälschen und letztlich Menschenleben gefährden. Sie verzerren den wissenschaftlichen Wettbewerb, verschwenden Forschungsgelder und untergraben das öffentliche Vertrauen in die Wissenschaft.

Wie der neue KI-Filter funktioniert

Die Studie, die im renommierten British Medical Journal [Seite auf Englisch] veröffentlicht wurde, liefert erstmals belastbare Zahlen für das Ausmaß der Fälschungsindustrie in einem einzelnen Forschungsgebiet – und stellt unbequeme Fragen an Verlage, Institutionen und das wissenschaftliche Publikationssystem insgesamt.

Das Forscherteam um den Statistiker Adrian Barnett von der Queensland University of Technology nutzte ein sogenanntes BERT-Modell, eine auf Sprachverarbeitung spezialisierte KI-Architektur. BERT steht für „Bidirectional Encoder Representations from Transformers” und wurde ursprünglich von Google entwickelt. Das Modell lernt aus Beispielen, Muster in Texten zu erkennen – in diesem Fall die sprachlichen Eigenheiten industriell gefertigter Fälschungen.

Als Trainingsmaterial dienten mehr als 2.000 zurückgezogene Studien aus der Krebsforschung, die in der Datenbank von Retraction Watch als Paper-Mill-Produkte markiert waren. Diesen stellten die Forscher eine gleiche Anzahl mutmaßlich echter Studien gegenüber.

Sorgfältige Recherche

Um sprachliche Verzerrungen zu minimieren, wählten sie die Kontrollgruppe sorgfältig aus: Sie enthielt Arbeiten aus hochrangigen Zeitschriften wie Cell und Cancer Cell, Publikationen aus Ländern ohne bekannte Paper-Mill-Aktivität wie Schweden, Finnland und Norwegen sowie eine gezielte Auswahl chinesischer Studien aus Spitzenjournalen.

Bewusst beschränkten sich die Forscher auf Titel und Zusammenfassungen der Studien. Der Grund ist pragmatisch: Volltexte stehen häufig hinter Bezahlschranken, während Titel und Abstracts über PubMed frei zugänglich sind. Das ermöglicht eine Anwendung im großen Maßstab.

Über 90 Prozent Trefferquote

Die Leistungsfähigkeit des Filters wurde auf mehreren Ebenen getestet. Im internen Validierungsdatensatz erreichte das Modell eine Gesamtgenauigkeit von 91 Prozent. Die Spezifität lag bei 96 Prozent, das heißt, echte Studien wurden in der großen Mehrheit der Fälle korrekt als echt erkannt. Falsche Alarme waren selten.

In einer externen Validierung mit Daten von Integritätsexperten, die verdächtige Studien anhand manipulierter Abbildungen identifiziert hatten, stieg die Genauigkeit sogar auf 93 Prozent bei einer Spezifität von 99 Prozent. Zusätzlich überprüften die Forscher, ob ihr Modell auch Studien erkennt, die in früheren Untersuchungen wegen fehlerhafter Nukleotidsequenzen oder falsch identifizierter Zelllinien aufgefallen waren.

Obwohl der Algorithmus keinen Zugang zu diesen spezifischen Informationen hatte, markierte er rund 72 Prozent dieser problematischen Arbeiten – ein starkes Indiz dafür, dass Paper-Mill-Produkte auch ohne Bildanalyse oder Datenprüfung an ihrem Sprachstil erkennbar sind.

Fast 10 Prozent der Krebsliteratur unter Verdacht

Die Forscher wandten ihr Modell anschließend auf 2,6 Millionen Originalstudien aus der Krebsforschung an, die zwischen 1999 und 2024 in der PubMed-Datenbank verzeichnet waren. Das Ergebnis übertrifft bisherige Schätzungen bei Weitem: 261.245 Studien – 9,87 Prozent – wiesen sprachliche Merkmale auf, die auf eine Herkunft aus Paper Mills hindeuten.

Die Entwicklung über die Zeit ist dabei besonders beunruhigend. Lag der Anteil verdächtiger Studien in den frühen 2000er-Jahren noch bei etwa einem Prozent, stieg er exponentiell an und erreichte 2022 seinen bisherigen Höchststand von über 15 Prozent der jährlichen Krebsforschungspublikationen.

Der leichte Rückgang in den Jahren 2023 und 2024 könnte auf verstärkte Gegenmaßnahmen der Verlage hindeuten, aber auch auf eine Anpassung der Paper Mills an neue KI-gestützte Textgenerierung, die alte Sprachmuster verwischt.

China dominiert – aber das Problem ist global

Mit über 170.000 markierten Studien stammt die überwältigende Mehrheit der verdächtigen Arbeiten aus chinesischen Institutionen. Das entspricht 36 Prozent aller chinesischen Krebsstudien im Untersuchungszeitraum. Iran folgt mit 20 Prozent, Saudi-Arabien mit 16 Prozent, Ägypten mit 15 Prozent. Doch auch westliche Länder sind betroffen: In den USA wurden über 10.500 Studien markiert, was dort zwei Prozent der Krebsforschungsliteratur entspricht.

Die Forscher sagen, dass die geographische Verteilung nicht bedeutet, dass der Algorithmus lediglich den Schreibstil chinesischer Autoren erkennt. Im Gegenteil: Chinesische Autoren waren unter den fälschlicherweise als echt eingestuften Paper-Mill-Studien überproportional vertreten, während die Zahl falscher Verdächtigungen bei Kontrollstudien insgesamt gering blieb.

Magenkrebs, Leberkrebs und Grundlagenforschung im Fokus

Unter den Krebsarten stechen Magenkrebs mit 22 Prozent, Knochenkrebs mit 21 Prozent und Leberkrebs mit 20 Prozent markierter Studien hervor. Die Forscher führen dies teilweise auf die hohe Prävalenz dieser Krebsarten in China zurück, vermuten aber auch, dass Paper Mills gezielt populäre Forschungsthemen bedienen.

Auffällig ist zudem, dass grundlagenwissenschaftliche Arbeiten deutlich häufiger betroffen sind als Studien aus der Epidemiologie oder der Versorgungsforschung. Laborexperimente mit Zelllinien und genetischen Markern lassen sich offenbar leichter fälschen als bevölkerungsbezogene Daten.

Auch renommierte Verlage betroffen

Besonders brisant ist der Befund, dass auch Zeitschriften mit hohem Impact Factor betroffen sind. Im obersten Zehntel der Journale nach Impact Factor stieg der Anteil verdächtiger Studien von nahezu null in den frühen 2000er-Jahren auf über zehn Prozent im Jahr 2022.

Die großen Wissenschaftsverlage Springer Nature, Elsevier und Wiley weisen zwar prozentual niedrigere Quoten von rund zehn Prozent auf, führen aber aufgrund ihres enormen Publikationsvolumens die absoluten Zahlen an: Springer Nature mit über 40.000, Elsevier mit knapp 40.000 und Wiley mit über 28.000 markierten Studien.

Kleinere Verlage sind teilweise weitaus stärker durchsetzt. Der italienische Verlag Verduci Editore erreichte in seiner Krebszeitschrift eine Quote von 67 Prozent verdächtiger Publikationen. Bei International Scientific Literature waren es 45 Prozent, bei E-Century Publishing 44 Prozent.

Ein Werkzeug mit Grenzen

Die Forscher warnen ausdrücklich davor, ihren Algorithmus als alleiniges Beweismittel zu verwenden. Das Modell liefere statistische Hinweise, keine Schuldsprüche. Drei Fachzeitschriften eines großen Verlags nutzen den Filter bereits, um Gutachter auf verdächtige Einreichungen aufmerksam zu machen. Die endgültige Bewertung liegt jedoch stets bei menschlichen Experten.

Eine grundsätzliche Einschränkung besteht darin, dass das Modell nur jene Fälschungsmuster erkennen kann, die in den Trainingsdaten enthalten waren. Neue Vorlagen oder der Einsatz generativer KI durch Paper Mills könnten den Filter in Zukunft unterlaufen. Die Forscher rechnen mit dauerhaftem Wettrüsten zwischen Fälschern und Detektoren. Sie planen, das Modell auf weitere Forschungsgebiete auszuweiten und kontinuierlich zu aktualisieren.

Die zentrale Botschaft ihrer Arbeit aber lautet: Das Problem ist um ein Vielfaches größer als bisher angenommen, es wächst weiter, und es betrifft das gesamte wissenschaftliche Publikationssystem – von Nischenjournalen bis zu den angesehensten Zeitschriften der Welt.

Teilen Sie diesen Artikel:
Facebook
X.com
LinkedIn

Gerechtigkeit steht für ihn an erster Stelle. Seine jahrelange Erfahrung und sein Fokus auf Transparenz helfen ihm, Betrug schnell zu erkennen. Er testet Online-Casinos gründlich auf Sicherheit und Legalität, insbesondere im Hinblick auf den deutschen Glücksspielstaatsvertrag. Sein Ziel ist es, Nutzern zuverlässige Informationen zu bieten und sie vor unseriösen Anbietern zu schützen.

Geschrieben von: Steffen Breitner

(0) Kommentare