Was unterscheidet einen Spamfilter von Zensur?

Es ist vielleicht wie das alte Dilemma bezüglich der Waffenherstellung: Ist die Pistole per se gut oder böse? Oder ist sie neutral, und erst die Intention des Benutzers kann zu einer Wertung führen?

Spamfilter gut

In den Augen eines eMail-Benutzers ist Spam unerwünscht. Daher sind Filtermechanismen, die solche Mails von unserem Postfach fern halten, mehr als willkommen. Wie gut oder schlecht solche Filter arbeiten, bemerken wir täglich in unserem Postfach. Manchmal kommen neue Ideen der Spammer durch, und wir sehen die Werbung doch. Es gibt aber auch Situationen, wo der Spamfilter zu eifrig arbeitet und Dinge, die wir eigentlich lesen wollten, verschluckt.

Vielleicht werfen wir mal einen Blick auf so einen typischen Filter. Das ist nämlich nicht ganz so einfach, wie es sich Compuserve in den 90ern dachte. Damals filterten sie aus dem Usenet (rein textbasierte Diskussionsgruppen) einfach alles heraus, was das Wort „breast“ (dt. Brust) enthielt. Man dachte sich, dass jemand, der über Brüste redet, sicher nur pornografische Interessen haben könne, und das wäre ja unmoralisch. Dummerweise gerieten auch Userinnen in den Fokus dieses Filters, die sich über „breast cancer“ (dt. Brustkrebs) unterhalten wollten, was mit Pornografie nun wirklich nichts zu tun hat.

Dabei zeigte sich schon sehr früh das Dilemma rein stichwortbasierter Filter: Ein einziges Wort kann kaum schlüssig entscheiden, ob ein Text moralisch berechtigt oder verwerflich ist. Selbst Begriffe wie „Bombe“, „Vergiftung“ oder „töten“ können je nach Kontext vielleicht einfach eine Nachrichtenmeldung sein, oder eben wirklich ein terroristischer Aufruf.

Menschen besser

Auch Menschen scheinen mit diesem Problem nicht unbedingt besser umgehen zu können. Ein Beispiel aus etwas jüngerer Zeit, das mir noch in Erinnerung ist, ist die Rede des CDU-Politikers Martin Hohmann am 3. Oktober 2003. Ihm wurde damals vorgeworfen, die Begriffe „Juden“ und „Tätervolk“ in einem Satz verwendet zu haben. Laut dem verlinkten Artikel lautete der betreffende Ausschnitt der Rede im Original: „Daher sind weder ‚die Deutschen‘ noch ‚die Juden‘ ein Tätervolk.“

Interessant dabei ist nicht nur, dass die Aussage eigentlich kaum missverstanden werden kann, wenn man eben diesen Satz als ganzes betrachtet. Es hat den Anschein, als ob man aus politischen Gründen den Inhalt missverstehen wollte. Das ist natürlich jenseits der Logik eines technischen Spamfilters zu sehen. Nimmt man die Regel „beide Worte in einem Satz verwendet“ jedoch wirklich ernst, müsste sie auch für die Kritik selbst zur Anwendung kommen. Das würde diese gleichermaßen auf die Stufe der vorgeworfenen Nazi-Ideologie stellen, denn auch hierbei wurden diese beiden Worte in einem Satz verwendet.

Wir sehen, ganz so einfach ist es also nicht.

Technik

Spamfilter arbeiten daher nicht mehr mit nur einzelnen Worten. Statt dessen wird eine größere Menge herangezogen, aufgrund deren Auftreten oder Fehlen die Nachricht als Spam eingestuft wird oder eben nicht. Dies beruht häufig auf dem Bayes-Filter. Hierbei klassifiziert der Anwender seine Mails in erwünschte oder Spam-Mails. Der Algorithmus ermittelt dann jedes mal die Wörter aus den Mails und füllt damit gewissermaßen das rote oder grüne Töpfchen. Mit jeder zusätzlichen Klassifizierung steigt also die Treffsicherheit des Filters. Natürlich werden oft noch weitere Informationen wie das Vorhandensein der Absenderdomain in Blacklists usw. herangezogen, doch dieses einfache Modell soll zunächst genügen.

Der Vorteil an diesem Filter ist nun, dass er von dem Benutzer selbst trainiert wird. Dadurch wird keine generelle Entscheidung über gut oder böse getroffen, sondern die Auswertung ist ganz individuell. Und der wichtigste Aspekt dabei ist, dass der Benutzer diesen Spamfilter nicht nur will, sondern auch jederzeit abschalten kann.

Zensur böse

Auch staatliche Zensur verfolgt das Ziel, bestimmte Inhalte aus dem Nachrichtenstrom herauszunehmen, während andere durchgelassen werden. Insofern arbeitet der Filter ähnlich wie ein Spam-Filter. Doch im Gegensatz zum Spam-Filter werden hier die Filterregeln nicht vom Benutzer festgelegt, sondern von den Zensoren. Und deren Intention ist eher nicht die, Werbung zu unterdrücken, sondern Meinungen.

Weiterhin wird der Benutzer gar nicht erst davon erfahren, dass eine Mail an ihn abgefangen wurde. Genauso wie ich im Falle des nicht funktionierenden Telefons erst dann von dem Problem erfahre, wenn der Anrufer mich auf eine andere Weise auf dieses Problem hinweist. Bei Mailversand haben wir uns aber schon so an das Funktionieren gewöhnt, dass wir oft nicht mal die Empfangs- oder Lesebestätigung aktivieren – und im Nachgang dann auch selbst noch einmal überprüfen. Praktisch wäre, wenn das Mailprogramm dies automatisch abhandeln und nach einer einstellbaren Zeitspanne die ausbleibende Bestätigung dem Benutzer mitteilen würde.

Im Falle des Spam-Filters kann der Benutzer wenigstens noch im Mülleimer nachschauen, ob versehentlich zu viel gefiltert wurde. Bei staatlicher Zensur ist dies naturgemäß unerwünscht und daher für den Benutzer nicht möglich.

Webfilter und -sperren

Aber es geht ja nicht nur um eMails. Auch Websites sollen nach Ansicht gewisser Leute herausgefiltert werden, da sie Inhalte verbreiten, die der erwünschten Denkweise nicht entsprechen. Offiziell wird natürlich mit geltendem Recht argumentiert, z.B. sollen Urheberrechtsverletzungen vermieden werden. Wie jedoch eine Unterscheidung zwischen legalen und illegalen Inhalten auf derselben Plattform durch eine Sperrung der gesamten Plattform differenziert behandelt werden soll, kann wohl niemand erklären. Dabei sind die Juristen doch immer schnell mit der Argumentation, man müsse immer den Einzelfall sehen!

Genau solche zahlreichen Einzelfälle muss man allerdings betrachten, wenn man den Upload von Bild-, Video- oder Textmaterial bewerten möchte. Bei der im Moment im Europaparlament anhängigen Abstimmung über Upload-Filter wird dies jedoch einfach ignoriert. Die Politiker haben offenbar immer noch die Illusion, es gäbe technische Möglichkeiten, mit denen zuverlässig die Spreu vom Weizen getrennt werden könnte. Statt dessen besteht die große Gefahr, dass die Plattformen wie Youtube oder Facebook im Zweifel lieber löschen als genauer prüfen, denn die angedrohten Sanktionen sind schmerzhaft.

Was das für die Meinungsfreiheit bedeutet, kann man sich ausmalen. Denn wenn die Infrastruktur erst einmal existiert, weckt sie Begehrlichkeiten. Auch bei der LKW-Maut wurde anfänglich beteuert, die Speicherung der Kennzeichen erfolge ausschließlich für Abrechnungszwecke. Inzwischen wird schon offen darüber diskutiert, ob man mit den Daten nicht doch im Hinblick auf die Strafverfolgung etwas machen könnte.

Fazit

Welche Technik auch immer zum Einsatz kommt, sie wird ihre Grenzen finden. Hätten Bayes-Filter zuverlässig bei dem Wort „Brust“ den erotischen Kontext von dem medizinischen unterscheiden können? Wenn der Filter von dem Benutzer selbst trainiert wird, möglicherweise. Denn dann hätten zusätzliche Begriffe wie Vorsorge, Behandlung und Medikation vermutlich zu einer anderen Bewertung geführt als wenn das Wort Brust im Kontext von Titten, 90C, nackt, oder geil verwendet wird.

Würde ein KI-Ansatz hier besser arbeiten? Vielleicht, wenn man unterstellt, dass die künstliche Intelligenz wenigstens so gut wie die natürliche den Kontext und die Bedeutung auseinander halten kann. Vielleicht hätte eine KI dann den obigen Kernsatz auch gar nicht missverstanden, denn so kompliziert war er eigentlich gar nicht. Vielleicht ist es oft unser gedanklicher Filter, der das eigentliche Problem darstellt.

Bildquelle: cocoparisienne @ Pixabay, Lizenz: CC0


Dieser Artikel wurde in der ursprünglichen Form zuerst am 6.10.2018 auf edv3.de veröffentlicht. Da diese Domain jedoch keinerlei Resonanz erfuhr, habe ich ihn nach hier übertragen und um aktuelle Ereignisse ergänzt.

Ähnliche Artikel:

Schreibe einen Kommentar

Your email address will not be published.

11 + zwölf =