X

RETVec: Google will bahnbrechenden Spamfilter entwickelt haben

Google hat seinem E-Mail-Dienst Google Mail einen deutlich verbesserten Spamfilter verpasst. Das Unternehmen geht hier sogar so weit, die Neuerungen als "eine der größten Verbesserungen in der Gefahrenabwehr in den letzten Jahren" zu bezeichnen.
05.12.2023  09:25 Uhr

Spam-Killer RETVec

Das ist durchaus nachvollziehbar. Zwar gibt es natürlich starke Sicherheitsrisiken in Form ausgeklügelter Malware - doch ist Spam aufgrund seiner Masse im gesamten Maßstab das weitaus größere Problem. Bei der Eindämmung der unerwünschten Nachrichten will man nun einen entscheidenden Schritt nach vorn gemacht haben. Den Kern des Updates macht das neue Textklassifizierungssystem RETVec (Resilient & Efficient Text Vectorizer) aus. Hinter diesem arbeiten - wie es in der heutigen Zeit erwartbar ist - moderne KI-Algorithmen. Diese sind laut Google in der Lage, "feindliche Textmanipulationen" zu verstehen.


Darunter versteht man den Einsatz von Sonderzeichen, Emojis, Tippfehlern und anderen Zeichen, mit denen die maschinellen Algorithmen in die Irre geführt werden sollen. Während der Computer Probleme bei der Erkennung und Zuordnung hat, bleibt der Text für Menschen mit ihrer deutlich besseren Abstraktionsfähigkeit problemlos lesbar.

Insbesondere die umfassenden Möglichkeiten, die der Unicode-Zeichensatz bietet, halfen den Spammern zuletzt, die Filter in großem Stil zu umgehen. So kann für den Nutzer der Text "Herzlichen Glückwunsch! Ein Guthaben von 1.000 Dollar ist für Ihr Jackpot-Konto verfügbar" in einer Nachricht stehen - für die Maschine hingegen handelt es sich hier lediglich um eine Aneinanderreihung von Unicode-Sonderzeichen, deren Inhalt der Filter nicht entschlüsseln kann.

KI erkennt Text-Bild

Das allerdings soll sich nun ändern. Die KI-Systeme wurden darauf trainiert, genau solche Manipulationen ausfindig zu machen und aus dem Schriftbild auf den Inhalt schließen zu können. "RETVec ist so trainiert, dass es gegen Manipulationen auf Zeichenebene wie Einfügen, Löschen, Tippfehler, Homoglyphen, LEET-Substitution und vieles mehr resistent ist. Das RETVec-Modell wurde auf der Grundlage eines neuartigen Zeichenkodierers trainiert, der alle UTF-8-Zeichen und -Wörter effizient codieren kann. So funktioniert RETVec sofort in über 100 Sprachen, ohne dass eine Nachschlagetabelle oder eine feste Vokabulargröße erforderlich ist", teilte Google mit.

Allein das Wort "Glückwunsch" kann in scheinbar endlosen Varianten vorliegen, wenn man ein oder mehrere Zeichen durch Zahlen, mathematische Symbole, Kyrillisch, Hebräisch oder Emojis ersetzt. Statt aber mit einer gigantischen Homoglyphen-Nachschlagetabelle zu arbeiten, die auf Millionen von Parametern hinausläuft, benötigt die RETVec "nur" rund 200.000 Parameter. Dadurch ist der Filter so klein und effizient, dass er auch auf lokalen Geräten arbeiten kann. RETVec wird außerdem quelloffen zur Verfügung gestellt und soll auch von anderen Unternehmen eingesetzt werden können.

Zusammenfassung
  • Google Mail erhält verbesserten Spamfilter
  • Neuerungen gelten als bedeutende Sicherheitsverbesserung
  • RETVec-System nutzt KI zur Textklassifizierung
  • KI erkennt Spam durch Sonderzeichen und Emojis
  • Unicode-Manipulationen werden von KI entschlüsselt
  • RETVec wehrt Manipulationen auf Zeichenebene ab
  • Filter arbeitet effizient mit ca 200000 Parametern
Verwandte Themen
Künstliche Intelligenz
☀ Tag- / 🌙 Nacht-Modus
Desktop-Version anzeigen
Impressum
Datenschutz
Cookies
© 2024 WinFuture