Google Recaptcha von Google Sprachanalyse überlistet
Mit Recaptcha hat Google ein System im Programm, mit dem bei Online-Diensten eine Unterscheidung von Menschen und Maschinen vorgenommen werden soll - wie ein Blick in unser WinFuture-Special für "Internet & Webdienste" zeigt, muss sich das System beispielsweise durch die Entwicklung von künstlicher Intelligenz dabei immer häufiger geschlagen geben. Forscher haben jetzt aber einen Weg beschrieben, wie Recaptcha noch viel einfacher mit Google-eigenen Mitteln überlistet werden kann.
So funktioniert das Uncaptcha-System
So haben Forscher der University of Maryland unter der Überschrift Uncaptcha eine Methode vorgestellt, die das System automatisiert überwinden kann. Wie Motherboard berichtet, gelingt es bei der Verwendung von Googles eigener Sprachanalyse für Speech-to-Text in 90 Prozent der Fälle, beim ersten Versuch die Mensch-Erkennung zu knacken.
Konkret wird für den Ansatz der Umstand ausgenutzt, dass Recaptcha für Menschen mit Sehbehinderung - oder bei schwerer Erkennbarkeit der Captcha-Symbole - als Alternative zu Bildern eine Art Audio-Captcha bereitstellt. In ihrer Arbeit beschreiben die Forscher jetzt einen Weg, wie die Inhalte dieses Audio-Codes durch eine Speech-to-Text-Engine erkannt werden können.
Google macht die Arbeit leichter
Wie die Forscher demonstrieren, wird so für das vorgelesene Captcha eine maschinelle Rückgewinnung des Inhalts möglich, das Ergebnis kann dann automatisiert in das entsprechende Formular bei Google eingepflegt werden. In einer älteren Version wurden von Recaptcha dabei Ziffern vorgelesen, die konnte das Forscherteam zu 85 Prozent automatisiert erkennen und eintragen. Mit den Vorarbeiten zu dem System war schon 2017 begonnen worden.Mittlerweile hat Google an seinem Captcha-Dienst und den Audio-Abfragen weitere Anpassungen vorgenommen und die Ziffern durch ganze Phrasen ersetzt. Wie die Forscher mitteilen, macht es dieser Umstand aber offenbar "einfacher als je zuvor", das System zu überlisten. So genüge eine einzige Anfrage an eine öffentliche Speech-to-Text-Programmierschnittstelle - beispielsweise die von Google selbst - um die aktuelle Erkennungsrate von 90 Prozent zu erreichen. Das Team hat Google nach eigenen Angaben vor rund einem halben Jahr über die Erkenntnisse informiert.