Ekonomia ataków z użyciem AI. Niektóre wciąż są za drogie

Piotr Konieczny

Szef zespołu bezpieczeństwa i założyciel Niebezpiecznik.pl, CISO

Dynamiczny rozwój narzędzi AI w ostatnich latach budzi coraz większe obawy. Pojawiają się przerażające historie, jak przestępcy podrobili głos córki, zadzwonili do matki i kobieta straciła oszczędności życia. Albo powtarzający się motyw z deepfejkiem prezesa na callu, który perfekcyjnym głosem i wyglądem uwiarygodnił prośbę o pilny przelew.

Co łączy te historie? Całkowity brak dowodów, że przestępcy faktycznie posłużyli się jakimikolwiek AI do klonowania głosu i twarzy.

Przykro mi – wciąż wszystkie takie wydarzenia bazują tylko na relacji pozostających w szoku ofiar. Szoku i nierzadko wstydzie, który – po uświadomieniu sobie, do czego doszło – ofiary starają się minimalizować właśnie narracją w stylu „każdy by się nabrał, bo dziś da się idealnie pod kogoś podszyć, używając AI”. I ciężko się z tym stwierdzeniem nie zgodzić. To prawda, że łatwo (i za darmo) można sklonować czyjś głos i wizerunek. Widać to na Facebooku, gdzie w reklamach deepfejki polityków namawiają na szemrane interesy. Problem (a raczej wielkie nasze szczęście) w tym, że na razie nic nie wskazuje, by przestępcy faktycznie korzystali z AI podczas ataków telefonicznych np. na wypadek dziecka, gdzie wymagana jest interakcja z ofiarą.

W Niebezpieczniku od kilkunastu lat regularnie wcielamy się w rolę włamywaczy. Na zlecenie klientów atakujemy ich infrastrukturę i pracowników. Dokładnie tak, jak robią to prawdziwi cyberprzestępcy. Od 2 lat staramy się wspierać różnymi rozwiązaniami opartymi na AI, zarówno do planowania, jak i realizacji ataków. Na własnej skórze odczuliśmy wiele niedoskonałości tzw. ofensywnego AI. Fakt, pomaga przy pisaniu złośliwego oprogramowania, ale na używanie klonowanych głosów do interaktywnych ataków jest jeszcze za wcześnie.

Bo o ile można łatwo wygenerować dowolne zdanie powiedziane czyimś głosem, o tyle podczas przeprowadzania ataku spotkamy się z dwoma problemami.

Po pierwsze, płynne mówienie cudzym głosem w czasie rzeczywistym i reagowanie na pytania ofiary wciąż stanowią wyzwanie. Po drugie, by mówić cudzym głosem, trzeba zdobyć jego próbkę. To oczywiście jest możliwe, ale często wymaga sporo czasu. A czas jest cenny dla telefonicznych oszustów, bo ich model polega na skali – na 1000 telefonów trafi się kilkanaście osób rozkojarzonych, zmęczonych lub naiwnych, które wejdą w rozmowę. Wśród nich będzie kilka, które poddadzą się presji, wyłączą zdrowy rozsądek i dadzą się okraść. Chociaż, jak same potem będą twierdzić, o tym oszustwie słyszały, ale – tu dokładny cytat z jednej z ofiar – „nie potrafię wytłumaczyć, dlaczego zrobiłem wszystko, o co mnie prosili”.

Mówiąc brutalnie, przy takiej skuteczności zwykłych telefonów podszytych dobrą legendą nie ma sensu tracić czasu na rozpracowywanie bliskich i tworzenie klona. Nie ma też gwarancji, że ten jeden dopracowany strzał w ogóle się uda. Ofiara może przecież akurat być na wspólnym obiedzie z osobą, pod którą przestępcy się podszyją, i wszystko na marne. Lepiej tę energię i czas poświęcić na wykonanie tysiąca telefonów. Wtedy, jak pokazuje praktyka, na pewno trafi się jedną osobę, którą uda się okraść. Zwłaszcza jeśli obdzwania się ludzi od rana do wieczora i poznało się wszystkie możliwe pytania czy obiekcje, jakie w trakcie rozmów pojawiają się u ofiar. Zawodowcy rozwieją je wszystkie. Kiedy trzeba, pogrożą paragrafami, a jak to nie zadziała, zmienią narrację i odwołają się do serca ofiary. W manipulacjach są lepsi niż telefoniczni sprzedawcy fotowoltaiki. Są. Naprawdę. Bardzo. Przekonujący.

Kluczowa jest tu znajomość tego, jak myśli rozmówca – umiejętność ta przychodzi wraz z doświadczeniem. Pokażę to zresztą na przykładzie, bo jestem pewien, że niektórzy wciąż, po 6 akapitach, nie są przekonani, że telefoniczni oszuści nie klonują głosów z AI.

Choć, jak wspomniałem, ofiary nie mają dowodów na użycie przeciw nim AI, to są dowody na to, że w tych atakach przestępcy nie korzystali z żadnej zaawansowanej technologii. Jedną z grup od scamów „na wypadek” zatrzymała policja. Okazało się, że te identyczne głosy bliskich powstawały w… krtani zatrzymanej oszustki. Po prostu każdą rozmowę z ofiarą zaczynała od wypowiadanych płaczliwym głosem słów: „Mamo, to ty? Był wypadek…”. Resztę rozmowy prowadził jej kolega, który przejmował słuchawkę i podawał się za policjanta, dodając: „Jak pani słyszy, córka jest roztrzęsiona, nie jest w stanie rozmawiać”. W świetle powyższego należałoby zastanowić się, jakim cudem prasowy nagłówek brzmiał: „Godzinę rozmawiała z córką, ale to był głos z AI”. Słaba jakość rozmowy? Szok? Głuchy telefon?

To, że aktualnie oszuści w interaktywnych telefonicznych atakach nie korzystają z AI, nie oznacza, że kiedyś nie zaczną. Dlatego warto uczulić bliskich na takie scamy. Warto też szkolić pracowników, jak wykrywać deepfejki. Z naszych rozmów z klientami wynika, że niestety, ale nie każda firma posiada prawidłowe procedury w tym zakresie. Tego problemu nie da się rozwiązać tylko technologią – i to temat na osobny artykuł, ale zdradzę jeden trik. Jeśli chcesz być pewien, że to nie deepfejk, poproś rozmówcę na videocallu, żeby zrobił pięć pompek. Żaden awatar nie jest w stanie (jeszcze) obsłużyć takich ruchów. No i jakaż to satysfakcja, kiedy przełożony, by udowodnić, że jest postacią białkową, zacznie przed tobą „pompować”. Przecież nie odmówi. W końcu wszystko w imię bezpieczeństwa!