Váš „anonymní“ účet na internetu možná není tak anonymní, jak si myslíte. Díky AI.

Nová studie ukazuje, že LLM dokážou z anonymních příspěvků odhalit skutečnou identitu autora. Stačí styl psaní, drobné indicie a veřejné profily na internetu.

Ilustrační foto: identifikace lidí za pseudonymními účty pomocí AI (zdroj: Adobe Stock)

Nová studie Large-Scale Online Deanonymization with LLMs od výzkumníků z ETH Zurich a Anthropic ukazuje, že velké jazykové modely dokážou systematicky identifikovat skutečnou identitu lidí za pseudonymními účty pouze na základě jejich textů.

Klíčem je pipeline nazvaná ESRC, která automatizuje proces, který dříve dělali ručně OSINT analytici.

Jak přesně systém funguje?

Autoři navrhli postup skládající se ze čtyř kroků:

  1. Exkce – extrakce identifikačních signálů

LLM nejprve analyzuje anonymní příspěvky a vytváří strukturovaný profil autora.
Model dokáže z běžných komentářů odvodit například:

  • profesi nebo pracovní obor

  • místo nebo region

  • zájmy a témata, o kterých autor píše

  • demografické indicie

  • specifický styl psaní

  • drobné osobní detaily zmíněné v textech

Důležité je, že tyto informace systém získává přímo z nestrukturovaného textu, bez předem definovaných pravidel.

  1. Vyhledání možných shod

Systém poté prohledává velkou databázi veřejných profilů (například LinkedIn) a hledá osoby s podobnými charakteristikami. K porovnání používá matematické metody měřící podobnost textů.

Tento krok dokáže zmenšit prostor hledání například z desítek tisíc profilů na několik desítek nejpravděpodobnějších kandidátů.

Technicky jde o:

  • vektorové embeddingy textu

  • cosine similarity

  • indexy typu FAISS pro rychlé vyhledávání

Tento krok zmenší prostor hledání například z 89 000 profilů na několik desítek kandidátů.

  1. Posouzení shody

Poté nastupuje druhý LLM, který analyzuje vybrané kandidáty.

Model porovnává:

  • styl psaní

  • tematické overlap

  • biografické detaily a profesní informace

  • nepřímé indicie

Často se používá dvoustupňové rozhodování:

  • levnější model vybere top kandidáty

  • silnější model provede detailní verifikaci

Tato fáze je zásadní z důvodu, že právě zde LLM překonává klasické algoritmy.

  1. Ověření výsledku

V posledním kroku systém vyhodnocuje jistotu identifikace.

Autoři používají například:

  • skóre pravděpodobnosti shody

  • vzájemné porovnávání kandidátů

  • statistické modely pro určení pořadí pravděpodobnosti

Tento krok umožňuje minimalizovat chybné identifikace.

Výsledky experimentů

Nejlepší varianta systému dokázala:

  • správně identifikovat přibližně 68 % anonymních uživatelů Hacker News

  • při 90% přesnosti výsledků

  • z databáze 89 000 profilů na LinkedInu

Tradiční metody založené pouze na stylu psaní přitom při stejné přesnosti téměř nefungovaly.

Výzkumníci navíc zjistili, že účinnost systému klesá poměrně pomalu i při výrazném zvětšování databáze možných kandidátů.

Co to znamená pro soukromí

Autoři studie upozorňují, že tím končí éra tzv. „praktické anonymity“.

Dříve bylo sice možné anonymně publikovat příspěvky pod přezdívkou, ale jejich propojení s konkrétní osobou vyžadovalo mnoho času a práce.

Dnes může stejnou práci vykonat automatizovaný systém během několika minut.

Proč je to důležité

Pseudonymita na internetu často chrání:

  • whistleblowery a investigativní novináře

  • LGBTQ+ osoby v nepřátelském prostředí

  • oběti násilí hledající pomoc

  • politické disidenty

Technologie, která dokáže automaticky odhalovat identitu, může být užitečná například při vyšetřování trestné činnosti. V nesprávných rukou však může umožnit masové odhalování identity a cílené obtěžování.

Loading...