Nová studie Large-Scale Online Deanonymization with LLMs od výzkumníků z ETH Zurich a Anthropic ukazuje, že velké jazykové modely dokážou systematicky identifikovat skutečnou identitu lidí za pseudonymními účty pouze na základě jejich textů.
Klíčem je pipeline nazvaná ESRC, která automatizuje proces, který dříve dělali ručně OSINT analytici.
Jak přesně systém funguje?
Autoři navrhli postup skládající se ze čtyř kroků:
Exkce – extrakce identifikačních signálů
LLM nejprve analyzuje anonymní příspěvky a vytváří strukturovaný profil autora.
Model dokáže z běžných komentářů odvodit například:
profesi nebo pracovní obor
místo nebo region
zájmy a témata, o kterých autor píše
demografické indicie
specifický styl psaní
drobné osobní detaily zmíněné v textech
Důležité je, že tyto informace systém získává přímo z nestrukturovaného textu, bez předem definovaných pravidel.
Vyhledání možných shod
Systém poté prohledává velkou databázi veřejných profilů (například LinkedIn) a hledá osoby s podobnými charakteristikami. K porovnání používá matematické metody měřící podobnost textů.
Tento krok dokáže zmenšit prostor hledání například z desítek tisíc profilů na několik desítek nejpravděpodobnějších kandidátů.
Technicky jde o:
vektorové embeddingy textu
cosine similarity
indexy typu FAISS pro rychlé vyhledávání
Tento krok zmenší prostor hledání například z 89 000 profilů na několik desítek kandidátů.
Posouzení shody
Poté nastupuje druhý LLM, který analyzuje vybrané kandidáty.
Model porovnává:
styl psaní
tematické overlap
biografické detaily a profesní informace
nepřímé indicie
Často se používá dvoustupňové rozhodování:
levnější model vybere top kandidáty
silnější model provede detailní verifikaci
Tato fáze je zásadní z důvodu, že právě zde LLM překonává klasické algoritmy.
Ověření výsledku
V posledním kroku systém vyhodnocuje jistotu identifikace.
Autoři používají například:
skóre pravděpodobnosti shody
vzájemné porovnávání kandidátů
statistické modely pro určení pořadí pravděpodobnosti
Tento krok umožňuje minimalizovat chybné identifikace.
Výsledky experimentů
Nejlepší varianta systému dokázala:
správně identifikovat přibližně 68 % anonymních uživatelů Hacker News
při 90% přesnosti výsledků
z databáze 89 000 profilů na LinkedInu
Tradiční metody založené pouze na stylu psaní přitom při stejné přesnosti téměř nefungovaly.
Výzkumníci navíc zjistili, že účinnost systému klesá poměrně pomalu i při výrazném zvětšování databáze možných kandidátů.
Co to znamená pro soukromí
Autoři studie upozorňují, že tím končí éra tzv. „praktické anonymity“.
Dříve bylo sice možné anonymně publikovat příspěvky pod přezdívkou, ale jejich propojení s konkrétní osobou vyžadovalo mnoho času a práce.
Dnes může stejnou práci vykonat automatizovaný systém během několika minut.
Proč je to důležité
Pseudonymita na internetu často chrání:
whistleblowery a investigativní novináře
LGBTQ+ osoby v nepřátelském prostředí
oběti násilí hledající pomoc
politické disidenty
Technologie, která dokáže automaticky odhalovat identitu, může být užitečná například při vyšetřování trestné činnosti. V nesprávných rukou však může umožnit masové odhalování identity a cílené obtěžování.