AI so svojimi LLM rýchlo transformujú digitálne prostredie tým, že umožňujú nové formy interakcie, automatizácie a spracovania informácií. Tieto systémy však predstavujú aj riziká pre ochranu súkromia a údajov, ktoré spochybňujú tradičné právne a technické záruky.
Patria medzi ne, okrem iného, neúmyselné zapamätanie a reprodukcia osobných údajov, náchylnosť na manipuláciu počas inferencie a širšia erózia súkromného života prostredníctvom syntetických identít, profilovania a neprehľadnosti pri rozhodovaní.
Dohovor č. 108+ poskytuje základný právny rámec na riešenie týchto výziev. Jeho princípy zostávajú technologicky neutrálne, no LLM vyvolávajú nové otázky, ako ich efektívne implementovať.
Čo je to Dohovor č. 108?
Oficiálne označovaný ako "modernizovaný Dohovor 108" alebo "Protokol CETS 223", je aktualizovaná verzia pôvodného Dohovoru Rady Európy č. 108 o ochrane jednotlivcov pri automatizovanom spracovaní osobných údajov z roku 1981. Na rozdiel od GDPR, ktoré sa vzťahuje len na EÚ, Dohovor 108+ je otvorený pre všetky štáty sveta. Momentálne ho ratifikovalo 55 štátov, vrátane všetkých členov Rady Európy, ale aj mimo-európske krajiny ako Argentina, Mexiko, Maroko, Tunisko a Uruguay.
Napríklad, zatiaľ čo článok 1 nariadenia GDPR potvrdzuje právo jednotlivca na súkromie a článok 2 definuje kľúčové pojmy, ako sú osobné údaje a spracovanie údajov, tak rozsah a neprehľadnosť školení a optimalizácie LLM komplikuje dodržiavanie predpisov.
Často nie je jasné, či sa osobné údaje nachádzajú v súboroch údajov o odbornej príprave alebo ako sa následne používajú, čo sťažuje posúdenie a presadzovanie záruk podľa článku 5 GDPR, ako je obmedzenie účelu, minimalizácia údajov a spravodlivosť.
Táto výzva sa stáva ešte naliehavejšou v súvislosti s osobitnými kategóriami údajov podľa článku 6 GDPR, kde môže dôjsť k nekontrolovanému získavaniu alebo vytváraniu citlivých informácií vrátane údajov o zdravotnom stave, politických názoroch alebo biometrických charakteristikách bez vedomia prevádzkovateľa.
Podobne aj povinnosti týkajúce sa bezpečnosti a transparentnosti údajov stanovené v článkoch 7 a 8 GDPR sú napäté v kontexte LLM, kde je správanie systémov založených na LLM pri odvodzovaní dynamické a nie úplne predvídateľné.
Informovanie dotknutých osôb alebo identifikácia zodpovedných prevádzkovateľov v takýchto vrstvených architektúrach zostáva pretrvávajúcim nedostatkom v riadení. Systémy založené na LLM podkopávajú zmysluplný prístup a kontrolu jednotlivcov, ako je zaručené v článku 9 GDPR. Keď sú totiž výstupy len pravdepodobnostné, tak je ťažké zaručiť práva na opravu, námietku alebo vysvetlenie automatizovaných výstupov alebo rozhodnutí.
Absencia pozorovateľných stôp údajov a prístupných používateľských rozhraní ďalej obmedzuje schopnosť jednotlivcov vedieť, kedy boli ich údaje použité, nieto ešte ich spochybniť alebo opraviť. To vyvoláva vážne obavy o to, či sa základné ustanovenia dohovoru č. 108+ môžu v praxi dodržiavať bez doplnkových technických a procesných záruk.
Keďže systémy založené na LLM sa čoraz viac prijímajú v kontextoch, ako je nábor, vzdelávanie, zdravotná starostlivosť a verejná správa a pod., tak potreba zachovať a presadzovať tieto práva sa stáva naliehavejšou.
Je preto pozitívne, že existuje už správa, ktorá zhrnuje riziká ochrany súkromia pri LLM:
Správa analyzuje, ako používanie veľkých jazykových modelov (LLMs) ohrozuje práva podľa Dohovoru 108+ (zákonnosť, minimalizácia, transparentnosť, práva dotknutých osôb).
Cieľom je ponúknuť metodiku na mapovanie a manažment rizík počas celého životného cyklu LLM systémov – od zberu dát až po nasadenie a následné monitorovanie.
Vychádza z rozhovorov so stakeholdermi (technologické firmy, deployeri, regulačné orgány, výskumné inštitúcie), ktoré ukázali nejednotnosť existujúcich prístupov a potrebu harmonizácie.
Zároveň sa správa zameriava aj na technické základy a vnútorné spracovanie dát:
LLM prekladajú slová na vektory (word embeddings) vyjadrujúce ich kontextovú podobnosť, čo môže viesť k neželaným spojeniam osobných údajov s menami.
Mechanistická interpretabilita (dictionary learning) odhaľuje, ako sú koncepty komprimované v sieťach – napr. aktivácia “Inner Conflict” alebo “Margaret Thatcher” vnútri modelu.
Tieto poznatky umožňujú nielen lepšie pochopiť riziká memorovania citlivých informácií, ale otvárajú cesty k úpravám či deaktivácii interných reprezentácií.
Správa identifikuje aj hlavné typy rizík ochrany súkromia:
Modelové riziká
Memorovanie a neúmyselné regurgitácie citlivých údajov (poznámka: proces, pri ktorom model reprodukuje presné alebo takmer presné úseky textu zo svojich tréningových dát. Inými slovami, model negeneruje nový, originálny obsah na základe naučených vzorcov, ale iba „vyvráti“ (regurgituje) niečo, čo si doslovne zapamätal.
Halucinácie a šírenie nepravdivých či poškodzujúcich informácií
Zosilňovanie biasov prítomných v dátach
Systémové riziká
Neprehľadné API, slabá bezpečnosť endpointov
Persistentné profilovanie cez “memory” funkcie, RAG a agentické workflow
Nedostatočné mechanizmy súhlasu a ochrán používateľských práv
Štrukturálne dopady
Eroziu súkromia, identity a dôvery v digitálnu komunikáciu
Možnosť manipulácie či dezinformácie prostredníctvom syntetických profilov
Riziká naprieč životným cyklom LLM:
Tréning a zber dát - Nekontrolovaný scrapping verejných zdrojov vedie k memorovaniu identifikovateľných informácií.
Post-tréning a fine-tuning - Dodatočné úniky dát pri nedostatočnej transparentnosti doladenia modelu.
Inference a interakcia - Útoky typu jailbreaking, prompt injection či nepredvídateľné odpovede modelu.
System-level integrácia - Slabé zabezpečenie RAG architektúr, middleware a plug-inov.
Post-deployment monitoring - Neustále zberanie spätnej väzby bez riadneho informovania používateľov a bez dopadu ich práv na prístup, opravu či výmaz.
Jedna vec je identifikovať riziká, druha vec je ale prijať aj nápravné opatrenia. Prístupy k zmierneniu rizík a ich obmedzení sú napr.:
Zmenšenie modelu a deduplikácia dát znižujú síce memorovanie, no obmedzujú schopnosť spracovať komplexný kontext a RAG aplikácie.
Mechanistická interpretabilita dokáže identifikovať neuronové vzory súvisiace s osobnými údajmi, ale jej škálovanie na veľké modely je náročné.
Federované doladenie s diferenciálnou ochranou (DP-LoRA) ponúka lepšie súkromie, no často degraduje výkon modelu.
Filtre či unlearning techniky pri výstupe nestačia proti sofistikovaným útokom, ktoré sa dajú obísť promptami.
Výsledky rozhovorov so stakeholdermi:
Interné procesy sú fragmentované, chýba jednotná metodika hodnotenia rizík.
Väčšina organizácií nedisponuje úplným prehľadom o pôvode a ďalšom využití tréningových aj interakčných dát.
Potreba pilotných projektov na overenie navrhovaného rámca a praktické nástroje pre nepretržité hodnotenie rizík.
Návrh rámca manažmentu rizík ochrany súkromia:
Prístup založený na životnom cykle LLM (ISO/IEC 22989): od zberu dát, tréningu, doladenia, nasadenia až po post-deployment monitoring.
Kombinácia technických aj organizačných opatrení v súlade s Dohovorom 108+, EDPB a medzinárodnými štandardmi (AI Treaty).
Kľúčové komponenty:
Vydefinovanie taxonómie rizík a kategorizácia osobných údajov v kontexte LLM.
Dvojúrovňové hodnotenie (model vs. systém).
Priebežné testovanie a monitoring pomocou pilotných overení.
Transparentnosť a zapojenie všetkých zainteresovaných strán.
Ako AI a LLM spracúvajú osobné údaje?
Štvorfázový proces spracovania
Na základe prezentovanej schémy možno proces spracovania v LLM rozdeliť do štyroch kľúčových krokov:
Krok 1: Spracovanie používateľských vstupov
Keď zadáte otázku do ChatGPT alebo podobného systému, váš text sa transformuje na „tokeny" - malé časti textu, ktoré model rozumie. Tieto tokeny sa následne prekódujú do číselnej reprezentácie.
Krok 2: Trénovanie na textových dátach
Systém je natrénovaný na obrovských množstvách textových dát z internetu, kníh, článkov a ďalších zdrojov. Tu sa môžu nachádzať aj osobné údaje bez vedomia ich majiteľov.
Krok 3: Neurálna sieť a spracovanie
Neurálna sieť využíva komplexné algoritmy na analýzu vzorcov v dátach a generovanie pravdepodobnostných odpovedí na základe naučených informácií.
Krok 4: Generovanie výstupu
Systém produkuje text, ktorý môže neúmyselne obsahovať osobné údaje z trénovacích dát alebo používateľských vstupov.
GDPR a AI: Základné princípy
Aplikovateľnosť GDPR
GDPR sa vzťahuje na AI systémy vždy, keď spracúvajú osobné údaje. To zahŕňa:
Údaje použité na trénovanie modelov
Informácie zadané používateľmi
Údaje "zapamätané" v modeli
Výstupy obsahujúce osobné informácie
Kľúčové princípy GDPR pre AI
Zákonnosť, férovosť a transparentnosť - AI systémy musia mať jasný právny základ pre spracovanie osobných údajov a používatelia musia byť informovaní o tom, ako sa ich údaje používajú.
Minimalizácia údajov - Princíp vyžaduje zbieranie a spracovanie len tých údajov, ktoré sú nevyhnutné pre konkrétny účel. Pre AI systémy to znamená:
Používanie len relevantných trénovacích dát
Odstránenie nepotrebných osobných informácií
Implementácia techník anonymizácie
Presnosť údajov
AI modely musia zabezpečiť presnosť spracovávaných údajov, čo je problematické kvôli tendencii LLM generovať nepresné informácie.
Obmedzenie uloženia
Osobné údaje nemožno uchovávať dlhšie, ako je nevyhnutné. Pre AI systémy to znamená definovanie jasných lehôt uchovávania.
Identifikácia hlavných rizík a trenice s GDPR
Memorovanie a "regurgitácia" údajov
Čo to znamená: LLM si môžu "zapamätať" osobné údaje z trénovacích dát a neskôr ich neúmyselne reprodukovať v odpovediach iným používateľom.
Príklad rizika: Model natrénovaný na verejných textoch môže obsahovať telefónne čísla, adresy alebo iné osobné informácie z internetových stránok a tieto údaje môže vygenerovať pri vhodnom prompte.
Nedostatočná kontrola nad údajmi
Problém: Používatelia nevedia, aké osobné údaje AI systém obsahuje alebo ako ich môžu kontrolovať.
Príklad: Ak sa vaše meno a informácie nachádzajú v trénovacích dátach ChatGPT, nemáte jednoduchý spôsob, ako zistiť, aké konkrétne údaje o vás model obsahuje.
Problémy s právom na výmaz
Technická výzva: Na rozdiel od tradičných databáz je technicky veľmi náročné alebo nemožné vymazať konkrétne osobné údaje z natrénovaného modelu.
Ilustrácia problému: Ak požiadate o vymazanie svojich údajov, AI spoločnosť môže vymazať váš účet, ale informácie "zapamätané" v modeli zostanú.
Útoky na získanie údajov
Riziko: Útočníci môžu použiť špeciálne techniky na vyvolanie úniku osobných údajov z modelu.
Konkrétny príklad: Výskumníci ukázali, že opakovaným zadávaním určitého slova možno prinútiť ChatGPT, aby odhalil časti svojich trénovacích dát vrátane osobných informácií.
Nedostatočná transparentnosť
Problém: Používatelia často nevedia, že ich údaje sa používajú na trénovanie AI alebo akým spôsobom.
Skutočný príklad: Mnohé AI systémy zbierajú údaje z verejných zdrojov bez informovania dotknutých osôb.
Praktické príklady rizík zo života
Samsung a únik firemných dát
V roku 2023 zamestnanci Samsungu neúmyselne zdieľali dôverné zdrojové kódy so systémom ChatGPT pri pokuse o riešenie technických problémov. Tento incident ukázal, ako ľahko môže dôjsť k úniku citlivých informácií.
Lekárske záznamy a zdravotné údaje
Používanie AI nástrojov na analýzu zdravotných záznamov bez primeraných bezpečnostných opatrení môže viesť k porušeniu lekárskeho tajomstva a GDPR.
Personálne procesy
Spoločnosti používajúce AI na analýzu životopisov môžu neúmyselne vystaviť osobné údaje uchádzačov o zamestnanie ďalšiemu spracovaniu.
Odporúčania pre organizácie
1. Preventívne opatrenia
Implementovať privacy by design princípy
Vykonať dôkladné DPIA pred nasadením AI systémov
Zabezpečiť minimalizáciu údajov vo všetkých fázach
2. Technické riešenia
Používať anonymizáciu a pseudonymizáciu
Implementovať federated learning pre lokálne spracovanie (poznámka: technická úloha, ktorá spája dva kľúčové koncepty: Federated Learning (Federované učenie) a Lokálne spracovanie (On-device/Local Processing). V podstate ide o to, vytvoriť systém, kde sa model umelej inteligencie (AI) trénuje priamo na zariadeniach používateľov (napr. na mobiloch, v nemocniciach, v autách) bez toho, aby sa citlivé dáta posielali na centrálny server. Ide o to navrhnúť a postaviť decentralizovaný systém, ktorý umožňuje trénovať AI model na dátach rozptýlených po mnohých zariadeniach tak, aby bola zachovaná maximálna ochrana súkromia týchto dát).
Aplikovať diferenčné súkromie (differential privacy) – (poznámka: znamená implementovať silnú, matematicky dokázateľnú formu ochrany súkromia (matematický šum) pri analýze dát. Cieľom nie je skryť dáta samotné, ale skryť účasť ktoréhokoľvek jednotlivca v dátovej sade. Inými slovami, analýza (napr. štatistika alebo tréning AI modelu) by mala dať takmer identický výsledok, či už vaše osobné dáta v tej sade sú, alebo nie sú. Tým pádom nie je možné z výsledku odvodiť informácie o konkrétnej osobe).
3. Organizačné opatrenia
Školiť zamestnancov o bezpečnom používaní AI
Vytvoriť jasné politiky používania AI nástrojov
Zabezpečiť pravidelné audity AI systémov
4. Právne požiadavky
Uzavrieť DPA - Data Processing Agreements s AI poskytovateľmi
Zabezpečiť zákonný základ pre spracovanie
Implementovať mechanizmy pre výkon práv dotknutých osôb
Záver
AI a LLM predstavujú mocné nástroje s obrovským potenciálom, ale ich používanie s osobnými údajmi vyžaduje mimoriadnu opatrnosť. Kľúčom k úspešnému a zákonnému využívaniu týchto technológií je:
Hlboké pochopenie procesov spracovania údajov v AI systémoch
Proaktívny prístup k implementácii ochranných opatrení
Kontinuálne vzdelávanie o vyvíjajúcich sa rizikách a riešeniach
Úzka spolupráca s právnymi a bezpečnostnými expertmi
Pre slovenské organizácie je dôležité pamätať, že GDPR nie je prekážkou inovácie, ale rámcom pre zodpovedný rozvoj AI technológií, ktoré rešpektujú základné práva jednotlivcov. Investícia do správneho prístupu k ochrane údajov v AI nie je len právnou povinnosťou, ale aj konkurenčnou výhodou, ktorá buduje dôveru zákazníkov a minimalizuje regulačné riziká.