GDPR vs. AI modely

AI a LLM prinášajú nové možnosti, no aj riziká pre súkromie. Ako ich zosúladiť s Dohovorom 108+ a GDPR? Prehľad rizík a odporúčaní.

Grafická vizualizace AI modelu

AI so svojimi LLM rýchlo transformujú digitálne prostredie tým, že umožňujú nové formy interakcie, automatizácie a spracovania informácií. Tieto systémy však predstavujú aj riziká pre ochranu súkromia a údajov, ktoré spochybňujú tradičné právne a technické záruky.

Patria medzi ne, okrem iného, neúmyselné zapamätanie a reprodukcia osobných údajov, náchylnosť na manipuláciu počas inferencie a širšia erózia súkromného života prostredníctvom syntetických identít, profilovania a neprehľadnosti pri rozhodovaní.

 Dohovor č. 108+ poskytuje základný právny rámec na riešenie týchto výziev. Jeho princípy zostávajú technologicky neutrálne, no LLM vyvolávajú nové otázky, ako ich efektívne implementovať.

Čo je to Dohovor č. 108?

Oficiálne označovaný ako "modernizovaný Dohovor 108" alebo "Protokol CETS 223", je aktualizovaná verzia pôvodného Dohovoru Rady Európy č. 108 o ochrane jednotlivcov pri automatizovanom spracovaní osobných údajov z roku 1981. Na rozdiel od GDPR, ktoré sa vzťahuje len na EÚ, Dohovor 108+ je otvorený pre všetky štáty sveta. Momentálne ho ratifikovalo 55 štátov, vrátane všetkých členov Rady Európy, ale aj mimo-európske krajiny ako Argentina, Mexiko, Maroko, Tunisko a Uruguay. 

Napríklad, zatiaľ čo článok 1 nariadenia GDPR potvrdzuje právo jednotlivca na súkromie a článok 2 definuje kľúčové pojmy, ako sú osobné údaje a spracovanie údajov, tak rozsah a neprehľadnosť školení a optimalizácie LLM komplikuje dodržiavanie predpisov.

Často nie je jasné, či sa osobné údaje nachádzajú v súboroch údajov o odbornej príprave alebo ako sa následne používajú, čo sťažuje posúdenie a presadzovanie záruk podľa článku 5 GDPR, ako je obmedzenie účelu, minimalizácia údajov a spravodlivosť.

Táto výzva sa stáva ešte naliehavejšou v súvislosti s osobitnými kategóriami údajov podľa článku 6 GDPR, kde môže dôjsť k nekontrolovanému získavaniu alebo vytváraniu citlivých informácií vrátane údajov o zdravotnom stave, politických názoroch alebo biometrických charakteristikách bez vedomia prevádzkovateľa.

Podobne aj povinnosti týkajúce sa bezpečnosti a transparentnosti údajov stanovené v článkoch 7 a 8 GDPR sú napäté v kontexte LLM, kde je správanie systémov založených na LLM pri odvodzovaní dynamické a nie úplne predvídateľné.

 Informovanie dotknutých osôb alebo identifikácia zodpovedných prevádzkovateľov v takýchto vrstvených architektúrach zostáva pretrvávajúcim nedostatkom v riadení. Systémy založené na LLM podkopávajú zmysluplný prístup a kontrolu jednotlivcov, ako je zaručené v článku 9 GDPR. Keď sú totiž výstupy len pravdepodobnostné, tak je ťažké zaručiť práva na opravu, námietku alebo vysvetlenie automatizovaných výstupov alebo rozhodnutí.

Absencia pozorovateľných stôp údajov a prístupných používateľských rozhraní ďalej obmedzuje schopnosť jednotlivcov vedieť, kedy boli ich údaje použité, nieto ešte ich spochybniť alebo opraviť. To vyvoláva vážne obavy o to, či sa základné ustanovenia dohovoru č. 108+ môžu v praxi dodržiavať bez doplnkových technických a procesných záruk.

Keďže systémy založené na LLM sa čoraz viac prijímajú v kontextoch, ako je nábor, vzdelávanie, zdravotná starostlivosť a verejná správa a pod., tak potreba zachovať a presadzovať tieto práva sa stáva naliehavejšou.

Je preto pozitívne, že existuje už správa, ktorá zhrnuje riziká ochrany súkromia pri LLM:

  • Správa analyzuje, ako používanie veľkých jazykových modelov (LLMs) ohrozuje práva podľa Dohovoru 108+ (zákonnosť, minimalizácia, transparentnosť, práva dotknutých osôb).

  • Cieľom je ponúknuť metodiku na mapovanie a manažment rizík počas celého životného cyklu LLM systémov – od zberu dát až po nasadenie a následné monitorovanie.

  • Vychádza z rozhovorov so stakeholdermi (technologické firmy, deployeri, regulačné orgány, výskumné inštitúcie), ktoré ukázali nejednotnosť existujúcich prístupov a potrebu harmonizácie.

 Zároveň sa správa zameriava aj na technické základy a vnútorné spracovanie dát:

  • LLM prekladajú slová na vektory (word embeddings) vyjadrujúce ich kontextovú podobnosť, čo môže viesť k neželaným spojeniam osobných údajov s menami.

  • Mechanistická interpretabilita (dictionary learning) odhaľuje, ako sú koncepty komprimované v sieťach – napr. aktivácia “Inner Conflict” alebo “Margaret Thatcher” vnútri modelu.

  • Tieto poznatky umožňujú nielen lepšie pochopiť riziká memorovania citlivých informácií, ale otvárajú cesty k úpravám či deaktivácii interných reprezentácií. 

Správa identifikuje aj hlavné typy rizík ochrany súkromia:

  •  Modelové riziká

    • Memorovanie a neúmyselné regurgitácie citlivých údajov (poznámka: proces, pri ktorom model reprodukuje presné alebo takmer presné úseky textu zo svojich tréningových dát. Inými slovami, model negeneruje nový, originálny obsah na základe naučených vzorcov, ale iba „vyvráti“ (regurgituje) niečo, čo si doslovne zapamätal.

    • Halucinácie a šírenie nepravdivých či poškodzujúcich informácií

    • Zosilňovanie biasov prítomných v dátach

  • Systémové riziká

    • Neprehľadné API, slabá bezpečnosť endpointov

    • Persistentné profilovanie cez “memory” funkcie, RAG a agentické workflow

    • Nedostatočné mechanizmy súhlasu a ochrán používateľských práv

  • Štrukturálne dopady

    • Eroziu súkromia, identity a dôvery v digitálnu komunikáciu

    • Možnosť manipulácie či dezinformácie prostredníctvom syntetických profilov

 Riziká naprieč životným cyklom LLM: 

  1. Tréning a zber dát - Nekontrolovaný scrapping verejných zdrojov vedie k memorovaniu identifikovateľných informácií.

  2. Post-tréning a fine-tuning - Dodatočné úniky dát pri nedostatočnej transparentnosti doladenia modelu.

  3. Inference a interakcia - Útoky typu jailbreaking, prompt injection či nepredvídateľné odpovede modelu.

  4. System-level integrácia - Slabé zabezpečenie RAG architektúr, middleware a plug-inov.

  5. Post-deployment monitoring - Neustále zberanie spätnej väzby bez riadneho informovania používateľov a bez dopadu ich práv na prístup, opravu či výmaz.

 Jedna vec je identifikovať riziká, druha vec je ale prijať aj nápravné opatrenia. Prístupy k zmierneniu rizík a ich obmedzení sú napr.:

  • Zmenšenie modelu a deduplikácia dát znižujú síce memorovanie, no obmedzujú schopnosť spracovať komplexný kontext a RAG aplikácie.

  • Mechanistická interpretabilita dokáže identifikovať neuronové vzory súvisiace s osobnými údajmi, ale jej škálovanie na veľké modely je náročné.

  • Federované doladenie s diferenciálnou ochranou (DP-LoRA) ponúka lepšie súkromie, no často degraduje výkon modelu.

  • Filtre či unlearning techniky pri výstupe nestačia proti sofistikovaným útokom, ktoré sa dajú obísť promptami.

 Výsledky rozhovorov so stakeholdermi:

  • Interné procesy sú fragmentované, chýba jednotná metodika hodnotenia rizík.

  • Väčšina organizácií nedisponuje úplným prehľadom o pôvode a ďalšom využití tréningových aj interakčných dát.

  • Potreba pilotných projektov na overenie navrhovaného rámca a praktické nástroje pre nepretržité hodnotenie rizík.

Návrh rámca manažmentu rizík ochrany súkromia: 

  • Prístup založený na životnom cykle LLM (ISO/IEC 22989): od zberu dát, tréningu, doladenia, nasadenia až po post-deployment monitoring.

  • Kombinácia technických aj organizačných opatrení v súlade s Dohovorom 108+, EDPB a medzinárodnými štandardmi (AI Treaty).

  • Kľúčové komponenty:

    1. Vydefinovanie taxonómie rizík a kategorizácia osobných údajov v kontexte LLM.

    2. Dvojúrovňové hodnotenie (model vs. systém).

    3. Priebežné testovanie a monitoring pomocou pilotných overení.

    4. Transparentnosť a zapojenie všetkých zainteresovaných strán.

Ako AI a LLM spracúvajú osobné údaje?

Štvorfázový proces spracovania

Na základe prezentovanej schémy možno proces spracovania v LLM rozdeliť do štyroch kľúčových krokov:

Krok 1: Spracovanie používateľských vstupov

Keď zadáte otázku do ChatGPT alebo podobného systému, váš text sa transformuje na „tokeny" - malé časti textu, ktoré model rozumie. Tieto tokeny sa následne prekódujú do číselnej reprezentácie.

Krok 2: Trénovanie na textových dátach

Systém je natrénovaný na obrovských množstvách textových dát z internetu, kníh, článkov a ďalších zdrojov. Tu sa môžu nachádzať aj osobné údaje bez vedomia ich majiteľov.

Krok 3: Neurálna sieť a spracovanie

Neurálna sieť využíva komplexné algoritmy na analýzu vzorcov v dátach a generovanie pravdepodobnostných odpovedí na základe naučených informácií.

Krok 4: Generovanie výstupu

Systém produkuje text, ktorý môže neúmyselne obsahovať osobné údaje z trénovacích dát alebo používateľských vstupov.

GDPR a AI: Základné princípy

  1. Aplikovateľnosť GDPR

 GDPR sa vzťahuje na AI systémy vždy, keď spracúvajú osobné údaje. To zahŕňa:

  • Údaje použité na trénovanie modelov

  • Informácie zadané používateľmi

  • Údaje "zapamätané" v modeli

  • Výstupy obsahujúce osobné informácie

  1. Kľúčové princípy GDPR pre AI

  •  Zákonnosť, férovosť a transparentnosť - AI systémy musia mať jasný právny základ pre spracovanie osobných údajov a používatelia musia byť informovaní o tom, ako sa ich údaje používajú.

  •  Minimalizácia údajov - Princíp vyžaduje zbieranie a spracovanie len tých údajov, ktoré sú nevyhnutné pre konkrétny účel. Pre AI systémy to znamená:

    • Používanie len relevantných trénovacích dát

    • Odstránenie nepotrebných osobných informácií

    • Implementácia techník anonymizácie

  1. Presnosť údajov

AI modely musia zabezpečiť presnosť spracovávaných údajov, čo je problematické kvôli tendencii LLM generovať nepresné informácie.

  1. Obmedzenie uloženia

Osobné údaje nemožno uchovávať dlhšie, ako je nevyhnutné. Pre AI systémy to znamená definovanie jasných lehôt uchovávania.

 Identifikácia hlavných rizík a trenice s GDPR

Memorovanie a "regurgitácia" údajov

Čo to znamená: LLM si môžu "zapamätať" osobné údaje z trénovacích dát a neskôr ich neúmyselne reprodukovať v odpovediach iným používateľom.

Príklad rizika: Model natrénovaný na verejných textoch môže obsahovať telefónne čísla, adresy alebo iné osobné informácie z internetových stránok a tieto údaje môže vygenerovať pri vhodnom prompte.

 Nedostatočná kontrola nad údajmi

Problém: Používatelia nevedia, aké osobné údaje AI systém obsahuje alebo ako ich môžu kontrolovať.

Príklad: Ak sa vaše meno a informácie nachádzajú v trénovacích dátach ChatGPT, nemáte jednoduchý spôsob, ako zistiť, aké konkrétne údaje o vás model obsahuje.

 Problémy s právom na výmaz

Technická výzva: Na rozdiel od tradičných databáz je technicky veľmi náročné alebo nemožné vymazať konkrétne osobné údaje z natrénovaného modelu.

Ilustrácia problému: Ak požiadate o vymazanie svojich údajov, AI spoločnosť môže vymazať váš účet, ale informácie "zapamätané" v modeli zostanú.

 Útoky na získanie údajov

Riziko: Útočníci môžu použiť špeciálne techniky na vyvolanie úniku osobných údajov z modelu.

Konkrétny príklad: Výskumníci ukázali, že opakovaným zadávaním určitého slova možno prinútiť ChatGPT, aby odhalil časti svojich trénovacích dát vrátane osobných informácií.

Nedostatočná transparentnosť

Problém: Používatelia často nevedia, že ich údaje sa používajú na trénovanie AI alebo akým spôsobom.

Skutočný príklad: Mnohé AI systémy zbierajú údaje z verejných zdrojov bez informovania dotknutých osôb.

Praktické príklady rizík zo života

Samsung a únik firemných dát

V roku 2023 zamestnanci Samsungu neúmyselne zdieľali dôverné zdrojové kódy so systémom ChatGPT pri pokuse o riešenie technických problémov. Tento incident ukázal, ako ľahko môže dôjsť k úniku citlivých informácií.

Lekárske záznamy a zdravotné údaje

Používanie AI nástrojov na analýzu zdravotných záznamov bez primeraných bezpečnostných opatrení môže viesť k porušeniu lekárskeho tajomstva a GDPR.

Personálne procesy

Spoločnosti používajúce AI na analýzu životopisov môžu neúmyselne vystaviť osobné údaje uchádzačov o zamestnanie ďalšiemu spracovaniu.

Odporúčania pre organizácie

1. Preventívne opatrenia

  • Implementovať privacy by design princípy

  • Vykonať dôkladné DPIA pred nasadením AI systémov

  • Zabezpečiť minimalizáciu údajov vo všetkých fázach

2. Technické riešenia

  • Používať anonymizáciu a pseudonymizáciu

  • Implementovať federated learning pre lokálne spracovanie (poznámka: technická úloha, ktorá spája dva kľúčové koncepty: Federated Learning (Federované učenie) a Lokálne spracovanie (On-device/Local Processing). V podstate ide o to, vytvoriť systém, kde sa model umelej inteligencie (AI) trénuje priamo na zariadeniach používateľov (napr. na mobiloch, v nemocniciach, v autách) bez toho, aby sa citlivé dáta posielali na centrálny server. Ide o to navrhnúť a postaviť decentralizovaný systém, ktorý umožňuje trénovať AI model na dátach rozptýlených po mnohých zariadeniach tak, aby bola zachovaná maximálna ochrana súkromia týchto dát).

  • Aplikovať diferenčné súkromie (differential privacy) – (poznámka: znamená implementovať silnú, matematicky dokázateľnú formu ochrany súkromia (matematický šum) pri analýze dát. Cieľom nie je skryť dáta samotné, ale skryť účasť ktoréhokoľvek jednotlivca v dátovej sade. Inými slovami, analýza (napr. štatistika alebo tréning AI modelu) by mala dať takmer identický výsledok, či už vaše osobné dáta v tej sade sú, alebo nie sú. Tým pádom nie je možné z výsledku odvodiť informácie o konkrétnej osobe).

3. Organizačné opatrenia

  • Školiť zamestnancov o bezpečnom používaní AI

  • Vytvoriť jasné politiky používania AI nástrojov

  • Zabezpečiť pravidelné audity AI systémov

4. Právne požiadavky

  • Uzavrieť DPA - Data Processing Agreements s AI poskytovateľmi

  • Zabezpečiť zákonný základ pre spracovanie

  • Implementovať mechanizmy pre výkon práv dotknutých osôb

Záver

AI a LLM predstavujú mocné nástroje s obrovským potenciálom, ale ich používanie s osobnými údajmi vyžaduje mimoriadnu opatrnosť. Kľúčom k úspešnému a zákonnému využívaniu týchto technológií je:

  • Hlboké pochopenie procesov spracovania údajov v AI systémoch

  • Proaktívny prístup k implementácii ochranných opatrení

  • Kontinuálne vzdelávanie o vyvíjajúcich sa rizikách a riešeniach

  • Úzka spolupráca s právnymi a bezpečnostnými expertmi

 Pre slovenské organizácie je dôležité pamätať, že GDPR nie je prekážkou inovácie, ale rámcom pre zodpovedný rozvoj AI technológií, ktoré rešpektujú základné práva jednotlivcov. Investícia do správneho prístupu k ochrane údajov v AI nie je len právnou povinnosťou, ale aj konkurenčnou výhodou, ktorá buduje dôveru zákazníkov a minimalizuje regulačné riziká.

Loading...