Generativní AI, rizika pro ochranu údajů a jak jim předcházet

Co to vlastně je generativní umělá inteligence (AI), jak pracuje, co umí a co neumí? Jaká jsou její rizika obecně a pro ochranu osobních údajů zvláště?

Generativní AI, rizika pro ochranu údajů a jak jim předcházet

Vznik tzv. generativní umělé inteligence („GenAI“) je dalším technologickým stupněm systémů pracujících s daty. Systémy GenAI se prostřednictvím strojového učení ze zdrojových dat učí pracovat s tzv. vstupními daty, neboli daty vloženými uživatelem systému GenAI, a na jejich základě vytvářejí nová (původní/originální) data.

Poradenská společnost McKinsey ve svém nedávném průzkumu odhaduje, že dopad užití systémů GenAI na produktivitu uživatelů těchto systémů (včetně B2B segmentu) by mohl přinést roční růst globální ekonomiky o 2,6 – 4,4 trilionů amerických dolarů.

S rostoucím využíváním systémů GenAI roste i nutnost řešit otázkyy rizik souvisejících s ochranou osobních údajů. Evropská unie pracuje na samostatné regulaci, AI Actu, která některé otázky vyjasní.  AI nástroje ale na regulaci nečekají a jejich využití strmě roste. Proto je vhodné popsat si alespoň ta hlavní rizika z pohledu ochrany osobních údajů. 

Co je GenAI?

Google: „GenAI označuje použití umělé inteligence k vytváření nového obsahu, jako je text, obrázky, hudba, zvuk a videa.

McKinsey: „GenAI označuje algoritmy (jako je ChatGPT), které lze použít k vytváření nového obsahu, včetně zvuku, kódu, obrázků, textu, simulací a videí.

IBM: „GenAI označuje modely hlubokého učení (tzv. deep-learning models), které dokážou generovat vysoce kvalitní text, obrázky a další obsah na základě dat užitých k jejich učení.

Zjednodušeně řečeno, GenAI je kategorií systémů umělé inteligence využívající složité algoritmy strojového učení, které slouží ke generování obsahu napodobujícího lidskou kreativitu. Typickými příklady je psaní textů, skládání hudby, malování obrazů či vizualizací, příprava prezentací atd.

Typy systémů GenAI

Na trhu existuje aktuálně několik typů systémů GenAI, které slouží různým účelům a tvoří součást kreativních aplikací. Patří mezi ně nástroje pro:

  • generování textu (např. ChatGPT, Google Gemini);

  • generování obrázků (např. Dall.E 2, Adobe Firefly);

  • generování hudby (např. AIVA, Soundful);

  • generování videa (např. Gen-1 Runway, Invideo);

  • generování hlasu (např. AI Voice Cloning Generator – ElevenLabs);

  • generování kódu (např. ChatGPT, GitHub Copilot);

  • přenos stylů;

  • návrh her;

  • syntézu dat.

Fungují tak, že generují odpovědi na příkazy (tzv. prompt) poskytnuté uživatelem. Systém GenAI bere při generování odpovědi (výstupu) v potaz výsledky předchozího zadání a algoritmy, které systému dále umožňují vytvořit kontextově relevantní a koherentní text, obrázek nebo jiný výstup. Generované odpovědi jsou založeny na vzorcích a informacích získaných během procesu učení systému GenAI, což systému umožňuje generovat kreativní výstupy založené na požadavku uživatele a obsahu uživatelem vložených vstupních dat.

Rizika spojená s GenAI

Užití systémů GenAI může představovat následující rizika pro ochranu osobních údajů:

  • Poručení zabezpečení osobních údajů: Pokud ten, kdo GenAI nástroj využívá, nepřijme odpovídající technická a organizační opatření k ochraně osobních údajů, může docházet k neoprávněnému přístupu či sdílení osobních údajů zpracovávaných v systému GenAI. Např. velké jazykové modely (tzv. LLMs) se učí na trilionech slov napříč jazykovým spektrem. Související studie naznačují, že LLMs představují vysoké riziko pro ochranu údajů obsažených v tzv. zdrojových datech, včetně zvláštních kategorií osobních údajů, užitých pro učení LLMs, které mohou být snad zneužity v případě porušení zabezpečení osobních údajů ze strany útočníků.

  • Nedostatečná anonymizace údajů: Systémy GenAI mohou pro: (i) učení svých modelů; a/nebo (ii) generování výstupů využívat osobní údaje, včetně zvláštních kategorií osobních údajů. Pro zvýšení efektivity učení modelu mohou být využívána tzv. syntetická data umožňující učení modelu na uměle vytvořených datasetech (neobsahujících osobní údaje). Syntetická data zajišťují vyšší robustnost a výkonnost modelu v případech, kdy není možné pracovat s tzv. real-world daty.

    Užití skutečných osobních údajů pro učení modelu bez dostatečné anonymizace představuje riziko, že model do generovaného výstupu promítne obsah zdrojových dat, včetně osobních údajů. V rámci B2B segmentu může mít takové pochybení za důsledek, že se uživatel systému stane správcem osobních údajů (čl. 24 GDPR) promítnutých v generovaném výstupu a ponese s nimi související povinnosti správce (srov. čl. 6, 9, 13 a násl. GDPR). To však platí jen v případě, že uživatel systému GenAI bude tyto výstupy obsahující osobní údaje nadále využívat (zpracovávat) pro své vlastní účely.

  • Zákonnost a transparentnost zpracování: Pokud provozovatelé systémů GenAI v rámci datasetů určených pro učení modelu a uživatelé ve vztahu ke vstupním údajům nezbytným pro generování výstupů nedisponují dostatečným právním základem pro zpracování údajů či neposkytují dostatečně transparentní informace subjektu údajů (např. rozsah shromažďovaných údajů, účely zpracování, sdílení se třetími stranami apod.), dochází k porušování práv subjektů údajů a ztrátě důvěry v daný systém GenAI. Příkladem je stížnost u polského dozorového úřadu vyšetřujícího otázky zákonnosti, transparentnosti a privacy-by-design systému ChatGPT společnosti OpenAI.  

  • Neadekvátnost uchování osobních údajů, neoprávněné sdílení údajů s třetími stranami a ovlivněné/diskriminační výstupy ze systému GenAI lze zařadit mezi rizika související s užitím zdrojových dat určených pro účení modelů a s nimi souvisejícími generovanými výstupy.

Jak chránit osobní údaje při využití GenAI?

Systémy a nástroje GenAI budou v mnoha případech po uživatelích vyžadovat přístup k údajům, včetně osobních údajů či zvláštních kategorií osobních údajů. Společnosti užívající systém GenAI z pozice zákazníka nesmí zapomenout přijmout nezbytná organizační opatření pro ochranu svých osobních údajů, ať už jsou jimi údaje zaměstnanců společnosti, jejich obchodních partnerů či klientů.

Typickými opatřeními jsou:

  • Smluvní záruky a garance: Společnosti uvažující o využití systému GenAI musí nejprve zvážit smluvní záruky a garance, které jejich poskytovatelé nabízejí. Pro případy, ve kterých lze reálně očekávat materializaci některého z výše uvedených rizik, je na místě, aby poskytovatel doložil nezbytné záruky ohledně dodržování zákonnosti zpracování, robustnosti bezpečnostních opatření a přesnosti a kvality zdrojových dat. V případě porušení těchto záruk by měl poskytovatel služby odpovídat za způsobenou škodu.

    Poskytovatelé systémů GenAI v praxi obvykle zaručují, že: (i) jejich systém GenAI nebude užívat osobní údaje zákazníků pro učení systému; (ii) systém GenAI je poskytován v souladu s právními předpisy na ochranu údajů; (iii) výstupy ze systému GenAI neobsahují osobní údaje; či (iv) užitím systému nedojde k porušení práv třetích osob (zejména ve vztahu k problematice autorského práva); apod.

  • Sandbox / testování systému GenAI: Existují-li pochybnosti o zákonnosti zpracování údajů v rámci systému GenAI, může společnost přistoupit k testování systému GenAI v rámci kontrolovaného omezeného provozu, tzv. sandboxu, nebo v omezeném pilotním provozu. V obou případech je vhodné nastavit interní podmínky pro využití daného nástroje a sledovat jejich dodržování. Mezi tyto podmínky může patřit: (i) zákaz vkládání osobních údajů či informací podléhajících obchodnímu tajemství; (ii) omezení přístupu pouze pro vybrané testovací týmy (implementace tzv. Access Control); (iii) monitoring funkcí systému GenAI, např. detekce vkládání či generování zakázaného obsahu; (iv) zamezení manipulace s výstupem ze systému GenAI, např. nemožnost uložení výstupu, apod.   

  • Užití systému GenAI pro komerční účely: Obdobně jako v případě sandboxu budou společnosti nuceny přijmout dodatečná opatření pro pokrytí rizik (souvisejících mimo jiné s vypořádáním autorských práv ke generovanému výstupu a ochranou osobních údajů obsažených ve vstupních datech) v případě komerčního užití systému GenAI, tj. zejména: (i) sjednat si dostatečné smluvní záruky s poskytovateli systémů GenAI; a (ii) implementovat interní postupy, procesy, kontroly, školení zaměstnanců pro mitigaci interních rizik. 

Systémy GenAI a pověřenec pro ochranu osobních údajů

Jaká témata, otázky a výzvy přináší stále se rozšiřující využití systémů GenAI pro pověřence pro ochranu osobních údajů? Zejména v organizacích, které tyto systémy nasazují nebo o jejich využití reálně uvažují?

  • GDPR compliance: Bez ohledu na komplexnost systémů GenAI a jejich implementaci do struktury a obchodního modelu společnosti, je hlavním úkolem pověřence (DPO) kontrolovat, zda veškeré zpracování osobních údajů prostřednictvím systému GenAI probíhá v souladu s GDPR, popřípadě dalšími právními předpisy na ochranu údajů.

  • Data Governance: DPO hraje hlavní roli v nastavení procesů kombinujících ochranu údajů (data protection) a strategickou správu dat (data governance).

  • Data Flow/Vstupní data: DPO musí mít povědomí a poskytovat společnosti poradenství o osobních údajích, které lze a nelze zpracovávat prostřednictvím systému GenAI.

  • Vývoj GenAI: DPO by měl sledovat vývoj GenAI a přizpůsobovat interní postupy a poradenství novým rizikům, které souvisí s technologickým vývojem umělé inteligence.

  • FRIA vyhodnocení rizik: S blížící se regulací umělé inteligence prostřednictvím AI Actu bude rolí DPO potenciálně přispívat k vyhodnocení rizik systému GenAI – Fundamental Rights Impact Assessment (FRIA), jehož cílem je obdobně jako v případě posouzení vlivu na ochranu osobních údajů (DPIA) ve vztahu k osobním údajům, posoudit rizika vyplývající z použití systému umělé inteligence pro společnost. Z praktického pohledu bude možné provést vyhodnocení rizik FRIA a DPIA v rámci jednoho společného posouzení a rovněž využití zkušeností a znalostí pověřence s tímto způsobem řízení rizik.    

Vliv dozorových úřadů na faktickou regulaci GenAI

Stěžejní roli v regulaci GenAI v současné době hrají dozorové úřady pro ochranu osobních údajů. Vzhledem ke zvyšující se míře užívání systémů GenAI (a umělé inteligence obecně) přistoupily dozorové úřady v rámci plnění úkolů a výkonu svých pravomocí ke kontrolám týkajícím se zpracování osobních údajů v systémech GenAI, či přijaly lokální strategie a přístupy pro vypořádání se s technologickým rozvojem AI. Například francouzský dozorový úřad CNIL jako první zřídil specializované oddělení na problematiku AI v EU.

Aktuálně jsou známa pouze nápravná opatření přijatá vůči OpenAI (ChatGPT) v Itálii a v Jižní Korei. Italský dozorový úřad (Garante) vydal 30. března 2023 nouzový příkaz k zákazu zpracování osobních údajů [čl. 58 odst. 1. písm. f) GDPR] společností OpenAI v Itálii. Důvodem bylo potenciální porušení GDPR ve vztahu k zákonnosti a transparentnosti zpracování, uplatnění práv subjektu údajů, zpracování osobních údajů dětí a bezpečnostni dat. Garante zákaz o měsíc později zrušil, jakmile OpenAI oznámila implementace požadavků dozorového úřadu. Vyšetřování však stále probíhá.

Evropský sbor pro ochranu osobních údajů (EDPB) v návaznosti na vydání příkazu italským dozorovým úřadem vytvořila EDPB dne 13. dubna 2023 pracovní skupinu na „podporu spolupráce a výměny informací“ ve vztahu k vyřizování stížností a vyšetřování OpenAI a ChatGPT na úrovni EU.

Vyšetřování některých provozovatelů AI nástrojů však probíhají dále i v Kanadě, Španělsku, Polsku, Japonsku a Spojených státech.

Až do konečného přijetí AI Actu, vyjasnění všech pravidel a určení úřadů, které budou jejich dodržování kontrolovat, je důležité pečlivě sledovat aktivity a závěry dozorových úřadů pro ochranu osobních údajů. Ty totiž aplikují už existující regulaci, GDPR, kterým se musí řídit každý, kdo GenAI systémy hodlá využívat.