22. 2. 20245 minut

Jsem SORA, popište mi, jaký film chcete natočit

Nová umělá inteligence pro tvorbu videa může změnit filmovou branži a zvýšit riziko dezinformací

Tým archeologů vykope v poušti plastovou židli, která létá. Pes s brýlemi na očích si fotí na pláži selfíčka. Realisticky vyhlížející záběry terénního auta projíždějícího krajinou na svazích hor porostlých borovými lesy. Scéna ze života kalifornského městečka za časů zlaté horečky. To jsou náměty některých z videí vygenerovaných novou umělou inteligencí Sora od firmy Open AI.

Když na přelomu let 2022 a 2023 začal svět mluvit o jejím chatbotu ChatGPT, karty se zdály být rozdány jasně: Ve vývoji umělé inteligence došlo k obrovskému průlomu, ovšem pouze ve schopnosti generovat text. Zhruba před rokem si pak veřejnost povšimla, že AI dokáže vytvářet i realisticky vyhlížející fotografie. Ale video?

Až jedna minuta

↓ INZERCE

První pokusy ukazovaly zrnité jednoduché scény, například záběry ohňostrojů – nic, co by se dalo rozumně použít. Výrazný pokrok se zdál být věcí vzdálené budoucnosti. Rok se ale s rokem sešel a je tady Sora, umělá inteligence pojmenovaná po japonském výrazu pro nebe, která umí podle krátkého textového zadání vytvořit realisticky vyhlížející video, zatím o délce až jedné minuty.

Sora nemá žádnou obrazovou databázi, ze které by vybírala jednotlivé záběry třeba podle klíčových slov. Textovému zadání skutečně rozumí – přinejmenším v tom smyslu, aby podle něj dokázala vytvořit model světa a pak jej převedla do filmových obrazů. Firma Open AI zatím neprozradila, na jakých datech Soru trénovala. Oznámila jen, že to byl jak volně dostupný obsah, tak obsah, který pro tyto účely nakoupila a zaplatila za něj.

Některá z videí připomínají známé animované filmy, třeba Dobu ledovou, jiná navozují atmosféru filmů hraných, například Blade Runner. K vidění jsou i záběry, u nichž na první pohled prakticky nelze poznat, že nejde o reálnou scénu nasnímanou kamerou. Některá videa se skládají z různých záběrů, nikoli jen z jednoho, který se vyvíjí v čase – a ohromují množstvím detailů scenerie v pozadí.

Technologie, která zatím není přístupná veřejnosti, ale pouze odborníkům, kteří ji testují, zároveň dělá i chyby: úsměvný je třeba záběr ženy kráčející ulicemi Tokia, jejíž nohy při některých krocích nemíjejí jedna druhou, ale překříží se a jedna druhou „projdou“. Není ale důvod nevěřit, že se Sora v chápání a zobrazování světa bude rychle zlepšovat. Což vyvolává obavy.

Firma Open AI „díla“ Sory označuje, ale „cejch“ jde prý snadno odstranit. Lze si tak představit záplavu deep fake videí generovaných prostě tím, že zadavatel napíše do počítače krátký text. Ve zmatcích vrcholící volební kampaně už nikdo nebude vědět, co je pravda a co lež. Americká média se obávají také falšování důkazů u soudu a různých souvisejících nespravedlností: když obžaloba předloží falešné usvědčující záběry z „mobilního telefonu“, soudce nepozná, zda jsou pravé. O vině a trestu pak může rozhodovat i to, zda bude mít obviněný peníze na zaplacení expertizy, která by podvod odhalila.