Razvoj orodij z umetno inteligenco neumorno prodira naprej. Podjetje OpenAI, ki je vse skupaj populariziralo s pomočjo storitve chatGPT, je najavilo nov model umetne inteligence. Ta zmore vzeti navodila v pisni obliki, ki jih posreduje uporabnik, in na podlagi teh izdelati fotorealistične videoposnetke. Novi model umetne inteligence so pri podjetju poimenovali Sora.

Pri OpenAI trdijo, da zmore Sora izdelati kompleksne prizore, v katerih nastopa več oseb. Ustvarjene osebe imajo lahko različne načine gibanja. Sora zmore na podlagi navodil ustvariti točne podrobnosti oseb in tudi okolice, v kateri se nahajajo. Podjetje trdi, da model (praviloma) razume, kako predmeti obstajajo v resničnem oziroma fizičnem svetu. Hkrati naj bi pravilno prikazoval tudi posamezne predmete, s katerimi imajo osebe v prizorih interakcije. Osebe, ki jih ustvari Sora, pa naj bi zmogle prikazovati pisan nabor čustev. Seveda je možno isto orodje uporabiti tudi za ustvarjanje animiranih prizorov.

Sora zmore za zdaj izdelati posnetke v dolžini ene minute. Če bi želeli s pomočjo umetne inteligence izdelati celoten celovečerni film, bi imeli s trenutno različico še vedno kar nekaj dela. Je pa stvar vsekakor zanimiva za krajše projekte. Denimo oglase, promocije, morda tudi videospote ali predstavitve. Seveda bi model znal biti priročen tudi kot orodje za ustvarjanje odsekov daljših videov, ki zahtevajo posebne učinke. Žal je s tehnologijo možno tudi enostavno ustvarjati vsebine, ki jih lahko nepridipravi izkoristijo za različne oblike zlorab. To je tudi eden od razlogov, zakaj je OpenAI zmogljivosti Sore za zdaj zgolj predstavil javnosti, niso pa še omogočili splošnega dostopa do tega orodja. Trenutno je na voljo zgolj varnostnim strokovnjakom, ki preverjajo nevarnosti in pasti orodja. Prav tako je podjetje orodje na test poslalo izbranim ustvarjalcem, da bi ocenili njegovo kvaliteto in uporabnost.

Težave s fizikalnimi zakoni kompleksnih prizorov

Ni pa novi model umetne inteligence uporaben zgolj za ustvarjanje novih vsebin. Med njegovimi zmogljivostmi je tudi dopolnjevanje obstoječih posnetkov. Sora zmore izdelati video na podlagi fotografije. Prav tako zmore dopolniti manjkajoče sličice v videu. To pomeni, da bi v teoriji lahko posnetek, zajet s 30 sličicami na sekundo, dopolnili z dodatnimi in omogočili bolj gladko sliko ali pa celo počasne posnetke. Sora zmore tudi nadaljevati video, ki se je na neki točki končal. To sicer ni trivialna zmogljivost. Obstaja velik del svetovnega spleta, ki že od prvih vidnejših podvigov umetne inteligence hrepeni po zmožnosti ustvarjanja neskončnih nadaljevanj slovite humoristične televizijske serije Seinfeld.

OpenAI je nekaj primerkov tega, kar zmore Sora, predstavil na spletni strani https://openai.com/sora. Čeprav gre za krajše videoposnetke, so večinoma izredno prepričljivi. Med drugim so predstavili nočni sprehod po razmočenih ulicah Tokia, tek mamutov po zasneženi pokrajini, zračni posnetek valov, ki se zaletavajo ob razgibano obalo, animacijo papirnatih morskih živali in še nekaj drugih. Še najmanj je prepričal posnetek dveh gusarskih ladij, ki kljubujeta razburkani skodelici kave.

Da so posnetki prepričljivi, skoraj ni presenečenje. Podjetja za tovrstne predstavitve praviloma izbirajo najboljše, kar jim je uspelo ustvariti. So pa pri OpenAI priznali, da se Sora včasih tudi zmede. Predvsem ima model lahko težave z razumevanjem fizikalnih zakonov zapletenih prizorov. Prav tako se zna zmesti glede vzrokov in posledic dogodkov na posnetkih.

Sora sicer ni edini model umetne inteligence za prevajanje besedil v videoposnetke. Svojo različico razvija tudi Google. Imenuje se Lumiere in (za zdaj) zmore ustvariti posnetke do 5 sekund. Napredek na tem področju pa bi se v bodoče znal še pospešiti.