
Generált képek, videók
A képgenerálásról kívülállóknak
A mesterséges intelligencia már a spájzban van. Ez a kis dolgozat arra vállalkozik, hogy betekintést adjon azoknak, akik még nem ismerik ezt az új lehetőséget. Elsősorban a médiatartalmak fogyasztóira gondolok. Ma már annyira elterjedt a mesterséges intelligencia használata, hogy bizonyos szintű ismerete mindenkinek szükséges.
Olyan számítógépes programokról van szó, amelyek képesek elvégezni az emberek szellemi munkájának egy részét. Ez sokféle területre kiterjed. Az egyik fontos ilyen a médiatartalmak előállítása. Ennek két nagy csoportja van. Az egyik a szöveges, a másik az audiovizuális tartalom. A szövegekhez tartoznak a termékleírások, reklámszövegek, blogcikkek, e-bookok és hasonlók. A másik csoportot a képek, hangok és videók alkotják. Jelen írásban ez utóbbiakkal foglalkozok. A technika magyar neve mesterséges intelligencia, rövidítése MI. Angol neve Artificial intelligence, rövidítése: AI.
Generált képek
A képek előállítását generálásnak hívjuk. Ha előfizettél egy képgeneráló szolgáltatásra, bármilyen képet alkothatsz anélkül, hogy rajzolni vagy fotózni tudnál. Ezek a képek nagyon realisztikusak, fotószerűek is lehetnek. Sokszor a szakemberek is nehezen különböztetik meg ezeket a valódi fényképektől. A generáló program használata (egyszerűsítve) úgy megy, hogy beállítasz néhány jellemzőt egy menüben és beírod egy ablakba, hogy mi legyen a képen. Tehát szöveget kell írni. Ez ma még általában angol nyelvű, de megfelel egy egyszerű gépi fordítás is. Ezt a szöveget prompt-nak nevezik. A programok a szöveg alapján elkészítik a képet. Ezeknek a képeknek még nincs a magyar nyelvben korrekt neve. Az angolok egyszerűen geration-nak nevezik. Ezt fordíthatjuk generációnak, de ez nálunk mást jelent. Talán nevezhetnénk generátumnak, de ez majd idővel kialakul. A generált képeken gyakorlatilag bármi lehet. Nem véletlen, hogy a módszert előszeretettel használják a kreatív művészek. Egyre születnek a különös fantáziavilágok, sosem volt tájak, épületek, élőlények és hasonlók. Az ilyen képeken jól látni, hogy mesterséges alkotások, senki sem tekinti ezeket valóságnak.
Más a helyzet a fotószerű, realisztikus képekkel. Ezek első látásra fényképnek tűnnek. És itt jönnek a gondok. Eddig egy fényképen a valóságot láttuk. No jó, eddig is lehetett a témát elrendezni, manipulálni, volt Photoshop. De azért alapvetően valós dolgot fényképeztünk. Most viszont már lehet a képen egy sosem létezett tárgy, ember vagy jelenet. Valóságnak látszik.
Véleményem szerint a generált kép nem fotó. Bonyolítja a dolgot, hogy a promptok írói, a prompterek alkotásaikat gyakran fotónak nevezik, és fotóként használják. Ehhez komoly érdekük fűződik. Ha a nagyközönség elfogadja fényképnek a generátumokat, akkor ki tudják szorítani a médiából az igazi fotókat. Az üzlet az üzlet. Tény, hogy generálással gyorsabban, egyszerűbben és főleg olcsóbban lehet előállítani olyan képeket is, amiket kamerával csak nehezebben és drágábban. Előny, hogy a generátumokon szerepelhetnek olyan képelemek, helyszínek, tárgyak, állatok vagy emberek, amik a valóságban nem is léteznek. Nem véletlen, hogy ezeket előszeretettel használják a fake news médiában, a lájkvadász oldalak promóciójánál és a valótlan állításokkal operáló marketingben. Csak annyit tanácsolhatok a hazugságot nem kedvelőknek, hogy tekintsenek fenntartásokkal a túl szép, túl különös, vagy szokatlan helyzetek, emberek bemutatására. Ma már semmi sem az, aminek látszik. A valóság elavult.
Érdemes egy pillantást vetni a generáló programok működésére. Persze csak az alapsémára. Ezek a programok a szolgáltató szerverein működnek. A felhasználó gépén csak egy kliensprogram van, ami kapcsolatot tart a szerverrel. Ahhoz, hogy a szolgáltatás beinduljon, a szervernek hatalmas képadatbázisra van szüksége valós fotókból. Ezeket főként az internetről gyűjtik be. A képeket ellátják kulcsszavakkal, hogy a program tudja, mi van rajtuk. Ezt a műveletet hívják betanításnak. Amikor valaki megír egy promptot, a program kiválaszt az adatbázisból többszáz vagy többezer olyan képet, amelyek megfelelnek a kifejezésnek. A képeket szétszedi kisebb elemekre és ezekből állítja össze az új képeket. Ebben a műveletben vannak random lépések is. Ezért lesz minden generált kép más. Ha olyan kifejezést használ valaki, amihez nincs kép az adatbázisban, az nem készül el. A generálás során a program külön kezeli a kép témáját és a stílusát. Ezért egy adott motívumot el lehet készíteni különböző stílusokban.
Jogi kérdések
A művelet során az alapképek annyira szét lesznek szedve, hogy az alkotóiknak a jelenlegi szabályozás szerint már nincs semmiféle szerzői joga. A jogi kérdésekben sok a tisztázatlan részlet, jelenleg egyeztetések folynak. Ki a tulajdonosa a generált kép szerzői jogának? Jelenleg úgy áll a helyzet, hogy leginkább a prompt íróját tekintik alkotónak, szerzőnek.
Generált videók
Természetesen nemcsak állóképeket lehet mesterségesen létrehozni. Talán a leggyorsabban fejlődő területet a generált videók jelentik. El lehet készíteni a helyszínt, a szereplőket, azok viselkedését, mozgását. Ha például valaki beszél a videón, akkor generálhatók a gesztusok, az arcjáték és a szájmozgás is. Ez utóbbi teljesen szinkronba hozható az elhangzó szöveggel.
A videók hangja is generált. Ez felöleli a zenét, a zajokat és a beszédet is. Külön programok vannak az írott szöveg narrációvá alakítására. Ezeknél lehet választani különböző emberi hangokat, hangszíneket. Be lehet állítani a beszéd jellegét, hangsúlyozását. Lehet használni valós, élő emberek hangját is. Elegendő, ha van valakitől néhány percnyi hangfelvétel. Ezt beadhatjuk a programnak és utasíthatjuk, hogy ezen a hangon mondjon el egy megírt szöveget. Nemcsak a hangszínt másolja le, hanem a beszéd dinamikáját, dallamát is. Tökéletes lesz az illúzió. Szép, új világ?
A generált videók felhasználási területei ma még beláthatatlanok. Nagyban megkönnyíthetik az életünket, de durván vissza is lehet velük élni. Már vannak olyan szolgáltatók, amelyek készítenek vállalkozóknak generált üzleti videókat. Ezeken az illető élethű avatarja megjelenhet, beszélhet, bármit elmondhat. Mindezt anélkül, hogy bármikor is kamera elé állt volna. A sminkesek és fodrászok kissé szomorúak. Nagy lehetőségei vannak a mozgóképnek az oktatásban, az etikus marketingben, és a szórakoztatásban is.
Publikálás, megjelölés
Jelenleg semmilyen jogszabály nem rendelkezik a generált képek és videók publikálásának módjáról. Sok AI programmal dolgozó művész feltünteti a képnél, hogy ez generatív alkotás (Generative art). Akik viszont félrevezetés céljából használják a technikát, azok nem tesznek semmilyen jelölést. Sőt sokszor arra utalnak, hogy ez valós felvétel. Például a címmel, a szövegkörnyezettel, vagy oda is írják.
Két példa
Mostanában sok olyan FB poszttal találkozok, amelyek egy fotószerű generált képpel valósnak látszó helyzetet mutatnak. Látunk valakit, egy szép szoborral faragással vagy más alkotással. A szöveg arra kér minket, hogy gratuláljunk neki, ha már ilyen nagyszerűt alkotott. A kommentekből az derül ki, hogy a felhasználók legalább 95%-a elhiszi, hogy valós a helyzet. Az ilyen posztok célja főként a kattintás és címgyűjtés. Ez látszólag ártatlan, de azért vannak ártalmas változatok is. Ezek közül a legdurvább, amivel találkoztam, egy álgyógyszer reklámvideója volt. Ezen a népszerű orvos, Zacher Gábor élethű avatarja beszél. Elmondja, hogy a cukorbetegség kezelésére használt inzulin káros, különböző bajokat okoz. Ezért ezt a kezelést abba kell hagyni (!!!). Helyette meg kell rendelni az ilyen-olyan tablettát, amitől meg is lehet gyógyulni. Ez egy életveszélyes hazugság! Úgy tűnik, Z.G. megtette, amit ebben a helyzetben tehet. Készített egy saját videót, amelyben elmondja, hogy ő soha nem reklámoz termékeket. Minden ilyen hazugság. Itt az idő, hogy a reklám és sajtójogi szabályozás reagáljon az új helyzetre.
Addig is élvezzük a kreatív művészek alkotásait, tanuljunk a szemléletes oktatóanyagokból, tájékozódjunk az etikus reklámokból. Bővítsük ismereteinket a témában, hogy fel tudjuk ismerni a csalásokat!