Kimondott képek

Helyzetjelentés a Mesterséges Intelligenciáról

Szöveg: Bolgár Eszter, Szauder Dávid
Fotó: Szauder Dávid
Olvasási idő: 4 perc

„Teljesen leírja a világot, ha megadjuk az összes elemi kijelentést, s ezenfelül megadjuk azt, melyek közülük az igazak, és melyek a hamisak.” „Ha a mondatokat úgy fogjuk fel, mint előírásokat modellek megalkotásához, még világosabb lesz képszerűségük.”

/Wittgenstein/

Többrészes cikksorozatunk fókuszában a mesterséges intelligencia (MI) mint képalkotó módszer áll. Az MI felhasználási módjainak aktualitását, fejlődéstörténetét és jövőjét járjuk körül, a vizualitásra épülő szakmák szemszögéből. Az MI, túljutva az útkeresés korai fázisán (és a kezdeti hype-on), éppen most kezdhet valóban a szakmák javára válni. A platformok kezelése egyre egyszerűbb lesz, ugyanakkor a kifejezésmód egyre komplexebbé válik. A minőséget a tervező / művész ismeretanyaga, kreativitása és fantáziája szavatolhatja. Ez pedig minden bizonnyal megújítja az alkotói folyamatokat, a kreatív gondolkodást, és forradalmasítja magukat a produktumokat is.

Az elmúlt évben bizonyos mesterséges intelligenciára (MI) épülő technológiák mindenki számára elérhetővé váltak. Ezek a platformok az MI két fontos tulajdonságát egyesítik: a deep learninget és a nyelvismeretet. A mély gépi tanulás (deep learning) olyan mesterséges neurális hálózatokat jelent, amelyekben több rejtett réteg található, azaz „mély”, és ahol minden réteg egy másfajta, egyre absztraktabb reprezentációját képes adni a bemeneti adatnak. Gondoljunk csak bele, 750 billió képadat van fent jelenleg a világhálón, és 1,8 billióval bővül naponta a feltöltött képek tárháza. Ebből az irdatlan adatmennyiségből merítenek az MI-re épülő technológiák oly módon, hogy a képekhez kulcsszavak kapcsolódnak. A képek, és a hétköznapi leíró nyelv egymáshoz rendelése által a lehető legegyszerűbben tudunk vizuális tartalmakat létrehozni.

A zsiráf prompt a Midjourney rendszerben

A zsiráf prompt a DALL-E2 rendszerben

A zsiráf prompt a Stable Diffusion rendszerben

Amikor MI felhasználásával alkotunk képet, úgynevezett promptokat adunk meg. Minél árnyaltabban fogalmazunk, annál összetettebb, pontosabb képét kapjuk annak, amit elképzeltünk. A képadatokkal dolgozó technológiák közül, ami a pontosságot és összetettséget illeti, a 2022. eleje óta hozzáférhető amerikai start up, a Midjourney jutott a legmesszebbre, igaz ha minőségi munkát akarunk végezni, évi 288 (havi 48) USA dollárt kell fizetnünk. Ugyanakkor az ingyenes svájci-amerikai Stable Diffusion is sok új lehetőséget nyújt. Képes videók és egyszerű animációk létrehozására. Ezeken kívül a Dall-E, később a Dall-E 2 érhető el jelen pillanatban a piacon, amelynek fejlesztői csapata megegyezik a ChatGPT-ével.

Egy digitális óra design

Bővítve design paraméterekkel (szinek és élek)

További bővítés: a lego mint referencia

E cikk társszerzője, Szauder Dávid, médiaművész sokáig kereste az MI-ben rejlő lehetőségeket. Eleinte azt találta zavarónak, hogy folyton sémákba ütközött. Csak az elmúlt másfél évben finomodtak annyira a technológiák, hogy alkalmasak legyenek saját alkotói nyelvezet kialakítására. Egyelőre az MI technológiák értékesítőinek nem elsődleges célfelhasználói a professzionális alkotók. Az adatok szerint 80-90% az amatőr felhasználók száma.

Jogosan merül hát fel a kérdés; ha bárki számára ilyen egyszerűen hozzáférhetők tervezőeszközök, amelyek nem feltételeznek különösebb előképzettséget, nem fognak-e olyan szakmák eltűnni, mint a grafikus, a formatervező, a látványtervező stb.

Szauder Dávid: Intimate dresses

Az aggodalmakat leginkább a fényképezés történetének analógiájával lehet eloszlatni. A fotográfia nem lett konkurenciája más képalkotó eljárásoknak. Sőt, új eszközt adott például a festők kezébe, amely leegyszerűsítette az előstúdiumokat. Ugyanakkor a fotósok közül is azok emelkedtek ki, akik az új eljárás alkalmazásával egyéni, csak rájuk jellemző hangot tudtak megütni. Hasonló aggályok merültek fel a ’90-es évek elején a Photoshop térnyerésével. Azonban nemhogy megingatta volna a technológia a grafikus szakmát, hanem épp ellenkezőleg, lehetőséget adott a kezükbe.

15 millió felhasználója van jelenleg a Midjourneynek, és naponta újabb 100 000 felhasználó csatlakozik a platformhoz. Ahhoz, hogy a professzionális alkotók is beépítsék az alkotási folyamatokba, egyfajta gondolkodásmódbeli váltásra van szükségük. A szövegalapú képkészítésnél pontosan azt kapjuk, amit leírunk. Az MI, a rendelkezésére álló összes képből, véletlenszerűen ollóz össze valamit, nagy valószínűséggel azokból a képadatokból válogatva elsőként, amelyek a leggyakrabban kerültek addig felhasználásra. A látott kép ugyan azt fogja ábrázolni, amit kértünk tőle, de a képnek még nem lesz egyéni vonalvezetése, kompozíciós vagy színbeli tudatossága, meghatározott perspektívája. És ezen a ponton válik igazán izgalmassá a technológia.

Egy papíralapú kollázs feldolgozása az AI-ban

Mert ha a kapott képet nem végeredménynek, hanem kiindulópontnak tekintjük, saját ismeretanyagunk és fantáziaképünk révén további promptokat adhatunk meg. Sőt, a már meglévő alkotásaink betáplálásával, úgynevezett „traineléssel”, növelhetjük ismeretanyagát az MI-nek. Vagyis meg kell tanulnunk irányítani az MI-t.

Ugyanakkor bizonyos kompromisszumokat is meg kell kötnünk. A mesterséges intelligencia nem fogja teljes mértékben visszaadni azt, amit elképzelünk. Legfeljebb megközelítőleg. Az alkotó általában akkor elégedett a művével, ha a fejében megszületett kép pontosan tükröződik általa. Az MI-vel ezt az eredményt nagyon nehéz elérni. Legcélravezetőbb, ha a tervező párbeszédként tekint a folyamatra, amely közte, és a mesterséges intelligencia között jön létre, és arra törekszik, hogy a lehető legjobbat hozza ki belőle.

Miért éri meg – merül fel a kérdés! Akik már beépítették alkotói eljárásukba az MI-t, állítják azért, mert annyira tökéletes kollázsokat képes létrehozni, hogy az összeillesztés teljesen eltűnik, és beenged egy új, eddig teljesen ismeretlen dimenzióba. Hogy mindez meddig lesz izgalmas, nehéz prognosztizálni. Ám az, hogy merre halad, pontosan körvonalazható. A technika tovább tökéletesedik a totális fotórealizmus felé. Ennek legnagyobb veszélye a deep fake tartalomgyártás további térnyerése.

Bizonyos szimulációk fel fognak gyorsulni általa, ezért professzionális környezetben egyre használhatóbb lesz. Ilyen szimuláció például az építészek, belsőépítészek számára a tervezés korai fázisában a látványtervezés. Ugyanígy javára fog válni a formatervezőknek, divattervezőknek, hiszen ezeknek a szakmáknak a történetével és képanyagával is épp annyira tisztában van az MI mint más művészeti ágakéval. Nagy előrelépés várható továbbá az animáció és 3D szimuláció terén az elkövetkezendő 6 hónapban. A legnagyobb vesztesei a mesterséges intelligencia térnyerésének a fizetős stock fotó oldalak lesznek. A jogalkotás is arrafelé halad, hogy amit MI felhasználásával hozol létre, a saját tulajdonod marad, azzal a feltétellel, hogy semmilyen jog nem védi azt.

Egy modern kanapé, pontos körülírással

Cikksorozatunk következő részeiben annak megyünk utána, hogy az MI-vel készült terveket hogyan lehet átemelni a valós térbe, és tárgyiasítani, termékké tenni.

Szauder Dávid további munkái a képgalériában!