Tehnologija

Višak prstiju i nepravilno lice: Kako funkcioniše AI-genertor fotografija, koje su njegove prednosti i greške?

Iako slike koje generiše veštačka inteligencija deluju kao proizvod savremenih alata – kompjuteri su već decenijama u stanju da ih kreiraju.

Početkom 1970-ih umetnik Harold Koen je naučio da crta uz pomoć rane veštačke inteligencije. Mogao je da naredi robotu da skicira crno-bele konture i oblike na papiru, a za deset godina, naučio ga je da crta ljudske figure, piše The Economist.

Današnji generativni AI modeli crtaju po virtuelnim papirima. Aplikacije kao što su Midjourney i OpenAI’s dall-e na osnovu tekstualnih zahteva kreiraju slike za samo nekoliko sekundi i javno su dostupne.

AI foto generatori su više puta prevarili ljude

Slike Donalda Trampa dok mu policija stavlja lisice na ruke, generisane od strane veštačke inteligencije, postale su viralne u martu. Generatori slika se brzo poboljšavaju i unapređuju, ali kako to rade?

Generativni AI modeli su vrsta dubokog učenja, softverske tehnike koje koriste međusobno povezane strukture koji oponašaju ljudski mozak. Generatori slika su opremljeni ogromnim bazama podataka, a najveći javno dostupan od njih sadrži čak 5,85 milijardi slika. Baze podataka se prikupljaju sa interneta, društvenih mreža, biblioteka fotografija i foto-servisa.

Oni slikama iz baze podataka dodaju vizuelnu šemu i izobličavaju ih. Model je naučio da uredi fotografije tako da su slične originalu.

Kako postaje sve bolji u prepoznavanju piksela koji odgovaraju određenim vizuelnim konceptima, počinje da skladišti to znanje u matematičkom kodu poznatom kao “latentni prostor”.

Na primer, ako tražite od aplikacije da napravi sliku nilskog konja, model koji je naučio koji je raspored piksela u korelaciji sa rečju “nilski konj”, trebalo bi da ume da uzorkuje iz svog latentnog prostora materijal za realističnu sliku sisara.

Ako dodate više detalja zahtevu – kao recimo “uljana slika zelenog nilskog konja iz doba renesanse, negde duž reke Nil” – zahteva od modela da pronađe dodatne slojeve vizuelnih detalja, kao što su stil slike, tekstura, boja i lokacija koji su pravilno kombinovani.

Prednost je u tome što robot za kratko vreme može napraviti fotografiju na osnovu vašeg zahteva.

Problemi AI generatora

Ako su zahtevi komplikovani, posebno ako nisu jasno formulisani, ili ako scena koju opisuju nije dobro predstavljena, odgovori veštačke inteligencije mogu biti nepravilni.

Ljudske ruke su najčešće prikazane sa dodatnim prstima ili im fali neki prst, ili su u proporcijama koje su suprotne pravilima fizike. Pošto su ruke obično manje istaknute od lica, postoje manje baze podataka zadužene za ovaj posao.

Nepredvidljiva simetrija lica, posebno nedoslednosti u boji i obliku između očiju, zuba i ušiju su još jedan znak da je “crtala” mašina.

Kada je tekst u pitanju, generatori često stvaraju nepostojeća slova ili izmišljaju reči.

Programeri mogu da pomognu modelima da nauče iz sopstvenih grešaka tako što prečišćavaju skupove podataka iz kojih modeli uče ili tako što dodatno podese algoritam.

Midjourney je nedavno ažuriran kako bi se unapredio način na koji generiše poruke. Poboljšanja foto-generatora veštačke inteligencije znači da bi razlikovanje fotografija “robota” od prave fotografije uskoro moglo da postane nemoguće.
e naučio da crta uz pomoć rane veštačke inteligencije. Mogao je da naredi robotu da skicira crno-bele konture i oblike na papiru, a za deset godina, naučio ga je da crta ljudske figure, piše The Economist.

Današnji generativni AI modeli crtaju po virtuelnim papirima. Aplikacije kao što su Midjourney i OpenAI’s dall-e na osnovu tekstualnih zahteva kreiraju slike za samo nekoliko sekundi i javno su dostupne.

AI foto generatori su više puta prevarili ljude

Slike Donalda Trampa dok mu policija stavlja lisice na ruke, generisane od strane veštačke inteligencije, postale su viralne u martu. Generatori slika se brzo poboljšavaju i unapređuju, ali kako to rade?

Generativni AI modeli su vrsta dubokog učenja, softverske tehnike koje koriste međusobno povezane strukture koji oponašaju ljudski mozak. Generatori slika su opremljeni ogromnim bazama podataka, a najveći javno dostupan od njih sadrži čak 5,85 milijardi slika. Baze podataka se prikupljaju sa interneta, društvenih mreža, biblioteka fotografija i foto-servisa.

Oni slikama iz baze podataka dodaju vizuelnu šemu i izobličavaju ih. Model je naučio da uredi fotografije tako da su slične originalu.

Kako postaje sve bolji u prepoznavanju piksela koji odgovaraju određenim vizuelnim konceptima, počinje da skladišti to znanje u matematičkom kodu poznatom kao “latentni prostor”.

Na primer, ako tražite od aplikacije da napravi sliku nilskog konja, model koji je naučio koji je raspored piksela u korelaciji sa rečju “nilski konj”, trebalo bi da ume da uzorkuje iz svog latentnog prostora materijal za realističnu sliku sisara.

Ako dodate više detalja zahtevu – kao recimo “uljana slika zelenog nilskog konja iz doba renesanse, negde duž reke Nil” – zahteva od modela da pronađe dodatne slojeve vizuelnih detalja, kao što su stil slike, tekstura, boja i lokacija koji su pravilno kombinovani.

Prednost je u tome što robot za kratko vreme može napraviti fotografiju na osnovu vašeg zahteva.

Problemi AI generatora

Ako su zahtevi komplikovani, posebno ako nisu jasno formulisani, ili ako scena koju opisuju nije dobro predstavljena, odgovori veštačke inteligencije mogu biti nepravilni.

Ljudske ruke su najčešće prikazane sa dodatnim prstima ili im fali neki prst, ili su u proporcijama koje su suprotne pravilima fizike. Pošto su ruke obično manje istaknute od lica, postoje manje baze podataka zadužene za ovaj posao.

Nepredvidljiva simetrija lica, posebno nedoslednosti u boji i obliku između očiju, zuba i ušiju su još jedan znak da je “crtala” mašina.

Kada je tekst u pitanju, generatori često stvaraju nepostojeća slova ili izmišljaju reči.

Programeri mogu da pomognu modelima da nauče iz sopstvenih grešaka tako što prečišćavaju skupove podataka iz kojih modeli uče ili tako što dodatno podese algoritam.

Midjourney je nedavno ažuriran kako bi se unapredio način na koji generiše poruke. Poboljšanja foto-generatora veštačke inteligencije znači da bi razlikovanje fotografija “robota” od prave fotografije uskoro moglo da postane nemoguće.

Izvor: nedeljnik.rs

12.07.2023. u 15:26h

Tehnologija

Višak prstiju i nepravilno lice: Kako funkcioniše AI-genertor fotografija, koje su njegove prednosti i greške?

Iako slike koje generiše veštačka inteligencija deluju kao proizvod savremenih alata – kompjuteri su već decenijama u stanju da ih kreiraju.

Bazdulj: Kapor – pisac ljudske duše, koja se ne mijenja (FOTO)

U čemu je tajna prodora kineskog proizvođača telefona „Sjaomi“ u auto-industriju (VIDEO)

Dino Merlin i Coca-Cola u BiH ozvaničili ekskluzivnu trogodišnju saradnju

Petnaest godina od smrti Mome Kapora: Slikara, književnika, novinara, senatora, akademika...

Грмуша: Спирала правно-политичког насиља у БиХ почела не само неуставним, него и агресорским актима различитих високих представника

Prostor između nas: radnice u kulturi (FOTO)

Treba li bojkot trgovina, kafića, itd. u BiH ponoviti ili je dovoljan samo jedan dan?

Srđan Puhalo

Analiza intervjua Rudolfa Đulijanija ili kako ćemo sjebati Kineze

DUŠAN ŠEHOVAC

Заједница Срба у Сарајеву није сведена на нулу

Radmila Trbojević

Fratrum concordia rara (Ovidije) (Rijetka je sloga među braćom)

Srđan Puhalo

Dok čekamo štrajk u RTRS-u

Radmila Trbojević

Nije moralno ali je zakonito

DUŠAN ŠEHOVAC

Ko je to utvrdio da su institucije Republike Srbije ispunile…

DUŠAN ŠEHOVAC

За пленумаше у Републици Србији постоји само једно рјешење

DUŠAN ŠEHOVAC

Маме, дјецо пређите са ријечи на дјела

Srđan Puhalo

Aristotel i Ljepojević

Radmila Trbojević

OVO JE VIŠE OD IGRE

Srđan Puhalo

Pismo profesorima banjalučke Gimnazije ili da li ćete i ovo…

Radmila Trbojević

Umjetnička sloboda - ili izdaja svoje zemlje?