Tehnologija

Višak prstiju i nepravilno lice: Kako funkcioniše AI-genertor fotografija, koje su njegove prednosti i greške?

Iako slike koje generiše veštačka inteligencija deluju kao proizvod savremenih alata – kompjuteri su već decenijama u stanju da ih kreiraju.

Početkom 1970-ih umetnik Harold Koen je naučio da crta uz pomoć rane veštačke inteligencije. Mogao je da naredi robotu da skicira crno-bele konture i oblike na papiru, a za deset godina, naučio ga je da crta ljudske figure, piše The Economist.

Današnji generativni AI modeli crtaju po virtuelnim papirima. Aplikacije kao što su Midjourney i OpenAI’s dall-e na osnovu tekstualnih zahteva kreiraju slike za samo nekoliko sekundi i javno su dostupne.

AI foto generatori su više puta prevarili ljude

Slike Donalda Trampa dok mu policija stavlja lisice na ruke, generisane od strane veštačke inteligencije, postale su viralne u martu. Generatori slika se brzo poboljšavaju i unapređuju, ali kako to rade?

Generativni AI modeli su vrsta dubokog učenja, softverske tehnike koje koriste međusobno povezane strukture koji oponašaju ljudski mozak. Generatori slika su opremljeni ogromnim bazama podataka, a najveći javno dostupan od njih sadrži čak 5,85 milijardi slika. Baze podataka se prikupljaju sa interneta, društvenih mreža, biblioteka fotografija i foto-servisa.

Oni slikama iz baze podataka dodaju vizuelnu šemu i izobličavaju ih. Model je naučio da uredi fotografije tako da su slične originalu.

Kako postaje sve bolji u prepoznavanju piksela koji odgovaraju određenim vizuelnim konceptima, počinje da skladišti to znanje u matematičkom kodu poznatom kao “latentni prostor”.

Na primer, ako tražite od aplikacije da napravi sliku nilskog konja, model koji je naučio koji je raspored piksela u korelaciji sa rečju “nilski konj”, trebalo bi da ume da uzorkuje iz svog latentnog prostora materijal za realističnu sliku sisara.

Ako dodate više detalja zahtevu – kao recimo “uljana slika zelenog nilskog konja iz doba renesanse, negde duž reke Nil” – zahteva od modela da pronađe dodatne slojeve vizuelnih detalja, kao što su stil slike, tekstura, boja i lokacija koji su pravilno kombinovani.

Prednost je u tome što robot za kratko vreme može napraviti fotografiju na osnovu vašeg zahteva.

Problemi AI generatora

Ako su zahtevi komplikovani, posebno ako nisu jasno formulisani, ili ako scena koju opisuju nije dobro predstavljena, odgovori veštačke inteligencije mogu biti nepravilni.

Ljudske ruke su najčešće prikazane sa dodatnim prstima ili im fali neki prst, ili su u proporcijama koje su suprotne pravilima fizike. Pošto su ruke obično manje istaknute od lica, postoje manje baze podataka zadužene za ovaj posao.

Nepredvidljiva simetrija lica, posebno nedoslednosti u boji i obliku između očiju, zuba i ušiju su još jedan znak da je “crtala” mašina.

Kada je tekst u pitanju, generatori često stvaraju nepostojeća slova ili izmišljaju reči.

Programeri mogu da pomognu modelima da nauče iz sopstvenih grešaka tako što prečišćavaju skupove podataka iz kojih modeli uče ili tako što dodatno podese algoritam.

Midjourney je nedavno ažuriran kako bi se unapredio način na koji generiše poruke. Poboljšanja foto-generatora veštačke inteligencije znači da bi razlikovanje fotografija “robota” od prave fotografije uskoro moglo da postane nemoguće.
e naučio da crta uz pomoć rane veštačke inteligencije. Mogao je da naredi robotu da skicira crno-bele konture i oblike na papiru, a za deset godina, naučio ga je da crta ljudske figure, piše The Economist.

Današnji generativni AI modeli crtaju po virtuelnim papirima. Aplikacije kao što su Midjourney i OpenAI’s dall-e na osnovu tekstualnih zahteva kreiraju slike za samo nekoliko sekundi i javno su dostupne.

AI foto generatori su više puta prevarili ljude

Slike Donalda Trampa dok mu policija stavlja lisice na ruke, generisane od strane veštačke inteligencije, postale su viralne u martu. Generatori slika se brzo poboljšavaju i unapređuju, ali kako to rade?

Generativni AI modeli su vrsta dubokog učenja, softverske tehnike koje koriste međusobno povezane strukture koji oponašaju ljudski mozak. Generatori slika su opremljeni ogromnim bazama podataka, a najveći javno dostupan od njih sadrži čak 5,85 milijardi slika. Baze podataka se prikupljaju sa interneta, društvenih mreža, biblioteka fotografija i foto-servisa.

Oni slikama iz baze podataka dodaju vizuelnu šemu i izobličavaju ih. Model je naučio da uredi fotografije tako da su slične originalu.

Kako postaje sve bolji u prepoznavanju piksela koji odgovaraju određenim vizuelnim konceptima, počinje da skladišti to znanje u matematičkom kodu poznatom kao “latentni prostor”.

Na primer, ako tražite od aplikacije da napravi sliku nilskog konja, model koji je naučio koji je raspored piksela u korelaciji sa rečju “nilski konj”, trebalo bi da ume da uzorkuje iz svog latentnog prostora materijal za realističnu sliku sisara.

Ako dodate više detalja zahtevu – kao recimo “uljana slika zelenog nilskog konja iz doba renesanse, negde duž reke Nil” – zahteva od modela da pronađe dodatne slojeve vizuelnih detalja, kao što su stil slike, tekstura, boja i lokacija koji su pravilno kombinovani.

Prednost je u tome što robot za kratko vreme može napraviti fotografiju na osnovu vašeg zahteva.

Problemi AI generatora

Ako su zahtevi komplikovani, posebno ako nisu jasno formulisani, ili ako scena koju opisuju nije dobro predstavljena, odgovori veštačke inteligencije mogu biti nepravilni.

Ljudske ruke su najčešće prikazane sa dodatnim prstima ili im fali neki prst, ili su u proporcijama koje su suprotne pravilima fizike. Pošto su ruke obično manje istaknute od lica, postoje manje baze podataka zadužene za ovaj posao.

Nepredvidljiva simetrija lica, posebno nedoslednosti u boji i obliku između očiju, zuba i ušiju su još jedan znak da je “crtala” mašina.

Kada je tekst u pitanju, generatori često stvaraju nepostojeća slova ili izmišljaju reči.

Programeri mogu da pomognu modelima da nauče iz sopstvenih grešaka tako što prečišćavaju skupove podataka iz kojih modeli uče ili tako što dodatno podese algoritam.

Midjourney je nedavno ažuriran kako bi se unapredio način na koji generiše poruke. Poboljšanja foto-generatora veštačke inteligencije znači da bi razlikovanje fotografija “robota” od prave fotografije uskoro moglo da postane nemoguće.

 

Izvor: nedeljnik.rs 
Twitter
Anketa

Koliko ste vi lično zadovoljni 2024. godinom?

Rezultati ankete
Blog