Amazon-ი გენერირებს სინთეზურ ჯგუფურ სურათებს ( იდენტობის მოპარვის ტექნოლოგიები იხვეწება)
მკვლევარებმა Amazon-იდან გამოაქვეყნეს ადამიანთა ჯგუფთან რეალისტური სინთეზური სურათების გენერაციის მეთოდი. ასეთი მონაცემები გამოიყენება კომპიუტერული ხედვის მოდელების სწავლებისთვის იმ შემთხვევაში, თუ რეალური მონიშნული მონაცემები საკმარისი არ არის. ამასთან მიდგომა საშუალებას იძლევა სრულად აკონტროლოს გამოსახულებათა შინაარსი. გენერირებული მონაცემები გამოიყენეს მრავალამოცანიან მოდელის მოსამზადებლად გამოსახულების სიღრმისა და UV-გარდაქმნის შესაფასებლად.
როგორ მიმდინარეობდა ნეიროქსელის სწავლება
სინთეზურ და რეალურ მონაცემებს შორის წყვეტის შესამცირებლად, მკვლევარებმა შესთავაზეს პაიპლაინი, რომელიც შედგება 5 ნაბიჯისგან:
1. სცენები რენდირებს კონტექსტში, რომელიც მოდელირებულია რეალური სამყაროს მსგავსად;
2. ადამიანების ამოცნობის მოდელს წვრთნიან სინთეზურ მონაცემებზე;
3. გაწვრთნილი მოდელი გამოიყენება რეალური სურათებისთვის სეგმენტაციის ბარათების შესაფასებლად;
4. შემდეგ პირობითი გენერაციულ-შეჯიბრებითი ქსელი (cGAN) სწავლობს გარდაქმნას სეგმენტაციის ბარათიდან რეალურ გამოსახულებაში;
5. სეგმენტაციის ახალი ბარათები გამოიყენება რეალისტური გამოსახულებების გენერაციისთვის გაწვრთნილი cGAN-ის დახმარებით
6. SPADE გამოიყენებოდა, როგორც cGAN- ის არქიტექტურა.
მოდელის მუშაობის შეფასება
მკვლევარებმა ნეიროქსელის ტესტირება ჩაატარეს დატასეტზე CMU Panoptic Dataset-ის პანოპტიკური სეგმენტაციისთვის. შედარების შედეგების მიხედვით, შემოთავაზებული მოდელი გვერდს უვლის ალტერნატიულ მიდგომებს.
============
DeepMind მოდელი დეტექტირებს თვალის ბადურის დაავადებას
DeepMind-მა Moorfields Eye Hospital-სა და Google Health-თან ერთად ტრენინგი ჩაუტარეს ნერვულ ქსელს, რომელიც ამოიცნობს ბადურის დაავადების განვითარებას. მოდელს შეუძლია ასაკობრივი მაკულარული დეგენერაციის (AMD) განვითარების დეტექტირება შემდეგი 6 თვის განმავლობაში. ექსპერიმენტების შედეგების მიხედვით, მიდგომა იძლევა სიზუსტით შედარებით ან უფრო ზუსტ დასკვნებს, ვიდრე ექსპერტები.
რაში მდგომარეობს პრობლემა
ასაკოვანთა შორის მხედველობის დაკარგვა ერთ–ერთი აქტუალური პრობლემაა ჯანდაცვის სფეროში. 65 წლის ასაკში, ადამიანების დაახლოებით მესამედს აქვს დაავადება, რომელიც აუარესებს მხედველობას. ასაკობრივი მაკულარული დეგენერაცია (AMD) სიბრმავის ერთ-ერთი ყველაზე გავრცელებული მიზეზია. დაავადების ყველაზე საშიში ფორმას - exudative AMD (exAMD) - შეუძლია გამოიწვიოს მხედველობის სწრაფი და პერმანენტული დაკარგვა. მკვლევარებმა ასწავლეს მოდელს, რომელიც ბადურის სურათით პროგნოზირებს პაციენტში exAMD-ის განვითარების ალბათობას მომდევნო 6 თვის განმავლობაში.
Moorfields Eye Hospital-ის მიერ სწავლებისთვის შექმნილი დატასეტი
მკვლევარებმა გამოიყენეს Moorfields-ის პაციენტების ბადურის ანონიმური სურათების დატასეტი. ყველა პაციენტს დიაგნოსტირებული ჰქონდა exAMD ერთ თვალში და დაავადების დიაგნოსტირების მაღალი რისკი მეორე თვალში. საერთო ჯამში, შემოწმდა 2,795 სხვადასხვა ასაკის, სქესის და ეთნიკური კუთვნილების პაციენტი.
რა არის მოდელის შიგნით
სისტემა შედგება ორი ღრმა გადასახვევი ქსელისგან, რომელიც შეყვანის მიზნით იღებს ბადურის მრავალგანზომილებიან სურათს. თითოეული სურათი შედგება 58 მილიონი პიქსელისგან (ვოქსელისგან).
========
FAIR-ის ნეიროქსელის მოდელი ადამიანს ფოტოზე ამატებს
FAIR–მა შეიმუშავა ნეიროქსელი, რომელიც ადამიანს ამატებს ფოტოსურათზე. მოდელი იღებს შესავალზე სამიზნე გამოსახულებას და ადამიანის ნიღაბს, რომელიც უნდა დაემატოს სამიზნე გამოსახულებას. გამოსვლისას მოდელი იძლევა მოდიფიცირებულ სამიზნე ფოტოსურათს დამატებული ადამიანით. ექსპერიმენტების შედეგების მიხედვით, მოდელი გენერირებს დამაჯერებელ გამოსახულებებს მაღალი რეალიზაციით.
მოდელის არქიტექტურა
მიდგომა შედგება სამი ქვექსელისაგან:
Essence Generation Network (EGN) გენერირებს ადამიანის სემანტიკურ ბარათს და ითვალისწინებს ადამიანის პოზებს სამიზნე გამოსახულებაზე;
MCRN ახდენს ახალი ადამიანის პიქსელის და ნიღბის რენდერირებას სამიზნე გამოსახულებაზე დასამატებლად;
მესამე ქსელი აზუსტებს ახალი ადამიანის გენერირებული სახის გამომეტყველებას ისე, რომ იგი ემთხვეოდეს ადამიანების სახის გამომეტყველებას სამიზნე გამოსახულებაზე
მოდელებმა გაიარეს სწავლა დატასეტზე MultiHuman Parsing.
მოდელის მუშაობის შეფასება
მკვლევარებმა ცალკე შეაფასეს ქვექსელი შემოთავაზებულ მიდგომაში ცალკე ამოცანებზე. მაგალითად, MCRN გვერდს უვლის არსებულ state-of-the-art მოდელს პოზის გადასატანად დატასეტზე DeepFashion.
=========
DeepFaceDrawing: ნეიროქსელი გენერირებს ადამიანის გამოსახულებას სკეტჩების მიხედვით
DeepFaceDrawing ნეიროქსელის მოდელია, რომელიც გენერირებს ადამიანის გამოსახულებას სკეტჩის საფუძველზე. ქსელი შეიმუშავეს University of Hong Kong-ის მკვლევარებმა.
არსებული მიდგომების პრობლემა
სკეტჩიდან გამოსახულების გენერაციისკენ მიმართული არსებული ნეიროქსელური მიდგომები სწრაფად ახდენენ სახეთა გამოსახულების სინთეზირებას. მაგრამ ასეთი მოდელები ხშირად სკეტჩებზეა დამზადებული და შესასვლელად მოითხოვენ პროფესიულ სკეტჩებს ან სასაზღვრო ბარათებს. ამ შეზღუდვის თავიდან ასაცილებლად მკვლევარები გვთავაზობენ ფორმის სივრცის მოდელირებას სახეთა მრავალი გამოსახულებით და ამ სივრცეში გამოსახულების სინთეზირებას შემავალი სკეტჩის აპროქსიმირების მიზნით. ნეიროქსელი იყენებს მიდგომას „ადგილობრივიდან გლობალურამდე“. მოდელი იყენებს სკეტჩებს, როგორც შემზღუდველს. ეს იძლევა სახეთა დამაჯერებელი გამოსახულებების გენერირების საშუალებას.
რა არის მოდელის შიგნით
შემოთავაზებული მიდგომა სამი სუბმოდელისგან შედგება:
მოდული, სადაც ისწავლება სახის ძირითადი ნაკვთების ემბედინგი ცალკეული ავტოენკოდერების გამოყენებით;
ქსელი თვისებების შედარებისთვის, რომელიც დეკოდირებს სახის ნაკვთების ვექტორებს თვისებების შესაბამის მრავალარხიან ბარათებში;
გამოსახულებათა გენერაციის ქსელი
მოდელის მუშაობის შეფასება
მკვლევარებმა შეთავაზებული მიდგომა შეადარეს ალტერნატიულ არსებულ არქიტექტურას. ალტერნატიულ მოდელებს შორისაა Pix2pix, Lines2FacePhoto, Pix2pixHD, iSketchNFill. ქვემოთ, რამდენიმე მაგალითზე შეიძლება ნახოთ, რომ შემოთავაზებული მიდგომა გენერირებს უფრო ფოტორეალისტურ გამოსახულებებს.
===
ნეიროქსელი მოთხოვნებს ბუნებრივ ენაზე თარგმნის SQL-მოთხოვნებში
TaBERT ნეიროქსელია, რომელიც თარგმნის მონაცემთა მოთხოვნებს ბუნებრივი ენიდან SQL-ზე. მოდელს საფუძვლად უდევს BERT ტრანსფორმერ-არქიტექტურა, რომელიც არის თანამედროვე ბუნებრივ ენაზე დამუშავებული state-of-the-art.
TaBERT-მა წინასწარი მომზადება გაიარა ბუნებრივ ენაზე წინადადებებისა და ცხრილების მონაცემების წარდგენის ამოცანაზე. ასეთი შეხედულებები სასარგებლოა ერთდროულად როგორც ბუნებრივი ენის, ასევე მონაცემთა ბაზების გასაგებად. მაგალითად, კითხვა „რომელ ქვეყანას აქვს ყველაზე მაღალი მთლიანი შიდა პროდუქტი?“ უკავშირდება SQL-მოთხოვნას, რომელიც ამ კითხვაზე პასუხს მიიღებს მონაცემთა ბაზიდან. მკვლევარებმა განაცხადეს, რომ TaBERT არის წინასწარი მომზადების პირველი შემთხვევა, ერთდროულად როგორც სტრუქტურირებული, ისე არაკონსტრუქციული ტერიტორიების მონაცემებზე.
მომზადების პროცესი
ნეიროქსელი მომზადდა კორპუსზე 26 მილიონი ცხრილით და მათი შესაბამისი წინადადებებით ინგლისურ ენაზე. შეყვანაზე მომზადებისას მოდელი იღებს ქვეცხრილებს და იმ წინადადებებს ინგლისურ ენაზე, რომლებიც ყველაზე უკეთესად აღწერებ ქვეცხრილების შინაარსს.
წინასწარ მომზადებული ენის მოდელები ჩვეულებრივ გადიოდნენ მომზადებას მხოლოდ ტექსტებზე ბუნებრივ ენაზე, რომლებიც თავისუფალი ფორმით არის დაწერილი. მიუხედავად იმისა, რომ ასეთი მოდელები სასარგებლოა ტექსტებიდან ბუნებრივ ენაზე მნიშვნელობების დასადგენად, ისინი QA–სისტემისთვის არ გამოიყენება მონაცემთა ბაზაზე დაყრდნობით.
მოდელის მუშაობის შემოწმება
მოდელმა ტესტირება ორ დავალებაზე გაიარა:
SQL-ში ტექსტის თარგმნის დავალება (მონაცემები მონიშნულია);
მონაცემების პარსინგი დატასეტიდან WikiTableQuestions (მონაცემები ნაწილობრივ მონიშნულია)
დავალება ნაწილობრივი მონიშვნით supervised დავალებაზე გაცილებით რთულია იმის გამო, რომ პარსერს არ აქვს წვდომის სწორ მოთხოვნაზე. ამ მოთხოვნის ძიება მიმდინარეობს მოთხოვნების დიდ სივრცეში. ტესტის შედეგებმა აჩვენა, რომ TaBERT გვერდს უვლის არსებულ state-of-the-art მიდგომებს.
მკვლევარებმა Amazon-იდან გამოაქვეყნეს ადამიანთა ჯგუფთან რეალისტური სინთეზური სურათების გენერაციის მეთოდი. ასეთი მონაცემები გამოიყენება კომპიუტერული ხედვის მოდელების სწავლებისთვის იმ შემთხვევაში, თუ რეალური მონიშნული მონაცემები საკმარისი არ არის. ამასთან მიდგომა საშუალებას იძლევა სრულად აკონტროლოს გამოსახულებათა შინაარსი. გენერირებული მონაცემები გამოიყენეს მრავალამოცანიან მოდელის მოსამზადებლად გამოსახულების სიღრმისა და UV-გარდაქმნის შესაფასებლად.
როგორ მიმდინარეობდა ნეიროქსელის სწავლება
სინთეზურ და რეალურ მონაცემებს შორის წყვეტის შესამცირებლად, მკვლევარებმა შესთავაზეს პაიპლაინი, რომელიც შედგება 5 ნაბიჯისგან:
1. სცენები რენდირებს კონტექსტში, რომელიც მოდელირებულია რეალური სამყაროს მსგავსად;
2. ადამიანების ამოცნობის მოდელს წვრთნიან სინთეზურ მონაცემებზე;
3. გაწვრთნილი მოდელი გამოიყენება რეალური სურათებისთვის სეგმენტაციის ბარათების შესაფასებლად;
4. შემდეგ პირობითი გენერაციულ-შეჯიბრებითი ქსელი (cGAN) სწავლობს გარდაქმნას სეგმენტაციის ბარათიდან რეალურ გამოსახულებაში;
5. სეგმენტაციის ახალი ბარათები გამოიყენება რეალისტური გამოსახულებების გენერაციისთვის გაწვრთნილი cGAN-ის დახმარებით
6. SPADE გამოიყენებოდა, როგორც cGAN- ის არქიტექტურა.
მოდელის მუშაობის შეფასება
მკვლევარებმა ნეიროქსელის ტესტირება ჩაატარეს დატასეტზე CMU Panoptic Dataset-ის პანოპტიკური სეგმენტაციისთვის. შედარების შედეგების მიხედვით, შემოთავაზებული მოდელი გვერდს უვლის ალტერნატიულ მიდგომებს.
============
DeepMind მოდელი დეტექტირებს თვალის ბადურის დაავადებას
DeepMind-მა Moorfields Eye Hospital-სა და Google Health-თან ერთად ტრენინგი ჩაუტარეს ნერვულ ქსელს, რომელიც ამოიცნობს ბადურის დაავადების განვითარებას. მოდელს შეუძლია ასაკობრივი მაკულარული დეგენერაციის (AMD) განვითარების დეტექტირება შემდეგი 6 თვის განმავლობაში. ექსპერიმენტების შედეგების მიხედვით, მიდგომა იძლევა სიზუსტით შედარებით ან უფრო ზუსტ დასკვნებს, ვიდრე ექსპერტები.
რაში მდგომარეობს პრობლემა
ასაკოვანთა შორის მხედველობის დაკარგვა ერთ–ერთი აქტუალური პრობლემაა ჯანდაცვის სფეროში. 65 წლის ასაკში, ადამიანების დაახლოებით მესამედს აქვს დაავადება, რომელიც აუარესებს მხედველობას. ასაკობრივი მაკულარული დეგენერაცია (AMD) სიბრმავის ერთ-ერთი ყველაზე გავრცელებული მიზეზია. დაავადების ყველაზე საშიში ფორმას - exudative AMD (exAMD) - შეუძლია გამოიწვიოს მხედველობის სწრაფი და პერმანენტული დაკარგვა. მკვლევარებმა ასწავლეს მოდელს, რომელიც ბადურის სურათით პროგნოზირებს პაციენტში exAMD-ის განვითარების ალბათობას მომდევნო 6 თვის განმავლობაში.
Moorfields Eye Hospital-ის მიერ სწავლებისთვის შექმნილი დატასეტი
მკვლევარებმა გამოიყენეს Moorfields-ის პაციენტების ბადურის ანონიმური სურათების დატასეტი. ყველა პაციენტს დიაგნოსტირებული ჰქონდა exAMD ერთ თვალში და დაავადების დიაგნოსტირების მაღალი რისკი მეორე თვალში. საერთო ჯამში, შემოწმდა 2,795 სხვადასხვა ასაკის, სქესის და ეთნიკური კუთვნილების პაციენტი.
რა არის მოდელის შიგნით
სისტემა შედგება ორი ღრმა გადასახვევი ქსელისგან, რომელიც შეყვანის მიზნით იღებს ბადურის მრავალგანზომილებიან სურათს. თითოეული სურათი შედგება 58 მილიონი პიქსელისგან (ვოქსელისგან).
FAIR-ის ნეიროქსელის მოდელი ადამიანს ფოტოზე ამატებს
FAIR–მა შეიმუშავა ნეიროქსელი, რომელიც ადამიანს ამატებს ფოტოსურათზე. მოდელი იღებს შესავალზე სამიზნე გამოსახულებას და ადამიანის ნიღაბს, რომელიც უნდა დაემატოს სამიზნე გამოსახულებას. გამოსვლისას მოდელი იძლევა მოდიფიცირებულ სამიზნე ფოტოსურათს დამატებული ადამიანით. ექსპერიმენტების შედეგების მიხედვით, მოდელი გენერირებს დამაჯერებელ გამოსახულებებს მაღალი რეალიზაციით.
მოდელის არქიტექტურა
მიდგომა შედგება სამი ქვექსელისაგან:
Essence Generation Network (EGN) გენერირებს ადამიანის სემანტიკურ ბარათს და ითვალისწინებს ადამიანის პოზებს სამიზნე გამოსახულებაზე;
MCRN ახდენს ახალი ადამიანის პიქსელის და ნიღბის რენდერირებას სამიზნე გამოსახულებაზე დასამატებლად;
მესამე ქსელი აზუსტებს ახალი ადამიანის გენერირებული სახის გამომეტყველებას ისე, რომ იგი ემთხვეოდეს ადამიანების სახის გამომეტყველებას სამიზნე გამოსახულებაზე
მოდელებმა გაიარეს სწავლა დატასეტზე MultiHuman Parsing.
მოდელის მუშაობის შეფასება
მკვლევარებმა ცალკე შეაფასეს ქვექსელი შემოთავაზებულ მიდგომაში ცალკე ამოცანებზე. მაგალითად, MCRN გვერდს უვლის არსებულ state-of-the-art მოდელს პოზის გადასატანად დატასეტზე DeepFashion.
DeepFaceDrawing: ნეიროქსელი გენერირებს ადამიანის გამოსახულებას სკეტჩების მიხედვით
DeepFaceDrawing ნეიროქსელის მოდელია, რომელიც გენერირებს ადამიანის გამოსახულებას სკეტჩის საფუძველზე. ქსელი შეიმუშავეს University of Hong Kong-ის მკვლევარებმა.
არსებული მიდგომების პრობლემა
სკეტჩიდან გამოსახულების გენერაციისკენ მიმართული არსებული ნეიროქსელური მიდგომები სწრაფად ახდენენ სახეთა გამოსახულების სინთეზირებას. მაგრამ ასეთი მოდელები ხშირად სკეტჩებზეა დამზადებული და შესასვლელად მოითხოვენ პროფესიულ სკეტჩებს ან სასაზღვრო ბარათებს. ამ შეზღუდვის თავიდან ასაცილებლად მკვლევარები გვთავაზობენ ფორმის სივრცის მოდელირებას სახეთა მრავალი გამოსახულებით და ამ სივრცეში გამოსახულების სინთეზირებას შემავალი სკეტჩის აპროქსიმირების მიზნით. ნეიროქსელი იყენებს მიდგომას „ადგილობრივიდან გლობალურამდე“. მოდელი იყენებს სკეტჩებს, როგორც შემზღუდველს. ეს იძლევა სახეთა დამაჯერებელი გამოსახულებების გენერირების საშუალებას.
რა არის მოდელის შიგნით
შემოთავაზებული მიდგომა სამი სუბმოდელისგან შედგება:
მოდული, სადაც ისწავლება სახის ძირითადი ნაკვთების ემბედინგი ცალკეული ავტოენკოდერების გამოყენებით;
ქსელი თვისებების შედარებისთვის, რომელიც დეკოდირებს სახის ნაკვთების ვექტორებს თვისებების შესაბამის მრავალარხიან ბარათებში;
გამოსახულებათა გენერაციის ქსელი
მოდელის მუშაობის შეფასება
მკვლევარებმა შეთავაზებული მიდგომა შეადარეს ალტერნატიულ არსებულ არქიტექტურას. ალტერნატიულ მოდელებს შორისაა Pix2pix, Lines2FacePhoto, Pix2pixHD, iSketchNFill. ქვემოთ, რამდენიმე მაგალითზე შეიძლება ნახოთ, რომ შემოთავაზებული მიდგომა გენერირებს უფრო ფოტორეალისტურ გამოსახულებებს.
===
ნეიროქსელი მოთხოვნებს ბუნებრივ ენაზე თარგმნის SQL-მოთხოვნებში
TaBERT ნეიროქსელია, რომელიც თარგმნის მონაცემთა მოთხოვნებს ბუნებრივი ენიდან SQL-ზე. მოდელს საფუძვლად უდევს BERT ტრანსფორმერ-არქიტექტურა, რომელიც არის თანამედროვე ბუნებრივ ენაზე დამუშავებული state-of-the-art.
TaBERT-მა წინასწარი მომზადება გაიარა ბუნებრივ ენაზე წინადადებებისა და ცხრილების მონაცემების წარდგენის ამოცანაზე. ასეთი შეხედულებები სასარგებლოა ერთდროულად როგორც ბუნებრივი ენის, ასევე მონაცემთა ბაზების გასაგებად. მაგალითად, კითხვა „რომელ ქვეყანას აქვს ყველაზე მაღალი მთლიანი შიდა პროდუქტი?“ უკავშირდება SQL-მოთხოვნას, რომელიც ამ კითხვაზე პასუხს მიიღებს მონაცემთა ბაზიდან. მკვლევარებმა განაცხადეს, რომ TaBERT არის წინასწარი მომზადების პირველი შემთხვევა, ერთდროულად როგორც სტრუქტურირებული, ისე არაკონსტრუქციული ტერიტორიების მონაცემებზე.
მომზადების პროცესი
ნეიროქსელი მომზადდა კორპუსზე 26 მილიონი ცხრილით და მათი შესაბამისი წინადადებებით ინგლისურ ენაზე. შეყვანაზე მომზადებისას მოდელი იღებს ქვეცხრილებს და იმ წინადადებებს ინგლისურ ენაზე, რომლებიც ყველაზე უკეთესად აღწერებ ქვეცხრილების შინაარსს.
წინასწარ მომზადებული ენის მოდელები ჩვეულებრივ გადიოდნენ მომზადებას მხოლოდ ტექსტებზე ბუნებრივ ენაზე, რომლებიც თავისუფალი ფორმით არის დაწერილი. მიუხედავად იმისა, რომ ასეთი მოდელები სასარგებლოა ტექსტებიდან ბუნებრივ ენაზე მნიშვნელობების დასადგენად, ისინი QA–სისტემისთვის არ გამოიყენება მონაცემთა ბაზაზე დაყრდნობით.
მოდელის მუშაობის შემოწმება
მოდელმა ტესტირება ორ დავალებაზე გაიარა:
SQL-ში ტექსტის თარგმნის დავალება (მონაცემები მონიშნულია);
მონაცემების პარსინგი დატასეტიდან WikiTableQuestions (მონაცემები ნაწილობრივ მონიშნულია)
დავალება ნაწილობრივი მონიშვნით supervised დავალებაზე გაცილებით რთულია იმის გამო, რომ პარსერს არ აქვს წვდომის სწორ მოთხოვნაზე. ამ მოთხოვნის ძიება მიმდინარეობს მოთხოვნების დიდ სივრცეში. ტესტის შედეგებმა აჩვენა, რომ TaBERT გვერდს უვლის არსებულ state-of-the-art მიდგომებს.
Комментариев нет:
Отправить комментарий
Will be revised