https://nplus1.ru/news/2022/07/08/nllb
Meta-მ გამოუშვა ღია წვდომაში პირდაპირი თარგმანის სისტემა 204 ენას შორის
კომპანია Meta-მ შეიმუშავა და საჯაროდ ხელმისაწვდომი გახადა ტექსტის თარგმნის ერთიანი სისტემა, რომელიც მუშაობს 204 ენაზე. ის ითარგმნება ერთი ენიდან მეორეზე პირდაპირ, ინგლისური ან სხვა შუალედური ენების გამოყენების გარეშე. სტატია ალგორითმის შესახებ გამოქვეყნებულია Meta AI ვებსაიტზე, თავად მოდელი კი GitHub-ზე.
მანქანური თარგმანის ბევრი სისტემა იყენებს ცალკეულ მოდელებს ენის წყვილებისთვის, მაგალითად, რუსულიდან ინგლისურ ენაზე თარგმნისთვის. ასევე ინგლისური ხშირად გამოიყენება როგორც შუამავალი ენა წყვილ ენას შორის, რადგან მას აქვს ყველაზე მეტი ტექსტი, განსაკუთრებით ინტერნეტში. ამის გამო, ერთის მხრივ, მეტი მონაცემია ხელმისაწვდომი მთარგმნელის მოდელების მომზადებისთვის, მაგრამ, მეორე მხრივ, უზუსტობებისა და თარგმანის შეცდომების რიცხვი აუცილებლად იზრდება.
მაგრამ ასევე არსებობს მრავალენოვანი მოდელები, რომლებიც არ იყენებენ შუამავალ ენას და რომლებსაც შეუძლიათ ერთდროულად იმუშაონ რამდენიმე ან თუნდაც ათეულ ენაზე. 2020 წელს, ასეთი სისტემა სახელად M2M შემოიღეს ავტორებმა Facebook AI-დან (ახლანდელი Meta AI), შემდეგ იგი მხარს უჭერდა 100 ენას. 2022 წლის დასაწყისში კომპანიამ გამოაცხადა No Language Left Behind (NLLB) პროექტი, რომელშიც აპირებს შექმნას უნივერსალური მანქანური თარგმანის მოდელი, რომელიც მხარს უჭერს ასობით ენას და ადაპტირებულია დაბალი რესურსის ენების სწავლებისთვის.
ახლა Meta AI-ს მკვლევარებმა და დეველოპერებმა, ბერკლის კალიფორნიის უნივერსიტეტისა და ჯონს ჰოპკინსის უნივერსიტეტის კოლეგებთან ერთად, წარმოადგინეს NLLB-200 მრავალენოვანი მოდელი, რომელიც მხარს უჭერს პირდაპირ თარგმნას 204 ენას შორის, ისევე როგორც FLORES-200 მონაცემთა ბაზას ენების იმავე რაოდენობით.
ბევრი დიდი ენობრივი მოდელის მსგავსად, NLLB-200 სწავლობდა ინტერნეტიდან შეგროვებულ უზარმაზარ მონაცემებზე. მაგრამ ჯერ დეველოპერებმა შეადგინეს NLLB-Seed მონაცემთა ნაკრები, რომელიც მოიცავდა წინადადებებს ვიკიპედიის ყველაზე მნიშვნელოვანი გვერდებიდან, რომლებიც ინგლისურიდან თარგმნეს 39 დაბალრესურსულ ენებზე პროფესიონალმა მთარგმნელებმა. საერთო ჯამში, მონაცემთა ნაკრები მოიცავდა დაახლოებით ექვს ათას წინადადებას. ამ მონაცემთა ნაკრებმა, ისევე როგორც უკვე არსებული მონაცემთა ნაკრებმა სხვა ენებისთვის, მოგვცა საშუალება დაგვეწყო მოდელის სწავლება.
შემდეგ, დაბალი რესურსის ენებისთვის დიდი მონაცემთა ნაკრების შესაგროვებლად, ავტორებმა გამოიყენეს პარალელური კორპუსების შეგროვების სისტემა LASER (Language-Agnostic Sentence Representations). ის იღებს საწყის წინადადებას ნებისმიერ მხარდაჭერილ ენაზე და ათავსებს მას საერთო ვექტორულ სივრცეში ისე, რომ სხვადასხვა ენაზე ერთი და იგივე მნიშვნელობის წინადადებები მასში ძალიან ახლოს იქნება, ხოლო სხვადასხვა შორს:
Meta AI
Поься
LASER-ის პირველი ვერსია დაინერგა 2019 წელს და ახალ ნამუშევარში გამოიყენეს LASER3, რომელშიც რამდენიმე გაუმჯობესება იქნა შეტანილი. სხვა საკითხებთან ერთად, მასში გამოყო ენკოდერები ენების ჯგუფებისთვის და ასევე შეცვალა არქიტექტურა LSTM-დან Transformer-მდე.
ენებისთვის ვრცელი მონაცემთა ნაკრების შეგროვების შემდეგ, დეველოპერებმა მოამზადეს ერთი NLLB-200 მოდელი. მისი მუშაობის შესაფასებლად მათ შეაგროვეს სხვა მონაცემთა ბაზა - FLORES-200. მისი შეგროვების პრინციპი NLLB-Seed-ის მსგავსი იყო, მაგრამ ის შეიცავს სამ ათას წინადადებას 204-ვე ენაზე, ამიტომ 40 ათასზე მეტი ენის წყვილი ხელმისაწვდომია თარგმანის შესაფასებლად. ამ მონაცემთა ნაკრების, ისევე როგორც მისი წინა ვერსიის შემოწმებამ, რომელიც მხარს უჭერს 101 ენას, აჩვენა, რომ NLLB-200 აჭარბებს წინა საუკეთესო მრავალენოვანი მანქანური თარგმანის ალგორითმს 44 პროცენტით BLEU მეტრიკის მიხედვით, რომელიც აჩვენებს, რამდენად ახლოსაა მანქანური თარგმანი ადამიანის თარგმანთან.
ალგორითმის სწავლის სქემა
სტატიის გარდა, Meta-მ გამოაქვეყნა თავად NLLB-200 მოდელი და შეგროვებული მონაცემთა ნაკრები, ისინი ხელმისაწვდომია GitHub-ზე.
ზოგიერთი მკვლევარი უფრო შორს მიდის შუალედური საფეხურებისგან თავის დაღწევაში, როგორიცაა ინგლისურ ენაზე თარგმნა. 2019 წელს Google-ის დეველოპერებმა შექმნეს ზეპირი მეტყველების პირდაპირი თარგმნის სისტემა: ის მუშაობს ხმოვან ფაილებთან და საერთოდ არ იყენებს სიტყვების ტექსტურ წარმოდგენას.
გრიგორი კოპიევი
Комментариев нет:
Отправить комментарий
Will be revised