იმის გასაგებად, არის თუ არა მოდელი ზედმეტად მორგებული, უნდა გვესმოდეს ზედმეტი მორგების კონცეფცია და მისი გავლენა მანქანათმცოდნეობაში. გადაჭარბება ხდება მაშინ, როდესაც მოდელი განსაკუთრებულად კარგად მუშაობს სავარჯიშო მონაცემებზე, მაგრამ ვერ განზოგადება ახალ, უხილავ მონაცემებზე. ეს ფენომენი საზიანოა მოდელის პროგნოზირების უნარისთვის და შეიძლება გამოიწვიოს ცუდი შესრულება რეალურ სამყაროში. ღრმა ნერვული ქსელების და შემფასებლების კონტექსტში Google Cloud Machine Learning-ში, არსებობს რამდენიმე ინდიკატორი, რომელიც დაგეხმარებათ ჭარბი მორგების იდენტიფიცირებაში.
გადაჭარბების ერთ-ერთი საერთო ნიშანი არის მნიშვნელოვანი განსხვავება მოდელის მუშაობას სასწავლო მონაცემებზე და მის შესრულებას ვალიდაციის ან ტესტის მონაცემებზე. როდესაც მოდელი ზედმეტად არის მორგებული, ის „იმახსოვრებს“ სასწავლო მაგალითებს იმის ნაცვლად, რომ ისწავლოს ძირითადი შაბლონები. შედეგად, მან შეიძლება მიაღწიოს მაღალ სიზუსტეს სავარჯიშო კომპლექტში, მაგრამ უჭირს ახალ მონაცემებზე ზუსტი პროგნოზების გაკეთება. მოდელის მუშაობის შეფასებით ცალკე ვალიდაციის ან ტესტირების კომპლექტზე, შეიძლება შეფასდეს, მოხდა თუ არა გადაჭარბებული მორგება.
ზედმეტად მორგების კიდევ ერთი ნიშანი არის დიდი განსხვავება მოდელის მომზადებისა და ვალიდაციის შეცდომის სიხშირეს შორის. ტრენინგის პროცესში მოდელი ცდილობს მინიმუმამდე დაიყვანოს შეცდომა მისი პარამეტრების კორექტირებით. თუმცა, თუ მოდელი ზედმეტად რთული ხდება ან ძალიან დიდი ხნის განმავლობაში ივარჯიშება, მან შეიძლება დაიწყოს ხმაურის მორგება ტრენინგის მონაცემებში და არა ფუძემდებლურ შაბლონებში. ამან შეიძლება გამოიწვიოს ტრენინგის შეცდომის დაბალი მაჩვენებელი, მაგრამ მნიშვნელოვნად მაღალი ვალიდაციის შეცდომის მაჩვენებელი. ამ შეცდომის მაჩვენებლების ტენდენციის მონიტორინგი დაგეხმარებათ ზედმეტი მორგების იდენტიფიცირებაში.
გარდა ამისა, მოდელის დაკარგვის ფუნქციის ქცევაზე დაკვირვებამ შეიძლება მოგაწოდოთ ინფორმაციის გადაჭარბება. დანაკარგის ფუნქცია ზომავს შეუსაბამობას მოდელის პროგნოზირებულ შედეგებსა და რეალურ მიზნებს შორის. ზედმეტად მორგებულ მოდელში, სავარჯიშო მონაცემებზე დანაკარგის ფუნქცია შეიძლება კვლავ შემცირდეს, ხოლო ვალიდაციის მონაცემებზე ზარალი იზრდება. ეს მიუთითებს იმაზე, რომ მოდელი სულ უფრო სპეციალიზირებული ხდება ტრენინგის მაგალითებზე და კარგავს განზოგადების უნარს.
რეგულარიზაციის ტექნიკა ასევე შეიძლება გამოყენებულ იქნას ზედმეტი მორგების თავიდან ასაცილებლად. რეგულარიზაცია აწესებს საჯარიმო ტერმინს დანაკარგის ფუნქციაზე, რაც ხელს უშლის მოდელის ზედმეტად კომპლექსურობას. ტექნიკა, როგორიცაა L1 ან L2 რეგულაცია, მიტოვება ან ადრეული შეჩერება, დაგეხმარებათ შეამსუბუქოთ ზედმეტად მორგება მოდელის სასწავლო პროცესზე შეზღუდვების დამატებით.
მნიშვნელოვანია აღინიშნოს, რომ გადამეტებაზე შეიძლება გავლენა იქონიოს სხვადასხვა ფაქტორებმა, მათ შორის ტრენინგის მონაცემების ზომასა და ხარისხზე, მოდელის არქიტექტურის სირთულეზე და არჩეულ ჰიპერპარამეტრებზე. ამიტომ, გადამწყვეტი მნიშვნელობა აქვს ამ ფაქტორების გულდასმით შეფასებას ტრენინგისა და მოდელების შეფასებისას, რათა თავიდან იქნას აცილებული ზედმეტი მორგება.
ღრმა ნერვულ ქსელებში და შემფასებლებში გადაჭარბების ამოცნობა მოიცავს ვალიდაციის ან ტესტის მონაცემების შესრულების ანალიზს, ტრენინგისა და ვალიდაციის შეცდომის სიხშირეს შორის განსხვავების მონიტორინგს, დანაკარგის ფუნქციის ქცევაზე დაკვირვებას და რეგულაციის ტექნიკის გამოყენებას. ამ ინდიკატორების გააზრებით და შესაბამისი ზომების მიღებით, შეიძლება შერბილდეს ზედმეტი მორგების მავნე ზემოქმედება და უფრო ძლიერი და განზოგადებული მოდელების შექმნა.
სხვა ბოლოდროინდელი კითხვები და პასუხები ღრმა ნერვული ქსელები და შემფასებლები:
- შეიძლება თუ არა ღრმა სწავლის ინტერპრეტაცია, როგორც მოდელის განსაზღვრა და ტრენინგი, რომელიც დაფუძნებულია ღრმა ნერვულ ქსელზე (DNN)?
- იძლევა თუ არა Google-ის TensorFlow ჩარჩოს აბსტრაქციის დონის ამაღლების შესაძლებლობა მანქანური სწავლების მოდელების შემუშავებისას (მაგ. კოდირების კონფიგურაციით ჩანაცვლებით)?
- სწორია თუ არა, რომ თუ მონაცემთა ნაკრები დიდია, საჭიროა ნაკლები შეფასება, რაც ნიშნავს, რომ შეფასებისთვის გამოყენებული ნაკრების ფრაქცია შეიძლება შემცირდეს მონაცემთა ნაკრების გაზრდით?
- შესაძლებელია თუ არა ადვილად გააკონტროლოთ (დამატებით და წაშლით) ფენების რაოდენობა და კვანძების რაოდენობა ცალკეულ შრეებში ღრმა ნერვული ქსელის (DNN) ფარული არგუმენტის სახით მოწოდებული მასივის შეცვლით?
- რა არის ნერვული ქსელები და ღრმა ნერვული ქსელები?
- რატომ უწოდებენ ღრმა ნერვულ ქსელებს ღრმა?
- რა უპირატესობები და უარყოფითი მხარეები აქვს DNN-ზე მეტი კვანძების დამატებას?
- რა არის გაქრობის გრადიენტის პრობლემა?
- რა არის ღრმა ნერვული ქსელების გამოყენების ნაკლოვანებები ხაზოვან მოდელებთან შედარებით?
- რა დამატებითი პარამეტრების მორგება შეიძლება DNN კლასიფიკატორში და როგორ უწყობენ ხელს ისინი ღრმა ნერვული ქსელის დაზუსტებას?
იხილეთ მეტი კითხვა და პასუხი ღრმა ნერვულ ქსელებსა და შემფასებლებში