EITC/AI/ARL Advanced Reinforcement Learning არის ევროპული IT სერტიფიცირების პროგრამა DeepMind-ის მიდგომაზე ხელოვნურ ინტელექტში განმტკიცებული სწავლებისადმი.
EITC/AI/ARL Advanced Reinforcement Learning-ის სასწავლო პროგრამა ფოკუსირებულია თეორიულ ასპექტებზე და პრაქტიკულ უნარებზე განმამტკიცებელი სწავლის ტექნიკის შესახებ DeepMind-ის პერსპექტივიდან, რომელიც ორგანიზებულია შემდეგი სტრუქტურის ფარგლებში, რომელიც მოიცავს ყოვლისმომცველ ვიდეო დიდაქტიკურ შინაარსს, როგორც მითითებას ამ EITC სერთიფიკაციისთვის.
გამაძლიერებელი სწავლება (RL) არის მანქანური სწავლების სფერო, რომელიც ეხება იმას, თუ როგორ უნდა იმოქმედონ ინტელიგენტმა აგენტებმა გარემოში, რათა მაქსიმალურად გაზარდონ კუმულაციური ჯილდო. გამაძლიერებელი სწავლება არის სამ ძირითად მანქანაში სწავლის პარადიგმა, ზედამხედველობით სწავლებასთან და მეთვალყურეობის გარეშე.
გამაძლიერებელი სწავლება განსხვავდება საზედამხედველო სწავლისგან იმით, რომ არ სჭირდება წარწერით შეყვანის/გამოყვანის წყვილების წარმოდგენა და არ სჭირდება ქვე-ოპტიმალური მოქმედებების მკაფიოდ გამოსწორება. ამის ნაცვლად, ყურადღება გამახვილებულია ბალანსის ძიებაში საძიებო სამუშაოებში (უცნობი ტერიტორიის) და ექსპლუატაციას შორის (არსებული ცოდნა).
გარემო ჩვეულებრივ გამოხატულია მარკოვის გადაწყვეტილების პროცესის (MDP) სახით, რადგან ამ კონტექსტის განმტკიცების სწავლების მრავალი ალგორითმი იყენებს დინამიური პროგრამირების ტექნიკას. მთავარი განსხვავება კლასიკურ დინამიკურ პროგრამირების მეთოდებსა და სწავლების განმტკიცების ალგორითმებს შორის არის ის, რომ ეს უკანასკნელი არ ითვალისწინებს MDP– ს ზუსტი მათემატიკური მოდელის ცოდნას და ისინი მიზნად ისახავს დიდ MDP– ებს, სადაც ზუსტი მეთოდები შეუძლებელია.
ზოგადი ხასიათის გამო, განმტკიცების სწავლება შეისწავლება მრავალ დისციპლინაში, როგორიცაა თამაშების თეორია, კონტროლის თეორია, ოპერაციების კვლევა, ინფორმაციის თეორია, სიმულაციაზე დაფუძნებული ოპტიმიზაცია, მრავალ აგენტური სისტემა, უზარმაზარი დაზვერვა და სტატისტიკა. ოპერაციების კვლევისა და კონტროლის ლიტერატურაში, განმტკიცების სწავლებას უწოდებენ სავარაუდო დინამიკურ პროგრამირებას, ან ნეირო-დინამიკურ პროგრამირებას. განმტკიცების სწავლების ინტერესის პრობლემები ასევე შესწავლილია ოპტიმალური კონტროლის თეორიაში, რომელიც ძირითადად ეხება ოპტიმალური ამოხსნების არსებობასა და დახასიათებას, და მათი ზუსტი გამოთვლის ალგორითმებს, და ნაკლებად სწავლას ან მიახლოებას, განსაკუთრებით არარსებობის შემთხვევაში. გარემოს მათემატიკური მოდელი. ეკონომიკისა და თამაშების თეორიაში, განმტკიცების სწავლება შეიძლება გამოყენებულ იქნას იმის ასახსნელად, თუ როგორ შეიძლება წონასწორობა წარმოიშვას შეზღუდული რაციონალობის პირობებში.
ძირითადი გამაგრება მოდელირებულია, როგორც მარკოვის გადაწყვეტილების პროცესი (MDP). მათემატიკაში, მარკოვის გადაწყვეტილების პროცესი (MDP) არის დისკრეტული დროის სტოქასტური კონტროლის პროცესი. ის უზრუნველყოფს მათემატიკური ჩარჩოს გადაწყვეტილების მიღების მოდელირებისთვის იმ სიტუაციებში, როდესაც შედეგები ნაწილობრივ შემთხვევითია და ნაწილობრივ გადაწყვეტილების მიმღების კონტროლის ქვეშ. MDPs სასარგებლოა დინამიური პროგრამირების გზით გადაჭრილი ოპტიმიზაციის პრობლემების შესასწავლად. MDP- ები ცნობილი იყო მინიმუმ ჯერ კიდევ 1950-იან წლებში. მარკოვის გადაწყვეტილების პროცესებზე ძირითადი კვლევის შედეგად მიღებული იქნა რონალდ ჰოვარდის 1960 წლის წიგნი, დინამიური პროგრამირება და მარკოვის პროცესები. ისინი გამოიყენება მრავალ დისციპლინაში, მათ შორის რობოტიკაში, ავტომატური მართვა, ეკონომიკა და წარმოება. MDP- ების სახელი მომდინარეობს რუსი მათემატიკოსის ანდრეი მარკოვისგან, რადგან ისინი მარკოვის ჯაჭვების გაგრძელებაა.
ყოველ ჯერზე, პროცესი მიმდინარეობს ზოგიერთ შტატში S, და გადაწყვეტილების მიმღებს შეუძლია აირჩიოს ნებისმიერი მოქმედება a, რომელიც ხელმისაწვდომია შტატში S. ეს პროცესი რეაგირებს შემდეგ ეტაპზე, შემთხვევით გადადის ახალ მდგომარეობაში S 'და აძლევს გადაწყვეტილების მიმღებს შესაბამისი ჯილდო Ra (S, S ').
იმის ალბათობა, რომ პროცესი გადავა თავის ახალ მდგომარეობაში S 'გავლენას ახდენს არჩეული მოქმედება a. კერძოდ, იგი მოცემულია სახელმწიფო გადასვლის ფუნქციით Pa (S, S '). ამრიგად, შემდეგი მდგომარეობა S დამოკიდებულია ამჟამინდელ მდგომარეობაზე და გადაწყვეტილების მიმღების მოქმედებაზე. მაგრამ მოცემული S და a, ეს პირობითად დამოუკიდებელია ყველა წინა მდგომარეობისა და მოქმედებისგან. სხვა სიტყვებით რომ ვთქვათ, MDP- ის სახელმწიფო გადასვლები აკმაყოფილებს მარკოვის თვისებას.
მარკოვის გადაწყვეტილების პროცესები წარმოადგენს მარკოვის ჯაჭვების გაგრძელებას; განსხვავება არის ქმედებების დამატება (არჩევანის დაშვება) და ჯილდოები (მოტივაციის მიცემა). და პირიქით, თუ თითოეული სახელმწიფოსთვის მხოლოდ ერთი მოქმედება არსებობს (მაგ. "დაველოდოთ") და ყველა ჯილდო ერთი და იგივეა (მაგ. "ნულოვანი"), მარკოვის გადაწყვეტილების პროცესი შემცირდება მარკოვის ჯაჭვამდე.
გამაძლიერებელი სასწავლო აგენტი ურთიერთქმედებს მის გარემოში დისკრეტული დროის ნაბიჯებით. ყოველ ჯერზე t, აგენტი იღებს მიმდინარე მდგომარეობას S (t) და ჯილდოს r (t). ამის შემდეგ იგი ირჩევს a (t) მოქმედებას არსებული მოქმედებების ნაკრებიდან, რომელიც შემდგომში ეგზავნება გარემოში. გარემო გადადის ახალ მდგომარეობაში S (t + 1) და განისაზღვრება ჯილდო r (t + 1), რომელიც დაკავშირებულია გარდამავალთან. განმტკიცების სასწავლო აგენტის მიზანია ისწავლოს ისეთი პოლიტიკა, რომელიც მაქსიმალურად ზრდის მოსალოდნელ კუმულაციურ ჯილდოს.
პრობლემის ფორმულირება, როგორც MDP, მიიჩნევს, რომ აგენტი პირდაპირ აკვირდება არსებულ გარემოს მდგომარეობას. ამ შემთხვევაში, ნათქვამია, რომ პრობლემას აქვს სრული დაკვირვებადი. თუ აგენტს მხოლოდ სახელმწიფოთა ქვეჯგუფზე აქვს წვდომა, ან თუ დაკვირვებული სახელმწიფოები ხმაურით არის დაზიანებული, ამბობენ, რომ აგენტს აქვს ნაწილობრივი დაკვირვება და ფორმალურად პრობლემა უნდა ჩამოყალიბდეს როგორც ნაწილობრივ შესამჩნევი მარკოვის გადაწყვეტილების პროცესი. ორივე შემთხვევაში აგენტისთვის ხელმისაწვდომი ქმედებების კომპლექტი შეიძლება შეიზღუდოს. მაგალითად, ანგარიშის ბალანსის მდგომარეობა შეიძლება შეიზღუდოს დადებითად; თუ მდგომარეობის ამჟამინდელი ღირებულებაა 3 და სახელმწიფო გადასვლის მცდელობაა 4-ით შეამციროს მნიშვნელობა, გადასვლა არ დაიშვება.
როდესაც აგენტის საქმიანობა შედარებულია აგენტის მუშაობასთან, რომელიც ოპტიმალურად მოქმედებს, შესრულების სხვაობა იწვევს სინანულის წარმოდგენას. იმისათვის, რომ ოპტიმალურად იმოქმედოს, აგენტმა უნდა იმსჯელოს თავისი მოქმედებების გრძელვადიან შედეგებზე (მაგ., მაქსიმალურად მიიღოს მომავალი შემოსავალი), თუმცა ამასთან დაკავშირებული დაუყოვნებელი ჯილდო შეიძლება უარყოფითი იყოს.
ამრიგად, განმტკიცების სწავლება განსაკუთრებით შეეფერება პრობლემებს, რომლებიც მოიცავს გრძელვადიანი და მოკლევადიანი ჯილდოს გაცვლას. იგი წარმატებით იქნა გამოყენებული სხვადასხვა პრობლემაზე, მათ შორის რობოტების მართვა, ლიფტის დანიშვნა, ტელეკომუნიკაციები, ნარდი, ქვები და Go (AlphaGo).
განმტკიცების სწავლებას ორი ელემენტი აძლიერებს: ნიმუშების გამოყენება შესრულების ოპტიმიზაციისთვის და ფუნქციების მიახლოების გამოყენება დიდ გარემოში მოსაგვარებლად. ამ ორი ძირითადი კომპონენტის წყალობით, გაძლიერების სწავლება შეიძლება გამოყენებულ იქნას დიდ გარემოში შემდეგ სიტუაციებში:
- გარემოს მოდელი ცნობილია, მაგრამ ანალიტიკური გამოსავალი არ არის ხელმისაწვდომი.
- მოცემულია მხოლოდ გარემოს სიმულაციური მოდელი (სიმულაციაზე დაფუძნებული ოპტიმიზაციის საგანი).
- გარემოს შესახებ ინფორმაციის შეგროვების ერთადერთი გზაა მასთან ურთიერთობა.
ამ ორიდან პირველი ორი შეიძლება ჩაითვალოს დაგეგმვის პრობლემად (რადგან გარკვეული ფორმის მოდელი არსებობს), ხოლო ბოლო შეიძლება ჩაითვალოს ნამდვილი სწავლის პრობლემად. ამასთან, განმტკიცების სწავლება ორივე დაგეგმვის პრობლემას გარდაქმნის მანქანური სწავლების პრობლემებად.
საძიებო და საექსპლუატაციო ვაჭრობა ყველაზე საფუძვლიანად იქნა შესწავლილი მრავალ შეიარაღებული ბანდიტის პრობლემისა და სასრული სახელმწიფო სივრცის MDP- ებისთვის ბურნეტასსა და კატეჰაკისში (1997).
გაძლიერების სწავლა მოითხოვს ჭკვიანური საძიებო მექანიზმებს; მოქმედებების შემთხვევითი შერჩევა, სავარაუდო განაწილების მითითების გარეშე, აჩვენებს ცუდად შესრულებას. შედარებით კარგად გასაგებია (მცირე) სასრული მარკოვის გადაწყვეტილების პროცესების შემთხვევა. ამასთან, ალგორითმების არარსებობის გამო, რომლებიც კარგად შეესაბამება სახელმწიფოების რაოდენობას (ან მასშტაბებს პრობლემებს უსასრულო სახელმწიფო სივრცეებში), კვლევის მარტივი მეთოდები ყველაზე პრაქტიკულია.
მაშინაც კი, თუ კვლევის საკითხი არ იქნა გათვალისწინებული და მაშინაც კი, თუ სახელმწიფო შეინიშნებოდა, პრობლემა რჩება წარსული გამოცდილების გამოყენებაში იმის გასარკვევად, თუ რომელი ქმედებები იწვევს უფრო მეტ კუმულაციურ ჯილდოს.
სასერტიფიკაციო კურიკულუმის დეტალურად გასაცნობად შეგიძლიათ გააფართოვოთ და გაანალიზოთ ქვემოთ მოცემული ცხრილი.
EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum მიუთითებს ღია წვდომის დიდაქტიკური მასალების ვიდეო ფორმატში. სასწავლო პროცესი დაყოფილია ეტაპობრივ სტრუქტურად (პროგრამები -> გაკვეთილები -> თემები), რომელიც მოიცავს სასწავლო გეგმის შესაბამის ნაწილებს. ასევე გათვალისწინებულია ულიმიტო კონსულტაცია დომენის ექსპერტებთან.
სერტიფიცირების პროცედურის შესახებ დეტალებისთვის შეამოწმეთ როგორ მუშაობს.
სასწავლო გეგმის საცნობარო რესურსები
ადამიანის დონის კონტროლი ღრმა განმტკიცების სასწავლო პუბლიკაციის საშუალებით
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
ღია წვდომის კურსი ღრმა განმტკიცების სწავლების შესახებ UC Berkeley- ში
http://rail.eecs.berkeley.edu/deeprlcourse/
RL მიმართა K-armbed bandit– ის პრობლემას Manifold.ai– სგან
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
ჩამოტვირთეთ სრული ოფლაინ თვითსწავლების მოსამზადებელი მასალები EITC/AI/ARL Advanced Reinforcement Learning პროგრამისთვის PDF ფაილში
EITC/AI/ARL მოსამზადებელი მასალები – სტანდარტული ვერსია
EITC/AI/ARL მოსამზადებელი მასალები – გაფართოებული ვერსია მიმოხილვის კითხვებით