EITC/AI/ARL Advanced Reinforcement Learning е европейската програма за ИТ сертифициране на подхода на DeepMind към обучението за укрепване в изкуствения интелект.
Учебната програма на EITC/AI/ARL Advanced Reinforcement Learning се фокусира върху теоретичните аспекти и практическите умения в техниките за засилване на обучението от гледна точка на DeepMind, организирана в рамките на следната структура, включваща изчерпателно видео дидактическо съдържание като референция за тази EITC сертификация.
Усилващото обучение (RL) е област на машинно обучение, занимаваща се с това как интелигентните агенти трябва да предприемат действия в среда, за да максимизират идеята за кумулативна награда. Усилващото обучение е една от трите основни парадигми на машинното обучение, заедно с контролирано обучение и учене без надзор.
Усилващото обучение се различава от контролираното обучение по това, че не се нуждаят от представяне на обозначени двойки вход/изход и не се нуждаят от изрично коригиране на неоптимални действия. Вместо това фокусът е върху намирането на баланс между изследването (на неизследвана територия) и експлоатацията (на настоящите познания).
Средата обикновено се посочва под формата на процес на решение на Марков (MDP), тъй като много алгоритми за учене на подсилване за този контекст използват техники за динамично програмиране. Основната разлика между класическите методи за динамично програмиране и алгоритмите за засилване на обучението е, че последните не предполагат знания за точен математически модел на MDP и те са насочени към големи MDP, където точните методи стават невъзможни.
Поради своята обща обоснованост, обучението за подсилване се изучава в много дисциплини, като теория на игрите, теория на управлението, изследвания на операциите, теория на информацията, оптимизация, базирана на симулация, мулти-агентни системи, роева интелигентност и статистика. В литературата за изследване на операциите и контрола литературното обучение се нарича приблизително динамично програмиране или невро-динамично програмиране. Проблемите, които представляват интерес за засилване на обучението, са изследвани и в теорията за оптималния контрол, която се занимава най-вече със съществуването и характеризирането на оптимални решения и алгоритми за точното им изчисляване, и по-малко с ученето или сближаването, особено при липса на математически модел на околната среда. В икономиката и теорията на игрите подкрепящото обучение може да се използва, за да се обясни как може да възникне равновесие при ограничена рационалност.
Основната армировка е моделирана като процес на решение на Марков (MDP). В математиката процесът на решение на Марков (MDP) е процес на стохастично управление с дискретно време. Той предоставя математическа рамка за моделиране на вземането на решения в ситуации, при които резултатите са отчасти случайни и отчасти под контрола на вземащия решение. MDP са полезни за изучаване на оптимизационни проблеми, решени чрез динамично програмиране. MDPs бяха известни поне още през 1950-те години. Основно изследване на процесите на вземане на решения по Марков е резултат от книгата на Роналд Хауърд „Динамично програмиране и процеси на Марков“ от 1960 г. Те се използват в много дисциплини, включително роботика, автоматичен контрол, икономика и производство. Името на MDP идва от руския математик Андрей Марков, тъй като те са продължение на веригите на Марков.
На всяка времева стъпка процесът е в някакво състояние S и взимащият решение може да избере всяко действие a, което е налично в състояние S. Процесът реагира на следващата стъпка от време чрез произволно преминаване в ново състояние S 'и дава на взимащ решение съответна награда Ra (S, S ').
Вероятността процесът да премине в новото си състояние S 'се влияе от избраното действие a. По-конкретно, тя се дава от функцията за преход на състоянието Pa (S, S '). По този начин следващото състояние S 'зависи от текущото състояние S и действието на взимащия решение a. Но като се има предвид S и a, той е условно независим от всички предишни състояния и действия. С други думи, държавните преходи на MDP удовлетворяват собствеността на Марков.
Процесите за вземане на решения по Марков са продължение на веригите на Марков; разликата е добавянето на действия (позволява избор) и награди (дава мотивация). И обратно, ако съществува само едно действие за всяко състояние (напр. „Изчакайте“) и всички награди са еднакви (напр. „Нула“), процесът на решение на Марков се свежда до верига на Марков.
Учебният агент за подсилване взаимодейства със заобикалящата го среда в отделни стъпки от време. Във всеки момент t агентът получава текущото състояние S (t) и възнаграждение r (t). След това избира действие a (t) от набора от налични действия, което впоследствие се изпраща в околната среда. Средата преминава в ново състояние S (t + 1) и се определя наградата r (t + 1), свързана с прехода. Целта на укрепващия учебен агент е да научи политика, която максимизира очакваната кумулативна награда.
Формулирането на проблема като MDP предполага, че агентът пряко наблюдава текущото състояние на околната среда. В този случай се твърди, че проблемът има пълна видимост. Ако агентът има достъп само до подмножество състояния или ако наблюдаваните състояния са повредени от шум, се казва, че агентът има частична наблюдаемост и формално проблемът трябва да бъде формулиран като частично наблюдаем процес на решение на Марков. И в двата случая наборът от действия, достъпни за агента, може да бъде ограничен. Например състоянието на салдото по сметката може да бъде ограничено да бъде положително; ако текущата стойност на състоянието е 3 и преходът на държавата се опита да намали стойността с 4, преходът няма да бъде разрешен.
Когато ефективността на агента се сравнява с тази на агент, който действа оптимално, разликата в производителността поражда представата за съжаление. За да действа почти оптимално, агентът трябва да разсъждава за дългосрочните последици от своите действия (т.е. да максимизира бъдещите доходи), въпреки че непосредствената награда, свързана с това, може да бъде отрицателна.
По този начин обучението за подсилване е особено подходящо за проблеми, които включват дългосрочен срещу краткосрочен компромис с награда. Той е приложен успешно за различни проблеми, включително управление на роботи, планиране на асансьора, телекомуникации, табла, пулове и Go (AlphaGo).
Два елемента правят обучението за усилване мощно: използването на проби за оптимизиране на производителността и използването на приближение на функциите за справяне с големи среди. Благодарение на тези два ключови компонента, обучението за укрепване може да се използва в големи среди в следните ситуации:
- Известен е модел на околната среда, но няма аналитично решение.
- Даден е само симулационен модел на околната среда (предмет на симулационна оптимизация).
- Единственият начин за събиране на информация за околната среда е взаимодействието с нея.
Първите два от тези проблеми биха могли да се считат за проблеми при планирането (тъй като е налице някаква форма на модел), докато последният може да се счита за истински учебен проблем. Ученето с подсилване обаче превръща и двата проблема за планиране в проблеми с машинното обучение.
Проучването срещу компромиса с експлоатацията е проучено най-задълбочено чрез проблема с многовъоръжените бандити и за MDP на крайни държави в Burnetas и Katehakis (1997).
Усилващото обучение изисква интелигентни механизми за изследване; случаен избор на действия, без позоваване на приблизително разпределение на вероятността, показва лоша производителност. Случаят с (малки) крайни процеси на вземане на решения по Марков е относително добре разбран. Поради липсата на алгоритми, които се мащабират добре с броя на състоянията (или се мащабират до проблеми с безкрайни пространства на състояния), най-практични са прости методи за изследване.
Дори ако проблемът с проучването не се пренебрегва и дори държавата да е била наблюдаема, проблемът остава да се използва предишен опит, за да се установи кои действия водят до по-високи кумулативни награди.
За да се запознаете в детайли с учебната програма за сертифициране, можете да разширите и анализирате таблицата по-долу.
Учебната програма за сертифициране на усъвършенствано обучение на EITC/AI/ARL препраща към дидактически материали с отворен достъп във видео форма. Процесът на обучение е разделен на структура стъпка по стъпка (програми -> уроци -> теми), обхващащи съответните части от учебната програма. Предоставят се и неограничени консултации с експерти по домейни.
За подробности относно процедурата за сертифициране проверете Как работи.
Референтни ресурси за учебната програма
Контрол на човешко ниво чрез публикация „Дълбоко подсилване на обучението“
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Курс с отворен достъп за задълбочено обучение за подсилване в UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL, приложен към проблема с K-armbed bandit от Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Изтеглете пълните офлайн подготвителни материали за самообучение за програмата EITC/AI/ARL Advanced Reinforcement Learning в PDF файл
EITC/AI/ARL подготвителни материали – стандартна версия
Подготвителни материали за EITC/AI/ARL – разширена версия с въпроси за преглед