×
1 Wählen Sie EITC/EITCA-Zertifikate
2 Online-Prüfungen lernen und ablegen
3 Lassen Sie sich Ihre IT-Kenntnisse zertifizieren

Bestätigen Sie Ihre IT-Fähigkeiten und -Kompetenzen im Rahmen des europäischen IT-Zertifizierungsrahmens von überall auf der Welt vollständig online.

EITCA-Akademie

Zertifizierungsstandard für digitale Fähigkeiten des European IT Certification Institute mit dem Ziel, die Entwicklung der digitalen Gesellschaft zu unterstützen

Melden Sie sich entweder mit Ihrem Benutzernamen oder Ihrer E-Mail-Adresse bei Ihrem Konto an

EIN KONTO ERSTELLEN PASSWORT VERGESSEN?

VERGESSEN SIE IHRE DETAILS?

AAH, warten, ich erinnere mich jetzt!

EIN KONTO ERSTELLEN

HAST DU SCHON EIN KONTO?
EUROPÄISCHE ZERTIFIZIERUNGSAKADEMIE FÜR IT - BESCHEINIGUNG IHRER PROFESSIONELLEN DIGITALEN FÄHIGKEITEN
  • ANMELDEN
  • ANMELDEN
  • INFOS

EITCA-Akademie

EITCA-Akademie

Das European Information Technologies Certification Institute - EITCI ASBL

Zertifizierungsstelle

EITCI Institut

Brüssel, Europäische Union

Anwendung des europäischen Standards für die IT-Zertifizierung (EITC) zur Unterstützung der IT-Professionalität und der Digital Society

  • ZERTIFIKATE
    • EITCA-AKADEMIEN
      • EITCA ACADEMIES KATALOG<
      • EITCA/CG COMPUTERGRAFIKEN
      • EITCA/IST INFORMATIONSSICHERHEIT
      • EITCA/BI-GESCHÄFTSINFORMATIONEN
      • EITCA/KC-SCHLÜSSELKOMPETENZEN
      • EITCA/EG E-REGIERUNG
      • EITCA/WD-WEBENTWICKLUNG
      • EITCA/AI KÜNSTLICHE INTELLIGENZ
    • EITC-ZERTIFIKATE
      • EITC-ZERTIFIKATSKATALOG<
      • COMPUTERGRAFIK-ZERTIFIKATE
      • WEBDESIGN-ZERTIFIKATE
      • 3D-DESIGN-ZERTIFIKATE
      • BÜRO IT-ZERTIFIKATE
      • BITCOIN BLOCKCHAIN-ZERTIFIKAT
      • WORDPRESS-ZERTIFIKAT
      • CLOUD-PLATTFORM-ZERTIFIKATNEUES
    • EITC-ZERTIFIKATE
      • INTERNET-ZERTIFIKATE
      • CRYPTOGRAPHY-ZERTIFIKATE
      • BUSINESS IT-ZERTIFIKATE
      • TELEWORK-ZERTIFIKATE
      • PROGRAMMIERZERTIFIKATE
      • DIGITAL PORTRAIT ZERTIFIKAT
      • ZERTIFIKATE FÜR DIE WEBENTWICKLUNG
      • TIEFE LERNZERTIFIKATENEUES
    • ZERTIFIKATE FÜR
      • ÖFFENTLICHE VERWALTUNG DER EU
      • LEHRER UND BILDER
      • IT-SICHERHEITSPROFIS
      • GRAFIKDESIGNER & KÜNSTLER
      • GESCHÄFTSFÜHRER UND MANAGER
      • BLOCKCHAIN ​​ENTWICKLER
      • WEB-ENTWICKLER
      • CLOUD AI EXPERTENNEUES
  • EMPFOHLEN
  • SUBVENTION
  • WIE FUNKTIONIERT ES?
  •   IT ID
  • ABOUT
  • KONTAKT
  • MEINE BESTELLUNGEN
    Ihre aktuelle Bestellung ist leer.
EITCIINSTITUTE
CERTIFIED

EITC/AI/ARL Advanced Reinforced Learning

by Administrator / Sonntag, 07 Februar 2021 / Veröffentlicht in Allgemein
Aktueller Status
Nicht eingeschrieben
PREIS
€110
Los geht’s
Melden Sie sich für diese Zertifizierung an

EITC/AI/ARL Advanced Reinforced Learning ist das europäische IT-Zertifizierungsprogramm zum DeepMind-Ansatz für verstärktes Lernen in künstlicher Intelligenz.

Der Lehrplan des EITC/AI/ARL Advanced Reinforced Learning konzentriert sich auf theoretische Aspekte und praktische Fähigkeiten in verstärkten Lerntechniken aus der Sicht von DeepMind, die in der folgenden Struktur organisiert sind und umfassende videodidaktische Inhalte als Referenz für diese EITC-Zertifizierung umfassen.

Reinforcement Learning (RL) ist ein Bereich des maschinellen Lernens, in dem es darum geht, wie intelligente Agenten in einer Umgebung Maßnahmen ergreifen sollten, um den Begriff der kumulativen Belohnung zu maximieren. Reinforcement Learning ist neben überwachtem und unbeaufsichtigtem Lernen eines von drei grundlegenden Paradigmen des maschinellen Lernens.

Das Reinforcement-Lernen unterscheidet sich vom überwachten Lernen darin, dass keine gekennzeichneten Eingabe/Ausgabe-Paare präsentiert werden müssen und keine suboptimalen Aktionen explizit korrigiert werden müssen. Stattdessen liegt der Schwerpunkt auf der Suche nach einem Gleichgewicht zwischen Exploration (Neuland) und Ausbeutung (nach aktuellem Kenntnisstand).

Die Umgebung wird typischerweise in Form eines Markov-Entscheidungsprozesses (MDP) angegeben, da viele Verstärkungslernalgorithmen für diesen Kontext dynamische Programmiertechniken verwenden. Der Hauptunterschied zwischen den klassischen dynamischen Programmiermethoden und den Verstärkungslernalgorithmen besteht darin, dass letztere keine Kenntnis eines genauen mathematischen Modells des MDP voraussetzen und auf große MDPs abzielen, bei denen genaue Methoden nicht mehr durchführbar sind.

Aufgrund seiner Allgemeinheit wird das verstärkte Lernen in vielen Disziplinen untersucht, wie z. B. Spieltheorie, Steuerungstheorie, Operationsforschung, Informationstheorie, simulationsbasierte Optimierung, Multiagentensysteme, Schwarmintelligenz und Statistik. In der Literatur zu Operations Research und Control wird das verstärkte Lernen als ungefähre dynamische Programmierung oder neurodynamische Programmierung bezeichnet. Die Probleme, die für das verstärkte Lernen von Interesse sind, wurden auch in der Theorie der optimalen Steuerung untersucht, die sich hauptsächlich mit der Existenz und Charakterisierung optimaler Lösungen und Algorithmen für ihre genaue Berechnung befasst, und weniger mit dem Lernen oder der Annäherung, insbesondere in Abwesenheit von ein mathematisches Modell der Umwelt. In der Wirtschafts- und Spieltheorie kann das verstärkte Lernen verwendet werden, um zu erklären, wie unter begrenzter Rationalität ein Gleichgewicht entstehen kann.

Die grundlegende Verstärkung wird als Markov-Entscheidungsprozess (MDP) modelliert. In der Mathematik ist ein Markov-Entscheidungsprozess (MDP) ein zeitdiskreter stochastischer Steuerungsprozess. Es bietet einen mathematischen Rahmen für die Modellierung der Entscheidungsfindung in Situationen, in denen die Ergebnisse teilweise zufällig sind und teilweise von einem Entscheidungsträger kontrolliert werden. MDPs sind nützlich, um Optimierungsprobleme zu untersuchen, die durch dynamische Programmierung gelöst werden. MDPs waren mindestens bereits in den 1950er Jahren bekannt. Ein Kern der Forschung zu Markov-Entscheidungsprozessen ergab sich aus Ronald Howards 1960er Buch Dynamic Programming and Markov Processes. Sie werden in vielen Disziplinen eingesetzt, darunter Robotik, automatische Steuerung, Wirtschaftlichkeit und Fertigung. Der Name MDPs stammt vom russischen Mathematiker Andrey Markov, da sie eine Erweiterung der Markov-Ketten sind.

Zu jedem Zeitschritt befindet sich der Prozess in einem Zustand S, und der Entscheidungsträger kann eine beliebige Aktion a auswählen, die in Zustand S verfügbar ist. Der Prozess reagiert beim nächsten Zeitschritt, indem er zufällig in einen neuen Zustand S 'übergeht und die gibt Entscheider eine entsprechende Belohnung Ra (S, S ').

Die Wahrscheinlichkeit, dass der Prozess in seinen neuen Zustand S 'übergeht, wird durch die gewählte Aktion a beeinflusst. Insbesondere ist es durch die Zustandsübergangsfunktion Pa (S, S ') gegeben. Somit hängt der nächste Zustand S 'vom aktuellen Zustand S und der Aktion des Entscheidungsträgers a ab. Bei gegebenem S und a ist es jedoch bedingt unabhängig von allen vorherigen Zuständen und Handlungen. Mit anderen Worten, die Zustandsübergänge eines MDP erfüllen die Markov-Eigenschaft.

Markov-Entscheidungsprozesse sind eine Erweiterung der Markov-Ketten. Der Unterschied besteht in der Hinzufügung von Aktionen (Auswahlmöglichkeiten) und Belohnungen (Motivation). Wenn umgekehrt für jeden Zustand nur eine Aktion vorhanden ist (z. B. „Warten“) und alle Belohnungen gleich sind (z. B. „Null“), wird ein Markov-Entscheidungsprozess auf eine Markov-Kette reduziert.

Ein Verstärkungslernmittel interagiert in diskreten Zeitschritten mit seiner Umgebung. Zu jedem Zeitpunkt t erhält der Agent den aktuellen Zustand S (t) und die Belohnung r (t). Anschließend wählt es aus den verfügbaren Aktionen eine Aktion a (t) aus, die anschließend an die Umgebung gesendet wird. Die Umgebung bewegt sich in einen neuen Zustand S (t + 1) und die mit dem Übergang verbundene Belohnung r (t + 1) wird bestimmt. Das Ziel eines Verstärkungslernagenten ist es, eine Richtlinie zu lernen, die die erwartete kumulative Belohnung maximiert.

Bei der Formulierung des Problems als MDP wird davon ausgegangen, dass der Agent den aktuellen Umgebungszustand direkt beobachtet. In diesem Fall soll das Problem vollständig beobachtbar sein. Wenn der Agent nur Zugriff auf eine Teilmenge von Zuständen hat oder wenn die beobachteten Zustände durch Rauschen verfälscht sind, wird der Agent als teilweise beobachtbar bezeichnet, und formal muss das Problem als teilweise beobachtbarer Markov-Entscheidungsprozess formuliert werden. In beiden Fällen kann der dem Agenten zur Verfügung stehende Aktionssatz eingeschränkt werden. Beispielsweise könnte der Status eines Kontostands auf positiv beschränkt werden. Wenn der aktuelle Wert des Zustands 3 ist und der Zustandsübergang versucht, den Wert um 4 zu verringern, ist der Übergang nicht zulässig.

Wenn die Leistung des Agenten mit der eines Agenten verglichen wird, der optimal handelt, führt der Leistungsunterschied zu dem Gedanken des Bedauerns. Um nahezu optimal zu handeln, muss der Agent über die langfristigen Konsequenzen seiner Handlungen nachdenken (dh das zukünftige Einkommen maximieren), obwohl die damit verbundene unmittelbare Belohnung negativ sein kann.

Daher ist das verstärkte Lernen besonders gut für Probleme geeignet, die einen langfristigen oder einen kurzfristigen Kompromiss zwischen Belohnungen beinhalten. Es wurde erfolgreich auf verschiedene Probleme angewendet, einschließlich Robotersteuerung, Aufzugsplanung, Telekommunikation, Backgammon, Kontrolleure und Go (AlphaGo).

Zwei Elemente machen das Lernen zur Verstärkung leistungsfähig: die Verwendung von Stichproben zur Optimierung der Leistung und die Verwendung der Funktionsnäherung zur Bewältigung großer Umgebungen. Dank dieser beiden Schlüsselkomponenten kann das verstärkte Lernen in großen Umgebungen in den folgenden Situationen eingesetzt werden:

  • Ein Modell der Umgebung ist bekannt, eine analytische Lösung ist jedoch nicht verfügbar.
  • Es wird nur ein Simulationsmodell der Umgebung angegeben (Gegenstand der simulationsbasierten Optimierung).
  • Die einzige Möglichkeit, Informationen über die Umgebung zu sammeln, besteht darin, mit ihr zu interagieren.

Die ersten beiden dieser Probleme könnten als Planungsprobleme angesehen werden (da irgendeine Form von Modell verfügbar ist), während das letzte als echtes Lernproblem angesehen werden könnte. Durch das verstärkte Lernen werden jedoch beide Planungsprobleme in Probleme des maschinellen Lernens umgewandelt.

Der Kompromiss zwischen Exploration und Exploitation wurde am gründlichsten anhand des Problems der mehrarmigen Banditen und für MDPs im endlichen Staatsraum in Burnetas und Katehakis (1997) untersucht.

Verstärkungslernen erfordert clevere Erkundungsmechanismen. Die zufällige Auswahl von Aktionen ohne Bezugnahme auf eine geschätzte Wahrscheinlichkeitsverteilung zeigt eine schlechte Leistung. Der Fall von (kleinen) endlichen Markov-Entscheidungsprozessen ist relativ gut verstanden. Aufgrund des Fehlens von Algorithmen, die sich gut mit der Anzahl der Zustände skalieren lassen (oder auf Probleme mit unendlichen Zustandsräumen skalieren lassen), sind einfache Erkundungsmethoden am praktischsten.

Selbst wenn das Thema Exploration nicht berücksichtigt wird und selbst wenn der Staat beobachtbar war, bleibt das Problem, die Erfahrungen der Vergangenheit zu nutzen, um herauszufinden, welche Maßnahmen zu höheren kumulativen Belohnungen führen.

Um sich im Detail mit dem Zertifizierungscurriculum vertraut zu machen, können Sie die folgende Tabelle erweitern und analysieren.

Das EITC/AI/ARL Advanced Reinforced Learning Certification Curriculum verweist auf frei zugängliche didaktische Materialien in Videoform. Der Lernprozess ist in eine schrittweise Struktur (Programme -> Lektionen -> Themen) unterteilt, die relevante Lehrplanteile abdeckt. Unbegrenzte Beratung durch Domänenexperten wird ebenfalls angeboten.
Einzelheiten zum Zertifizierungsverfahren finden Sie unter So funktioniert es.

Referenzressourcen für Lehrpläne

Kontrolle auf menschlicher Ebene durch Veröffentlichung von Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning

Open-Access-Kurs zum vertieften Lernen an der UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/

RL bezog sich auf das K-Armbed-Banditenproblem von Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning

Curriculum des Zertifizierungsprogramms

Alles anzeigen
Einleitung 1-Thema
Erweitern
Inhalt der Lektion
0% abgeschlossen 0/1-Schritte
Einführung in das verstärkte Lernen
Kompromiss zwischen Exploration und Ausbeutung 1-Thema
Erweitern
Inhalt der Lektion
0% abgeschlossen 0/1-Schritte
Erforschung und Ausbeutung
Markov Entscheidungsprozesse 1-Thema
Erweitern
Inhalt der Lektion
0% abgeschlossen 0/1-Schritte
Markov-Entscheidungsprozesse und dynamische Programmierung
Vorhersage und Kontrolle 1-Thema
Erweitern
Inhalt der Lektion
0% abgeschlossen 0/1-Schritte
Modellfreie Vorhersage und Kontrolle
Tiefes Verstärkungslernen 5-Themen
Erweitern
Inhalt der Lektion
0% abgeschlossen 0/5-Schritte
Funktionsnäherung und tiefes Verstärkungslernen
Politikverläufe und Akteurskritiker
Planung und Modelle
Fortgeschrittene Themen im vertieften Lernen
Lernmittel für tiefe Verstärkung
Fallstudien 5-Themen
Erweitern
Inhalt der Lektion
0% abgeschlossen 0/5-Schritte
Fallstudie zu klassischen Spielen
AlphaGo Mastering Go
AlphaZero beherrscht Schach, Shōgi und Go
AlphaZero besiegt Stockfish im Schach
AplhaStar beherrscht StartCraft II
EITC/AI/ARL Advanced Reinforcement Learning
  • Tweet

Über Uns Administrator

Home » Mein Konto

Zertifizierungszentrum

Programm Home Alles anzeigen
Einleitung
1-Thema
Einführung in das verstärkte Lernen
Kompromiss zwischen Exploration und Ausbeutung
1-Thema
Erforschung und Ausbeutung
Markov Entscheidungsprozesse
1-Thema
Markov-Entscheidungsprozesse und dynamische Programmierung
Vorhersage und Kontrolle
1-Thema
Modellfreie Vorhersage und Kontrolle
Tiefes Verstärkungslernen
5-Themen
Funktionsnäherung und tiefes Verstärkungslernen
Politikverläufe und Akteurskritiker
Planung und Modelle
Fortgeschrittene Themen im vertieften Lernen
Lernmittel für tiefe Verstärkung
Fallstudien
5-Themen
Fallstudie zu klassischen Spielen
AlphaGo Mastering Go
AlphaZero beherrscht Schach, Shōgi und Go
AlphaZero besiegt Stockfish im Schach
AplhaStar beherrscht StartCraft II
EITC/AI/ARL Advanced Reinforcement Learning

BENUTZERMENÜ

  • Meine Buchungen

ZERTIFIKATSKATEGORIE

  • EITC-Zertifizierung (105)
  • EITCA-Zertifizierung (9)

Wonach suchst du?

  • Einleitung
  • Wie funktioniert es?
  • EITCA-Akademien
  • EITCI DSJC-Subvention
  • Vollständiger EITC-Katalog
  • Ihre Bestellung
  • Ausgewählte Auktionen
  •   IT ID
  • Über Uns
  • Kontakt

    Verwaltungsbüro der EITCA Academy

    Europäisches IT-Zertifizierungsinstitut
    Brüssel, Belgien, Europäische Union

    Die EITC/EITCA-Zertifizierungsstelle
    Regelung des europäischen IT-Zertifizierungsstandards
    Starten Kontakt Formular oder rufen Sie an: +32 25887351

    Vor 16 TagenDie #EITC/WD/WPF WordPress-Grundlagenzertifikat (Teil der #EITCA/WD) bescheinigt Sachkunde in #WordPress CMS, im … https://t.co/A2jjXPeKgj
    Folgen Sie @EITCI

    Automatisch in Ihre Sprache übersetzen

    Geschäftsbedingungen | Datenschutz
    Folgen Sie @EITCI
    EITCA-Akademie
    • EITCA Academy in sozialen Medien
    EITCA-Akademie


    © 2008-2023  Europäisches IT-Zertifizierungsinstitut
    Brüssel, Belgien, Europäische Union

    TOPS
    Chatten Sie mit dem Support
    Chatten Sie mit dem Support
    Fragen, Zweifel, Probleme? Wir sind hier, um dir zu helfen!
    Ende des Gesprächs
    Verbindung wird hergestellt ...
    :
    :
    :
    Absenden
    :
    :
    Chat beginnen
    Die Chat-Sitzung wurde beendet. Vielen Dank!
    Bitte bewerten Sie die Unterstützung, die Sie erhalten haben.
    Gut Badewanne