×
1 Wählen Sie EITC/EITCA-Zertifikate
2 Online-Prüfungen lernen und ablegen
3 Lassen Sie sich Ihre IT-Kenntnisse zertifizieren

Bestätigen Sie Ihre IT-Fähigkeiten und -Kompetenzen im Rahmen des europäischen IT-Zertifizierungsrahmens von überall auf der Welt vollständig online.

EITCA-Akademie

Zertifizierungsstandard für digitale Fähigkeiten des European IT Certification Institute mit dem Ziel, die Entwicklung der digitalen Gesellschaft zu unterstützen

LOGGEN SIE SICH IN IHR KONTO EIN

EIN KONTO ERSTELLEN PASSWORT VERGESSEN?

PASSWORT VERGESSEN?

AAH, warten, ich erinnere mich jetzt!

EIN KONTO ERSTELLEN

HAST DU SCHON EIN KONTO?
EUROPÄISCHE ZERTIFIZIERUNGSAKADEMIE FÜR IT - BESCHEINIGUNG IHRER PROFESSIONELLEN DIGITALEN FÄHIGKEITEN
  • ANMELDEN
  • ANMELDEN
  • INFOS

EITCA-Akademie

EITCA-Akademie

Das European Information Technologies Certification Institute - EITCI ASBL

Zertifizierungsanbieter

EITCI Institut ASBL

Brüssel, Europäische Union

Der Rahmen für die europäische IT-Zertifizierung (EITC) zur Unterstützung der IT-Professionalität und der digitalen Gesellschaft

  • ZERTIFIKATE
    • EITCA-AKADEMIEN
      • EITCA ACADEMIES KATALOG<
      • EITCA/CG COMPUTERGRAFIKEN
      • EITCA/IST INFORMATIONSSICHERHEIT
      • EITCA/BI-GESCHÄFTSINFORMATIONEN
      • EITCA/KC-SCHLÜSSELKOMPETENZEN
      • EITCA/EG E-REGIERUNG
      • EITCA/WD-WEBENTWICKLUNG
      • EITCA/AI KÜNSTLICHE INTELLIGENZ
    • EITC-ZERTIFIKATE
      • EITC-ZERTIFIKATSKATALOG<
      • COMPUTERGRAFIK-ZERTIFIKATE
      • WEBDESIGN-ZERTIFIKATE
      • 3D-DESIGN-ZERTIFIKATE
      • BÜRO IT-ZERTIFIKATE
      • BITCOIN BLOCKCHAIN-ZERTIFIKAT
      • WORDPRESS-ZERTIFIKAT
      • CLOUD-PLATTFORM-ZERTIFIKATNEU
    • EITC-ZERTIFIKATE
      • INTERNET-ZERTIFIKATE
      • CRYPTOGRAPHY-ZERTIFIKATE
      • BUSINESS IT-ZERTIFIKATE
      • TELEWORK-ZERTIFIKATE
      • PROGRAMMIERZERTIFIKATE
      • DIGITAL PORTRAIT ZERTIFIKAT
      • ZERTIFIKATE FÜR DIE WEBENTWICKLUNG
      • TIEFE LERNZERTIFIKATENEU
    • ZERTIFIKATE FÜR
      • ÖFFENTLICHE VERWALTUNG DER EU
      • LEHRER UND BILDER
      • IT-SICHERHEITSPROFIS
      • GRAFIKDESIGNER & KÜNSTLER
      • GESCHÄFTSFÜHRER UND MANAGER
      • BLOCKCHAIN ​​ENTWICKLER
      • WEB-ENTWICKLER
      • CLOUD AI EXPERTENNEU
  • EMPFOHLEN
  • SUBVENTION
  • WIE FUNKTIONIERT ES?
  •   IT ID
  • ÜBER MICH
  • KONTAKT
  • MEINE BESTELLUNGEN
    Ihre aktuelle Bestellung ist leer.
EITCIINSTITUTE
CERTIFIED

Wie lautet die mathematische Formel der Faltungsoperation an einem 2D-Bild?

by EITCA-Akademie / Donnerstag, 23 Mai 2024 / Veröffentlicht in Künstliche Intelligenz, EITC/AI/ADL Advanced Deep Learning, Fortgeschrittene Computer Vision, Faltungs-Neuronale Netze zur Bilderkennung

Die Faltungsoperation ist ein grundlegender Prozess im Bereich der Faltungs-Neuronalen Netze (CNNs), insbesondere im Bereich der Bilderkennung. Dieser Vorgang ist von zentraler Bedeutung für das Extrahieren von Merkmalen aus Bildern und ermöglicht es Deep-Learning-Modellen, visuelle Daten zu verstehen und zu interpretieren. Die mathematische Formulierung der Faltungsoperation an einem 2D-Bild ist wichtig, um zu verstehen, wie CNNs Bilder verarbeiten und analysieren.

Mathematisch lässt sich die Faltungsoperation für ein 2D-Bild wie folgt ausdrücken:

[ (I * K)(x, y) = sum_{i=-m}^{m} sum_{j=-n}^{n} I(x+i, y+j) cdot K(i, j ) ]

Kennzahlen:
– ( I ) repräsentiert das Eingabebild.
– (K) bezeichnet den Kernel oder Filter.
– ( (x, y) ) sind die Koordinaten des Ausgabepixels.
– (m) und (n) sind die halbe Breite bzw. halbe Höhe des Kernels.

In dieser Gleichung gleitet der Kernel (K) über das Eingabebild (I), führt eine elementweise Multiplikation durch und summiert die Ergebnisse, um einen einzelnen Ausgabepixelwert zu erzeugen. Dieser Vorgang wird für jedes Pixel in der Ausgabe-Feature-Map wiederholt, was zu einem transformierten Bild führt, das bestimmte Features basierend auf den Kernelwerten hervorhebt.

Die Faltungsoperation kann anhand eines Schritt-für-Schritt-Beispiels besser verstanden werden. Betrachten Sie einen einfachen 3×3-Kernel (K) und ein 5×5-Eingabebild (I):

[ K = begin{bmatrix}
1 & 0 & -1 \
1 & 0 & -1 \
1 & 0 & -1
end{bmatrix} ] [ I = begin{bmatrix}
1 & 2 & 3 & 4 & 5 \
6 & 7 & 8 & 9 & 10 \
11 & 12 & 13 & 14 & 15 \
16 & 17 & 18 & 19 & 20 \
21 & 22 & 23 & 24 & 25
end{bmatrix} ]

Um die Faltung zu berechnen, platzieren wir die Mitte des Kernels an jedem Pixel des Eingabebildes und führen die folgenden Schritte aus:

1. Positionieren Sie den Kernel: Platzieren Sie die Mitte des Kernels in der oberen linken Ecke des Bildes.
2. Elementweise Multiplikation: Multiplizieren Sie jedes Element des Kernels mit dem entsprechenden Element des Bildes.
3. Summe: Summieren Sie die Ergebnisse der elementweisen Multiplikation.
4. Verschieben Sie den Kernel: Verschieben Sie den Kernel in die nächste Position und wiederholen Sie die Schritte 2-3.

Für die erste Position (obere linke Ecke) lautet die Berechnung wie folgt:

[ begin{aligned}
(I * K)(1, 1) &= (1 cdot 1) + (2 cdot 0) + (3 cdot -1) \
&quad + (6 cdot 1) + (7 cdot 0) + (8 cdot -1) \
&quad + (11 cdot 1) + (12 cdot 0) + (13 cdot -1) \
&= 1 + 0 – 3 + 6 + 0 – 8 + 11 + 0 – 13 \
&= -6
end{aligned} ]

Dieses Ergebnis, -6, ist der Wert der Ausgabe-Feature-Map an Position (1, 1). Durch Wiederholen dieses Vorgangs für jede Position des Kernels über dem Eingabebild wird die gesamte Ausgabe-Feature-Map generiert.

Die Faltungsoperation wird typischerweise von zusätzlichen Konzepten wie Padding und Stride begleitet:

- Polsterung: Hinzufügen zusätzlicher Pixel um den Rand des Eingabebilds, oft mit Nullen (Zero-Padding), um die räumlichen Abmessungen der Ausgabe-Feature-Map zu steuern. Durch das Auffüllen wird sichergestellt, dass die Ausgabe-Feature-Map die gleichen Abmessungen wie das Eingabebild hat, wodurch räumliche Informationen erhalten bleiben.
- Schreiten: Die Schrittgröße, mit der sich der Kernel über das Eingabebild bewegt. Ein Schritt von 1 bedeutet, dass sich der Kernel jeweils um ein Pixel bewegt, während ein Schritt von 2 bedeutet, dass sich der Kernel jeweils um zwei Pixel bewegt. Der Schritt wirkt sich auf die räumlichen Abmessungen der Ausgabe-Feature-Map aus, wobei größere Schritte zu kleineren Ausgabeabmessungen führen.

Die Ausgabedimensionen der Faltungsoperation können mit der folgenden Formel berechnet werden:

[ text{Ausgabebreite} = leftlfloor frac{text{Eingabebreite} – text{Kernelbreite} + 2 cdot text{Padding}}{text{Schrittweite}} rightrfloor + 1 ] [ text{Ausgabehöhe} = leftlfloor frac{text {Input Height} – text{Kernel Height} + 2 cdot text{Padding}}{text{Stride}} rightrfloor + 1 ]

Diese Formeln stellen sicher, dass die räumlichen Abmessungen der Ausgabe-Feature-Map basierend auf den Abmessungen des Eingabebilds, der Kernelgröße, der Auffüllung und der Schrittweite korrekt bestimmt werden.

Im Zusammenhang mit Faltungs-Neuronalen Netzen werden mehrere Faltungsschichten übereinander gestapelt, jede mit ihrem eigenen Satz lernbarer Kernel. Diese Schichten extrahieren nach und nach Merkmale höherer Ebene aus dem Eingabebild und ermöglichen es dem Netzwerk, komplexe Muster und Objekte zu erkennen. Die Kernel in jeder Schicht werden während des Trainingsprozesses durch Backpropagation gelernt, wodurch die Leistung des Netzwerks bei der jeweiligen Aufgabe optimiert wird.

Auf Faltungsschichten folgen häufig Aktivierungsfunktionen wie ReLU (Rectified Linear Unit), die Nichtlinearität in das Modell einführen. Diese Nichtlinearität ermöglicht es dem Netzwerk, komplexere Darstellungen zu lernen. Darüber hinaus werden Pooling-Ebenen wie Max-Pooling oder Average-Pooling verwendet, um die räumlichen Abmessungen der Feature-Maps zu reduzieren, wodurch das Modell recheneffizienter und weniger anfällig für Überanpassungen wird.

Ein praktisches Beispiel für ein Faltungs-Neuronales Netzwerk zur Bilderkennung ist die berühmte LeNet-5-Architektur, die für die handschriftliche Ziffernerkennung entwickelt wurde. LeNet-5 besteht aus mehreren Faltungs- und Pooling-Schichten, gefolgt von vollständig verbundenen Schichten. Die Faltungsschichten extrahieren Merkmale aus den Eingabebildern, während die vollständig verbundenen Schichten die endgültige Klassifizierung durchführen.

Um die Faltungsoperation im Kontext von LeNet-5 zu veranschaulichen, betrachten Sie die erste Faltungsschicht, die ein 32×32-Eingabebild aufnimmt und sechs 5×5-Kernel mit einer Schrittweite von 1 und ohne Auffüllung anwendet. Die Ausgabe-Feature-Maps haben Abmessungen von 28×28, berechnet wie folgt:

[ text{Ausgabebreite} = leftlfloor frac{32 – 5 + 2 cdot 0}{1} rightrfloor + 1 = 28 ] [ text{Ausgabehöhe} = leftlfloor frac{32 – 5 + 2 cdot 0}{1} rightrfloor + 1 = 28 ]

Jeder der sechs Kernel erzeugt eine separate 28×28-Feature-Map, die verschiedene Aspekte des Eingabebildes erfasst. Diese Feature-Maps werden dann durch eine ReLU-Aktivierungsfunktion und einen 2×2-Max-Pooling-Layer mit einem Schritt von 2 geleitet, was zu 14×14-Feature-Maps führt.

Die nachfolgenden Schichten in LeNet-5 wenden weiterhin Faltungs- und Pooling-Operationen an, wodurch die räumlichen Dimensionen schrittweise reduziert und gleichzeitig die Tiefe der Feature-Maps erhöht wird. Die letzten vollständig verbundenen Schichten führen die Klassifizierung basierend auf den extrahierten Merkmalen durch und geben die vorhergesagte Ziffernklasse aus.

Die Faltungsoperation ist ein Eckpfeiler von Faltungsneuronalen Netzwerken und ermöglicht die Extraktion aussagekräftiger Merkmale aus Bildern. Die mathematische Formulierung der Faltungsoperation umfasst das Schieben eines Kernels über das Eingabebild, die Durchführung einer elementweisen Multiplikation und die Summierung der Ergebnisse. Zusätzliche Konzepte wie Auffüllung und Schrittweite spielen eine wichtige Rolle bei der Steuerung der räumlichen Dimensionen der Ausgabe-Feature-Map. Faltungsschichten bilden in Kombination mit Aktivierungsfunktionen und Pooling-Schichten die Bausteine ​​leistungsstarker Bilderkennungsmodelle wie LeNet-5, die in der Lage sind, komplexe Muster und Objekte in visuellen Daten zu erkennen.

Weitere aktuelle Fragen und Antworten zu Fortgeschrittene Computer Vision:

  • Wie lautet die Formel für eine Aktivierungsfunktion wie Rectified Linear Unit, um Nichtlinearität in das Modell einzuführen?
  • Wie lautet die mathematische Formel für die Verlustfunktion in Faltungs-Neuronalen Netzen?
  • Wie lautet die Gleichung für das maximale Pooling?
  • Was sind die Vorteile und Herausforderungen der Verwendung von 3D-Faltungen zur Aktionserkennung in Videos und welchen Beitrag leistet der Kinetics-Datensatz zu diesem Forschungsgebiet?
  • Wie nutzt FlowNet im Zusammenhang mit der Schätzung des optischen Flusses eine Encoder-Decoder-Architektur zur Verarbeitung von Bildpaaren und welche Rolle spielt der Flying Chairs-Datensatz beim Training dieses Modells?
  • Wie nutzt die U-NET-Architektur Skip-Verbindungen, um die Präzision und Detailgenauigkeit semantischer Segmentierungsausgaben zu verbessern, und warum sind diese Verbindungen für die Backpropagation wichtig?
  • Was sind die Hauptunterschiede zwischen zweistufigen Detektoren wie Faster R-CNN und einstufigen Detektoren wie RetinaNet im Hinblick auf die Trainingseffizienz und den Umgang mit nicht differenzierbaren Komponenten?
  • Wie verbessert das Konzept von Intersection over Union (IoU) die Bewertung von Objekterkennungsmodellen im Vergleich zur Verwendung von quadratischem Verlust?
  • Wie erleichtern Restverbindungen in ResNet-Architekturen das Training sehr tiefer neuronaler Netze und welche Auswirkungen hatte dies auf die Leistung von Bilderkennungsmodellen?
  • Was waren die wichtigsten Innovationen, die AlexNet im Jahr 2012 eingeführt hat und die den Bereich der Faltungs-Neuronalen Netze und der Bilderkennung erheblich vorangebracht haben?

Weitere Fragen und Antworten finden Sie unter „Fortgeschrittene Computer Vision“.

Weitere Fragen und Antworten:

  • Feld: Künstliche Intelligenz
  • Programm: EITC/AI/ADL Advanced Deep Learning (Gehen Sie zum Zertifizierungsprogramm)
  • Lektion: Fortgeschrittene Computer Vision (Gehen Sie zur entsprechenden Lektion)
  • Thema: Faltungs-Neuronale Netze zur Bilderkennung (Gehen Sie zum verwandten Thema)
Tagged unter: Künstliche Intelligenz, CNN, Windung, Merkmalsextraktion, Bildverarbeitung, Kernel
Startseite » Künstliche Intelligenz » EITC/AI/ADL Advanced Deep Learning » Fortgeschrittene Computer Vision » Faltungs-Neuronale Netze zur Bilderkennung » » Wie lautet die mathematische Formel der Faltungsoperation an einem 2D-Bild?

Zertifizierungszentrum

BENUTZERMENÜ

  • Mein Konto

ZERTIFIKATSKATEGORIE

  • EITC-Zertifizierung (105)
  • EITCA-Zertifizierung (9)

Wonach suchst du?

  • Einführung
  • Wie funktioniert es?
  • EITCA-Akademien
  • EITCI DSJC-Subvention
  • Vollständiger EITC-Katalog
  • Ihre Bestellung
  • Featured
  •   IT ID
  • EITCA-Rezensionen (mittlere Veröffentlichung)
  • Über Uns
  • Kontakt

Die EITCA Academy ist Teil des europäischen IT-Zertifizierungsrahmens

Das europäische IT-Zertifizierungsrahmenwerk wurde 2008 als europaweiter und anbieterunabhängiger Standard für die allgemein zugängliche Online-Zertifizierung digitaler Fähigkeiten und Kompetenzen in vielen Bereichen professioneller digitaler Spezialisierungen etabliert. Das EITC-Rahmenwerk wird durch das geregelt Europäisches IT-Zertifizierungsinstitut (EITCI), eine gemeinnützige Zertifizierungsstelle, die das Wachstum der Informationsgesellschaft unterstützt und die Lücke bei digitalen Kompetenzen in der EU schließt.

Berechtigung für die EITCA Academy 90 % EITCI DSJC Subventionsunterstützung

90 % der Gebühren der EITCA Academy werden bei der Einschreibung bezuschusst von

    Sekretariat der EITCA-Akademie

    Europäisches IT-Zertifizierungsinstitut ASBL
    Brüssel, Belgien, Europäische Union

    EITC/EITCA-Zertifizierungsrahmenbetreiber
    Regelung des europäischen IT-Zertifizierungsstandards
    Zugriff Kontaktformular oder rufen Sie an: +32 25887351

    Folgen Sie EITCI auf X
    Besuchen Sie die EITCA Academy auf Facebook
    Treten Sie mit der EITCA Academy auf LinkedIn in Kontakt
    Schauen Sie sich EITCI- und EITCA-Videos auf YouTube an

    Gefördert von der Europäischen Union

    Gefördert durch die Europäischen Fonds für regionale Entwicklung (EFRE) und der Europäischer Sozialfonds (ESF) in einer Reihe von Projekten seit 2007, derzeit geregelt durch die Europäisches IT-Zertifizierungsinstitut (EITCI) seit 2008

    Informationssicherheitsrichtlinie | DSRRM- und DSGVO-Richtlinie | Datenschutzrichtlinie | Verzeichnis der Verarbeitungstätigkeiten | HSE-Richtlinie | Antikorruptionsrichtlinie | Moderne Sklaverei-Politik

    Automatisch in Ihre Sprache übersetzen

    Bedingungen und Konditionen | Datenschutzerklärung
    EITCA-Akademie
    • EITCA Academy in sozialen Medien
    EITCA-Akademie


    © 2008-2025  Europäisches IT-Zertifizierungsinstitut
    Brüssel, Belgien, Europäische Union

    TOP
    Chatten Sie mit dem Support