Wie können Sie mit der Google Vision API auf den extrahierten Text aus einem Bild zugreifen?

by EITCA-Akademie / Mittwoch, 27 Dezember 2023 / Veröffentlicht in Artificial Intelligence, EITC/AI/GVAPI Google Vision API, Text in visuellen Daten verstehen, Erkennen und Extrahieren von Text aus der Handschrift, Prüfungsrückblick

Um mithilfe der Google Vision-API auf den extrahierten Text aus einem Bild zuzugreifen, können Sie eine Reihe von Schritten ausführen, bei denen die OCR-Funktionen (Optical Character Recognition) der API genutzt werden. Die OCR-Technologie in der Google Vision API ermöglicht die Erkennung und Extraktion von Text aus Bildern, einschließlich Handschrift. Diese Funktionalität ist besonders nützlich bei Anwendungen, die die Analyse und das Verständnis von Textinformationen in visuellen Daten erfordern.

Zunächst müssen Sie die erforderliche Umgebung für die Arbeit mit der Google Vision API einrichten. Dazu gehört das Erstellen eines Projekts in der Google Cloud Console, das Aktivieren der Vision API und das Erhalten der erforderlichen Authentifizierungsdaten wie eines API-Schlüssels oder eines Dienstkontoschlüssels.

Sobald Ihre Umgebung eingerichtet ist, können Sie die Methode „asyncBatchAnnotateFiles“ der Vision-API verwenden, um OCR für eine Bilddatei durchzuführen. Mit dieser Methode können Sie eine Liste von Bilddateien zur Verarbeitung übergeben und die Ergebnisse asynchron empfangen. Alternativ können Sie die Methode „asyncBatchAnnotateImages“ verwenden, um eine Liste von Bildern direkt zu verarbeiten.

Um Text aus einem Bild zu extrahieren, müssen Sie eine Instanz des „AnnotateImageRequest“-Objekts erstellen und die gewünschten Funktionen angeben. In diesem Fall würden Sie die Funktion „TEXT_DETECTION“ festlegen, um anzugeben, dass Sie Text aus dem Bild extrahieren möchten. Sie können auch zusätzliche Parameter wie den Sprachhinweis angeben, um die Genauigkeit der OCR zu verbessern.

Als Nächstes müssen Sie die Bilddatei in eine Base64-codierte Zeichenfolge codieren und mithilfe der codierten Bilddaten eine Instanz des „Image“-Objekts erstellen. Dieses „Image“-Objekt sollte dem zuvor erstellten „AnnotateImageRequest“-Objekt hinzugefügt werden.

Nachdem Sie die Anfrage eingerichtet haben, können Sie sie je nach gewähltem Ansatz mit der Methode „batchAnnotateImages“ oder „batchAnnotateFiles“ an die Vision-API senden. Die API verarbeitet das Bild und gibt eine Antwort zurück, die den extrahierten Text enthält.

Um auf den extrahierten Text aus der Antwort zuzugreifen, können Sie über das Feld „textAnnotations“ des Objekts „AnnotateImageResponse“ iterieren. Dieses Feld enthält eine Liste von „EntityAnnotation“-Objekten, die jeweils ein erkanntes Textelement im Bild darstellen. Das Feld „Beschreibung“ jedes „EntityAnnotation“-Objekts enthält den extrahierten Text.

Hier ist ein Beispielcode-Snippet in Python, das zeigt, wie man mit der Google Vision API auf den extrahierten Text aus einem Bild zugreift:

python
from google.cloud import vision

def extract_text_from_image(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)

    request = vision.AnnotateImageRequest(
        image=image,
        features=[{'type': vision.Feature.Type.TEXT_DETECTION}]
    )

    response = client.batch_annotate_images(requests=[request])

    for annotation in response.responses[0].text_annotations:
        extracted_text = annotation.description
        print(extracted_text)

# Usage
extract_text_from_image('path_to_image.jpg')

In diesem Beispiel verwendet die Funktion „extract_text_from_image“ den Pfad zu einer Bilddatei als Eingabe und verwendet die Google Cloud Vision-Clientbibliothek, um eine Anfrage an die Vision API zu senden. Der extrahierte Text wird dann ausgedruckt.

Um mithilfe der Google Vision-API auf den extrahierten Text aus einem Bild zuzugreifen, müssen Sie die Umgebung einrichten, ein „AnnotateImageRequest“-Objekt mit den gewünschten Funktionen erstellen, die Bilddatei codieren, die Anfrage an die API senden und den extrahierten Text abrufen aus der Antwort. Die OCR-Funktionen der Vision API ermöglichen die Erkennung und Extraktion von Text aus Bildern, einschließlich Handschrift.

Weitere aktuelle Fragen und Antworten zu Erkennen und Extrahieren von Text aus der Handschrift:

Weitere Fragen und Antworten:

Tagged unter: Artificial Intelligence, Google Cloud Vision-API, Bildverarbeitung, OCR, Optical Character Recognition, Textextraktion

EITCA-Akademie

Wie können Sie mit der Google Vision API auf den extrahierten Text aus einem Bild zugreifen?

Weitere aktuelle Fragen und Antworten zu Erkennen und Extrahieren von Text aus der Handschrift:

Weitere Fragen und Antworten:

Die EITCA Academy ist Teil des europäischen IT-Zertifizierungsrahmens

Berechtigung für die EITCA Academy 80 % EITCI DSJC Subventionsunterstützung

EITCA-Akademie

Melden Sie sich entweder mit Ihrem Benutzernamen oder Ihrer E-Mail-Adresse bei Ihrem Konto an

VERGESSEN SIE IHRE DETAILS?

EIN KONTO ERSTELLEN

Wie können Sie mit der Google Vision API auf den extrahierten Text aus einem Bild zugreifen?

Weitere aktuelle Fragen und Antworten zu Erkennen und Extrahieren von Text aus der Handschrift:

Weitere Fragen und Antworten:

Berechtigung für die EITCA Academy 80 % EITCI DSJC Subventionsunterstützung