Um mithilfe der Google Vision-API auf den extrahierten Text aus einem Bild zuzugreifen, können Sie eine Reihe von Schritten ausführen, bei denen die OCR-Funktionen (Optical Character Recognition) der API genutzt werden. Die OCR-Technologie in der Google Vision API ermöglicht die Erkennung und Extraktion von Text aus Bildern, einschließlich Handschrift. Diese Funktionalität ist besonders nützlich bei Anwendungen, die die Analyse und das Verständnis von Textinformationen in visuellen Daten erfordern.
Zunächst müssen Sie die erforderliche Umgebung für die Arbeit mit der Google Vision API einrichten. Dazu gehört das Erstellen eines Projekts in der Google Cloud Console, das Aktivieren der Vision API und das Erhalten der erforderlichen Authentifizierungsdaten wie eines API-Schlüssels oder eines Dienstkontoschlüssels.
Sobald Ihre Umgebung eingerichtet ist, können Sie die Methode „asyncBatchAnnotateFiles“ der Vision-API verwenden, um OCR für eine Bilddatei durchzuführen. Mit dieser Methode können Sie eine Liste von Bilddateien zur Verarbeitung übergeben und die Ergebnisse asynchron empfangen. Alternativ können Sie die Methode „asyncBatchAnnotateImages“ verwenden, um eine Liste von Bildern direkt zu verarbeiten.
Um Text aus einem Bild zu extrahieren, müssen Sie eine Instanz des „AnnotateImageRequest“-Objekts erstellen und die gewünschten Funktionen angeben. In diesem Fall würden Sie die Funktion „TEXT_DETECTION“ festlegen, um anzugeben, dass Sie Text aus dem Bild extrahieren möchten. Sie können auch zusätzliche Parameter wie den Sprachhinweis angeben, um die Genauigkeit der OCR zu verbessern.
Als Nächstes müssen Sie die Bilddatei in eine Base64-codierte Zeichenfolge codieren und mithilfe der codierten Bilddaten eine Instanz des „Image“-Objekts erstellen. Dieses „Image“-Objekt sollte dem zuvor erstellten „AnnotateImageRequest“-Objekt hinzugefügt werden.
Nachdem Sie die Anfrage eingerichtet haben, können Sie sie je nach gewähltem Ansatz mit der Methode „batchAnnotateImages“ oder „batchAnnotateFiles“ an die Vision-API senden. Die API verarbeitet das Bild und gibt eine Antwort zurück, die den extrahierten Text enthält.
Um auf den extrahierten Text aus der Antwort zuzugreifen, können Sie über das Feld „textAnnotations“ des Objekts „AnnotateImageResponse“ iterieren. Dieses Feld enthält eine Liste von „EntityAnnotation“-Objekten, die jeweils ein erkanntes Textelement im Bild darstellen. Das Feld „Beschreibung“ jedes „EntityAnnotation“-Objekts enthält den extrahierten Text.
Hier ist ein Beispielcode-Snippet in Python, das zeigt, wie man mit der Google Vision API auf den extrahierten Text aus einem Bild zugreift:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
In diesem Beispiel verwendet die Funktion „extract_text_from_image“ den Pfad zu einer Bilddatei als Eingabe und verwendet die Google Cloud Vision-Clientbibliothek, um eine Anfrage an die Vision API zu senden. Der extrahierte Text wird dann ausgedruckt.
Um mithilfe der Google Vision-API auf den extrahierten Text aus einem Bild zuzugreifen, müssen Sie die Umgebung einrichten, ein „AnnotateImageRequest“-Objekt mit den gewünschten Funktionen erstellen, die Bilddatei codieren, die Anfrage an die API senden und den extrahierten Text abrufen aus der Antwort. Die OCR-Funktionen der Vision API ermöglichen die Erkennung und Extraktion von Text aus Bildern, einschließlich Handschrift.
Weitere aktuelle Fragen und Antworten zu Erkennen und Extrahieren von Text aus der Handschrift:
- Welche Einschränkungen können beim Extrahieren von Text aus komplexen Dokumenten mithilfe der Google Vision API auftreten?
- Welche Bedeutung haben Konfidenzniveaus bei der Textinterpretation der Google Vision API?
- Wie kann die Google Vision API Text aus handschriftlichen Notizen genau erkennen und extrahieren?
- Was sind die Herausforderungen beim Erkennen und Extrahieren von Text aus handgeschriebenen Bildern?
- Kann Google Vision Handschrift erkennen?
Weitere Fragen und Antworten:
- Feld: Artificial Intelligence
- Programm: EITC/AI/GVAPI Google Vision API (Gehen Sie zum Zertifizierungsprogramm)
- Lektion: Text in visuellen Daten verstehen (Gehen Sie zur entsprechenden Lektion)
- Thema: Erkennen und Extrahieren von Text aus der Handschrift (Gehen Sie zum verwandten Thema)
- Prüfungsrückblick