Google Vision API-ის გამოყენებით გამოსახულების ამოღებულ ტექსტზე წვდომისთვის, შეგიძლიათ მიყვეთ ნაბიჯების სერიას, რომელიც მოიცავს API-ს ოპტიკური სიმბოლოების ამოცნობის (OCR) შესაძლებლობების გამოყენებას. Google Vision API-ში OCR ტექნოლოგია საშუალებას იძლევა გამოავლინოს და ამოიღოს ტექსტი სურათებიდან, ხელნაწერის ჩათვლით. ეს ფუნქცია განსაკუთრებით სასარგებლოა აპლიკაციებში, რომლებიც საჭიროებენ ვიზუალურ მონაცემებში არსებული ტექსტური ინფორმაციის ანალიზს და გაგებას.
პირველ რიგში, თქვენ უნდა დააყენოთ საჭირო გარემო Google Vision API-სთან მუშაობისთვის. ეს გულისხმობს პროექტის შექმნას Google Cloud Console-ში, Vision API-ის ჩართვას და საჭირო ავთენტიფიკაციის სერთიფიკატების მიღებას, როგორიცაა API გასაღები ან სერვისის ანგარიშის გასაღები.
თქვენი გარემოს დაყენების შემდეგ, შეგიძლიათ გამოიყენოთ Vision API-ის `asyncBatchAnnotateFiles` მეთოდი გამოსახულების ფაილზე OCR-ის შესასრულებლად. ეს მეთოდი საშუალებას გაძლევთ გადასცეთ გამოსახულების ფაილების სია დამუშავებისთვის და მიიღოთ შედეგები ასინქრონულად. ალტერნატიულად, შეგიძლიათ გამოიყენოთ `asyncBatchAnnotateImages` მეთოდი სურათების სიის პირდაპირ დასამუშავებლად.
გამოსახულების ტექსტის ამოსაღებად, თქვენ უნდა შექმნათ `AnnotateImageRequest` ობიექტის მაგალითი და მიუთითოთ სასურველი ფუნქციები. ამ შემთხვევაში, თქვენ დააყენებდით `TEXT_DETECTION` ფუნქციას, რათა მიუთითოთ, რომ გსურთ ტექსტის ამოღება სურათიდან. თქვენ ასევე შეგიძლიათ მიუთითოთ დამატებითი პარამეტრები, როგორიცაა ენის მინიშნება OCR-ის სიზუსტის გასაუმჯობესებლად.
შემდეგი, თქვენ უნდა დააშიფროთ სურათის ფაილი base64-ში კოდირებულ სტრიქონში და შექმნათ `Image` ობიექტის ეგზემპლარი დაშიფრული სურათის მონაცემების გამოყენებით. ეს `Image` ობიექტი უნდა დაემატოს ადრე შექმნილ `AnnotateImageRequest` ობიექტს.
მოთხოვნის დაყენების შემდეგ, შეგიძლიათ გააგზავნოთ იგი Vision API-ში `batchAnnotateImages` ან `batchAnnotateFiles` მეთოდის გამოყენებით, თქვენი არჩეული მიდგომიდან გამომდინარე. API დაამუშავებს სურათს და დააბრუნებს პასუხს, რომელიც შეიცავს ამოღებულ ტექსტს.
პასუხიდან ამოღებულ ტექსტზე წვდომისთვის, შეგიძლიათ გაიმეოროთ `TextAnnotations` ველის `AnnotateImageResponse` ობიექტი. ეს ველი შეიცავს `EntityAnnotation` ობიექტების სიას, თითოეული წარმოადგენს სურათზე აღმოჩენილ ტექსტურ ელემენტს. თითოეული `EntityAnnotation` ობიექტის `description` ველი შეიცავს ამოღებულ ტექსტს.
აქ მოცემულია პითონში კოდის ფრაგმენტის მაგალითი, რომელიც გვიჩვენებს, თუ როგორ უნდა შეხვიდეთ სურათიდან ამოღებულ ტექსტზე Google Vision API-ის გამოყენებით:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
ამ მაგალითში, `extract_text_from_image` ფუნქცია ღებულობს გზას გამოსახულების ფაილის შეყვანის სახით და იყენებს Google Cloud Vision კლიენტის ბიბლიოთეკას Vision API-ზე მოთხოვნის გასაგზავნად. შემდეგ ამოღებული ტექსტი იბეჭდება.
Google Vision API-ის გამოყენებით გამოსახულების ამოღებულ ტექსტზე წვდომისთვის, თქვენ უნდა დააყენოთ გარემო, შექმნათ `AnnotateImageRequest` ობიექტი სასურველი ფუნქციებით, დაშიფროთ გამოსახულების ფაილი, გაგზავნოთ მოთხოვნა API-ზე და მიიღოთ ამოღებული ტექსტი. პასუხიდან. Vision API-ის OCR შესაძლებლობები საშუალებას იძლევა გამოავლინოს და ამოიღოს ტექსტი სურათებიდან, ხელნაწერის ჩათვლით.
სხვა ბოლოდროინდელი კითხვები და პასუხები ხელნაწერიდან ტექსტის გამოვლენა და მოპოვება:
- რა შეზღუდვები შეიძლება წარმოიშვას რთული დოკუმენტებიდან ტექსტის ამოღებისას Google Vision API-ის გამოყენებით?
- რა მნიშვნელობა აქვს ნდობის დონეს Google Vision API-ს ტექსტის ინტერპრეტაციაში?
- როგორ შეუძლია Google Vision API-ს ზუსტად ამოიცნოს და ამოიღოს ტექსტი ხელნაწერი ჩანაწერებიდან?
- რა გამოწვევებია ხელნაწერი სურათებიდან ტექსტის აღმოჩენასა და ამოღებაში?
- შეუძლია Google Vision-ს ხელნაწერის ამოცნობა?