Fix optical_character_recognition and horizontal_text_detection by changing models (#3206) (#3219)

michalkulakowski · web-flow · commit d305e96ac8c7 · 2025-04-09T16:56:58.000+02:00
diff --git a/demos/horizontal_text_detection/python/Makefile b/demos/horizontal_text_detection/python/Makefile
@@ -27,9 +27,9 @@ setup_repository:
 	curl https://storage.openvinotoolkit.org/repositories/open_model_zoo/2022.1/models_bin/2/horizontal-text-detection-0001/FP32/horizontal-text-detection-0001.bin -o workspace/horizontal-text-detection-0001/1/horizontal-text-detection-0001.bin
 	curl https://storage.openvinotoolkit.org/repositories/open_model_zoo/2022.1/models_bin/2/horizontal-text-detection-0001/FP32/horizontal-text-detection-0001.xml -o workspace/horizontal-text-detection-0001/1/horizontal-text-detection-0001.xml
 # Download text recognition model
-	mkdir -p workspace/text-recognition-0014/1
-	curl https://storage.openvinotoolkit.org/repositories/open_model_zoo/2022.1/models_bin/2/text-recognition-0014/FP32/text-recognition-0014.bin -o workspace/text-recognition-0014/1/text-recognition-0014.bin
-	curl https://storage.openvinotoolkit.org/repositories/open_model_zoo/2022.1/models_bin/2/text-recognition-0014/FP32/text-recognition-0014.xml -o workspace/text-recognition-0014/1/text-recognition-0014.xml
+	mkdir -p workspace/text-recognition-0012/1
+	curl https://storage.openvinotoolkit.org/repositories/open_model_zoo/2023.0/models_bin/1/text-recognition-0012/FP32/text-recognition-0012.bin -o workspace/text-recognition-0012/1/text-recognition-0012.bin
+	curl https://storage.openvinotoolkit.org/repositories/open_model_zoo/2023.0/models_bin/1/text-recognition-0012/FP32/text-recognition-0012.xml -o workspace/text-recognition-0012/1/text-recognition-0012.xml
 ifeq ($(BUILD_CUSTOM_NODE),true)
 # Build custom node
 	cd ../../../src/custom_nodes && \
diff --git a/demos/horizontal_text_detection/python/README.md b/demos/horizontal_text_detection/python/README.md
@@ -70,15 +70,15 @@ ThreadID:   3; Current FPS:    30.30; Average FPS:    25.73; Average latency:
 > **NOTE**: Video source is cropped to 704x704 resolution to match model input size.
 
 ## Recognize Detected Text with OCR Pipeline
-Optical Character Recognition (OCR) pipeline based on [horizontal text detection](https://github.com/openvinotoolkit/open_model_zoo/blob/releases/2023/0/models/intel/horizontal-text-detection-0001/README.md) model, [text recognition](https://github.com/openvinotoolkit/open_model_zoo/tree/2022.1.0/models/intel/text-recognition-0014)
+Optical Character Recognition (OCR) pipeline based on [horizontal text detection](https://github.com/openvinotoolkit/open_model_zoo/blob/releases/2023/0/models/intel/horizontal-text-detection-0001/README.md) model, [text recognition](https://github.com/openvinotoolkit/open_model_zoo/tree/2023.0.0/models/intel/text-recognition-0012)
 combined with a custom node implementation can be used with the same python script used before. OCR pipeline provides location of detected text boxes on the image and additionally recognized text for each box.
 
 ![horizontal text detection using OCR pipeline](horizontal-text-detection-ocr.gif)
 
 ### Prepare workspace to run the demo
 
 To successfully deploy OCR pipeline you need to have a workspace that contains:
-- [horizontal text detection](https://github.com/openvinotoolkit/open_model_zoo/blob/releases/2022/1/models/intel/horizontal-text-detection-0001/README.md) and [text recognition](https://github.com/openvinotoolkit/open_model_zoo/tree/2022.1.0/models/intel/text-recognition-0014) models
+- [horizontal text detection](https://github.com/openvinotoolkit/open_model_zoo/blob/releases/2022/1/models/intel/horizontal-text-detection-0001/README.md) and [text recognition](https://github.com/openvinotoolkit/open_model_zoo/tree/2023.0.0/models/intel/text-recognition-0012) models
 - Custom node for image processing
 - Configuration file
 
@@ -108,10 +108,10 @@ workspace/
 │   └── 1
 │       ├── horizontal-text-detection-0001.bin
 │       └── horizontal-text-detection-0001.xml
-└── text-recognition-0014
+└── text-recognition-0012
     └── 1
-        ├── text-recognition-0014.bin
-        └── text-recognition-0014.xml
+        ├── text-recognition-0012.bin
+        └── text-recognition-0012.xml
 
 ```
 
@@ -134,10 +134,10 @@ workspace/
 │       └── horizontal-text-detection-0001.xml
 ├── lib
 │   └── libcustom_node_horizontal_ocr.so
-└── text-recognition-0014
+└── text-recognition-0012
     └── 1
-        ├── text-recognition-0014.bin
-        └── text-recognition-0014.xml
+        ├── text-recognition-0012.bin
+        └── text-recognition-0012.xml
 
 ```
 ## Deploying OVMS
diff --git a/demos/horizontal_text_detection/python/config.json b/demos/horizontal_text_detection/python/config.json
@@ -13,8 +13,7 @@
         {
             "config": {
                 "name": "text-recognition",
-                "layout": "NHWC:NCHW",
-                "base_path": "/workspace/text-recognition-0014"
+                "base_path": "/workspace/text-recognition-0012"
             }
         }
     ],
@@ -51,7 +50,7 @@
                         "original_image_width": "704",
                         "original_image_height": "704",
                         "original_image_layout": "NHWC",
-                        "target_image_width": "128",
+                        "target_image_width": "120",
                         "target_image_height": "32",
                         "target_image_layout": "NHWC",
                         "convert_to_gray_scale": "true",
@@ -79,11 +78,11 @@
                     "model_name": "text-recognition",
                     "type": "DL model",
                     "inputs": [
-                        {"imgs": {"node_name": "extract_node",
+                        {"Placeholder": {"node_name": "extract_node",
                             "data_item": "text_images"}}
                     ],
                     "outputs": [
-                        {"data_item": "logits",
+                        {"data_item": "shadow/LSTMLayers/transpose_time_major",
                             "alias": "texts"}
                     ]
                 }
diff --git a/demos/optical_character_recognition/python/README.md b/demos/optical_character_recognition/python/README.md
@@ -1,7 +1,7 @@
 #  Optical Character Recognition with Directed Acyclic Graph {#ovms_demo_optical_character_recognition}
 
 This document demonstrates how to create and use an Optical Character Recognition (OCR) pipeline based on [east-resnet50](https://github.com/argman/EAST) text detection model,
-[text-recognition](https://github.com/openvinotoolkit/open_model_zoo/tree/2022.1.0/models/intel/text-recognition-0014) combined with a custom node implementation.
+[text-recognition](https://github.com/openvinotoolkit/open_model_zoo/tree/2023.0.0/models/intel/text-recognition-0012) combined with a custom node implementation.
 
 Using such a pipeline, a single request to OVMS can perform a complex set of operations with a response containing
 recognized characters for all detected text boxes.
@@ -91,9 +91,9 @@ Converted east-resnet50 model will have the following interface:
 - Output name: `feature_fusion/concat_3` ; shape: `[1 256 480 5]` ; precision: `FP32`; layout: `N...`
 
 ### Text-recognition model
-Download [text-recognition](https://github.com/openvinotoolkit/open_model_zoo/tree/2022.1.0/models/intel/text-recognition-0014) model and store it in `${PWD}/text-recognition/1` folder.
+Download [text-recognition](https://github.com/openvinotoolkit/open_model_zoo/tree/2023.0.0/models/intel/text-recognition-0012) model and store it in `${PWD}/text-recognition/1` folder.
 ```bash
-curl -L --create-dirs https://storage.openvinotoolkit.org/repositories/open_model_zoo/2022.1/models_bin/2/text-recognition-0014/FP32/text-recognition-0014.bin -o text-recognition/1/model.bin https://storage.openvinotoolkit.org/repositories/open_model_zoo/2022.1/models_bin/2/text-recognition-0014/FP32/text-recognition-0014.xml -o text-recognition/1/model.xml
+curl -L --create-dirs https://storage.openvinotoolkit.org/repositories/open_model_zoo/2023.0/models_bin/1/text-recognition-0012/FP32/text-recognition-0012.bin -o text-recognition/1/model.bin https://storage.openvinotoolkit.org/repositories/open_model_zoo/2023.0/models_bin/1/text-recognition-0012/FP32/text-recognition-0012.xml -o text-recognition/1/model.xml
 chmod -R 755 text-recognition
 ```
 
@@ -192,7 +192,7 @@ openvino
 pipeline
 2021
 intel
-rotations
+rotation
 Output: name[text_images]
     numpy => shape[(9, 1, 32, 128, 1)] data[float32]
 Output: name[text_coordinates]
diff --git a/demos/optical_character_recognition/python/config.json b/demos/optical_character_recognition/python/config.json
@@ -12,7 +12,6 @@
         {
             "config": {
                 "name": "text-recognition",
-                "layout": "NHWC:NCHW",
                 "base_path": "/OCR/text-recognition"
             }
         }
@@ -52,12 +51,12 @@
                         "original_image_width": "1920",
                         "original_image_height": "1024",
                         "original_image_layout": "NHWC",
-                        "target_image_width": "128",
+                        "target_image_width": "120",
                         "target_image_height": "32",
                         "target_image_layout": "NHWC",
                         "convert_to_gray_scale": "true",
                         "confidence_threshold": "0.9",
-                        "overlap_threshold": "0.2",
+                        "overlap_threshold": "0.1",
                         "max_output_batch": "100",
                         "box_width_adjustment": "0.1",
                         "box_height_adjustment": "0.0",
@@ -86,11 +85,11 @@
                     "model_name": "text-recognition",
                     "type": "DL model",
                     "inputs": [
-                        {"imgs": {"node_name": "extract_node",
+                        {"Placeholder": {"node_name": "extract_node",
                             "data_item": "text_images"}}
                     ],
                     "outputs": [
-                        {"data_item": "logits",
+                        {"data_item": "shadow/LSTMLayers/transpose_time_major",
                             "alias": "texts"}
                     ]
                 }
diff --git a/demos/optical_character_recognition/python/optical_character_recognition.py b/demos/optical_character_recognition/python/optical_character_recognition.py
@@ -80,7 +80,7 @@ def decode(text):
 def text_recognition_output_to_text(output_nd):
     for i in range(output_nd.shape[0]):
         data = output_nd[i]
-        alphabet = '#1234567890abcdefghijklmnopqrstuvwxyz'
+        alphabet = '0123456789abcdefghijklmnopqrstuvwxyz#'
         preds = data.argmax(2)
         word = ''
         for i in range(preds.shape[0]):
@@ -124,4 +124,4 @@ def text_recognition_output_to_text(output_nd):
     if name == args['text_images_output_name'] and len(args['text_images_save_path']) > 0:
         save_text_images_as_jpgs(output_nd, name, args['text_images_save_path'])
     if name == args['texts_output_name']:
-        text_recognition_output_to_text(output_nd)
+        text_recognition_output_to_text(output_nd)