LEADTOOLS OCR

フレームを表示

ある用途には、エンジンで生成される認められたテキストの信頼性を知っていることは、重要かもしれません。これらのアプリケーションは、認識された文字やワードのために追加の信頼情報があることを必要とするかもしれません。

エンジンは、2つの様々な方向で信頼情報を認められたテキストの正当性に提供することができます:

エンジンの出力マーキング機能(: OCRエンジン特殊設定を参照します)は、IOcrDocument.SaveIOcrDocument.SaveXmlまたはIOcrPage.GetTextメソッドが低信頼性で認識された文字やワード(低い信頼による認識結果)の前にユーザー定義のキャラクタシーケンスを最終アウトプットドキュメントに入れるのを可能にします。あるいは、信頼性の低い文字やワードは、出力ドキュメントの特定のカラーであるために設定されることができます。

もう一つのアプローチで、エンジンは、認識された文字ごとに構造化データから構成される出力を生成することができます。この出力に、一つの構造体または記録が、各々の文字のためにあります。認められたエンティティのキャラクタコードは、主要なフィールドです。他のフィールドは、image、文字がどれに属しているかへのゾーン、文字のためのフォント情報と信頼情報で文字の座標を含みます。

出力-採点は、大部分の出力コンバータでサポートされます。カラーによる採点低い信頼認識は、出力フォーマット(例えばMS Word)が色のついたテキストをサポートすることを義務づけます。

採点機能のための可能性がある出力は、以下の通りかもしれません:

「いくらかの質問(15分頃のta*king)をしたいです」

1つ前のテキスト抽出物は出力マーキング機能を用いて生成されました。そこにおいて、アスタリスク(『*』)文字は出力で低信頼性で認識された文字を評価するために設定されました。

IOcrPage.RecognizeIOcrPage.GetTextを呼び出すことの直後に、詳細な情報は、IOcrPage.GetRecognizedCharactersを呼び出すことによって、アプリケーションメモリに直接検索されることができます。IOcrPage.GetRecognizedCharacters呼び出しは、認められたデータについて最も多くの詳細を提供します。それは、認識された文字ごとにOcrCharacter構造体に終わります。

3つのプロパティがOcrCharacter構造体にあります。そして、それは文字認識に信頼情報を提供します:OcrCharacter.ConfidenceOcrCharacter.WordIsCertainOcrCharacter.LeadingSpacesConfidenceプロパティ。

OcrCharacter.WordIsCertainプロパティは、この文字が一部であるワードの確実性/不確実さを表します。

OcrCharacter.Confidenceプロパティは文字認識の確実性を表して、0と100の間で変動します。100の値は、エンジンが高い信頼で文字を認識したことを意味します。ワードが少し持っているかもしれない、または、個々に信頼性の低いすべての文字でなく、しかし、文字がそうである若干の場合に、OcrCharacter.WordIsCertainで信頼性の低いと記されます。これは、通常言語またはユーザー辞書チェックの結果です。それは、ワードがチェックサブシステムによって確認されたことを意味します。

OcrCharacter.LeadingSpacesConfidenceプロパティは0と100の間で変動します、そして、構造体(すなわち、エンジンがまわりに確実であるかどうかにかかわらず、スペースの合計は認められた文字の前にあるために見積もりました)のOcrCharacter.LeadingSpacesプロパティで、それは値の信頼を示します。

文字信頼情報を調べるアプリケーションは、しきい値を使うことができます。その値の上に、文字は信頼性の低い結果とみなされます。64の値は、この目的のために最善です。値より小さい64は、文字が正しく認められたという高い確信を示します。信頼性の低い、64以上の値は、そのcodeをマークします。

注意:

信頼性の低い文字を出力評価することが有効にされるとき、この値(64)も同様に内部的に使われます。

信頼水準は、OMRゾーンのためにも報告されます。詳細については、「LEADTOOLS .NET OCRの使っているOMR」を参照してください。

LEADTOOLS Professional OCRエンジンのためのIMPORTANT NOTE

全3台の認識モジュールが投票仕組み(NativeOcrZoneRecognitionModule.OmniFontPlus3WayVoting)で使われるとき、信頼レポーティングシステムは最も機能します。他のマシンプリント認識モジュールが使われる(NativeOcrZoneRecognitionModule.OmniFontPlus2WayVotingNativeOcrZoneRecognitionModule.OmniFontMTextなど)ならば、信頼情報はまだ利用できます、しかし、きちんと信頼を報告するシステムの機能は減らされます。これにより、認識結果が疑わしい場合に、Falseで負とFalseで正の報告を高いレベルで行うことができます。

参照

参照

概要
ご使用にあたって(サンプルプログラムへのガイド)
LEADTOOLSは、.NETアセンブリのOCR処理を行います
LEADTOOLS .NET OCRによるプログラミング
OCR認識モジュールの概要
OCRエンジンインスタンスの作成
OCRエンジンの開始と終了
LEADTOOLS OCRによるマルチスレッド
OCRスペル言語辞書
OCR言語の操作
OCRページの操作
OCRゾーンの操作
OCRページを認めること
LEADTOOLS .NET OCRのOMRを使用して
OCR言語とスペルチェック
OCRエンジン特殊設定
OCRチュートリアル - ページの操作
OCRチュートリアル - ページの認識
OCRチュートリアル - ゾーンの追加と描画
OCRチュートリアル - 認識結果の操作
OCRチュートリアル - 検索可能PDFのスキャン