掃描識(shí)別工具Dynamic Web TWAIN使用教程:OCR(下)
在Web應(yīng)用程序中快速實(shí)現(xiàn)文本識(shí)別
【Dynamic Web TWAIN最新版免費(fèi)下載>>>】
上一篇文章與大家分享了在Web應(yīng)用程序中快速實(shí)現(xiàn)文本識(shí)別的環(huán)境和步驟,本文將給大家介紹如何通過(guò)代碼來(lái)實(shí)現(xiàn)這一功能。
如何實(shí)現(xiàn)
在文本編輯器中打開(kāi) OCRADocument.html
對(duì)Core JavaScript文件的引用
<script type="text/javascript" src="../dist/dynamsoft.webtwain.initiate.js"></script> <script type="text/javascript" src="../dist/dynamsoft.webtwain.config.js"></script> <script type="text/javascript" src="../dist/addon/dynamsoft.webtwain.addon.ocr.js"></script> <script type="text/javascript" src="../dist/addon/dynamsoft.webtwain.addon.pdf.js"></script>
這里引用的文件是
用于核心SDK Dynamic Web TWAIN的JS庫(kù)
-
node_modules\dwt\dis\dynamsoft.webtwain.initiate.js
-
node_modules\dwt\dis\dynamsoft.webtwain.config.js
Dynamsoft OCR Basic的JS庫(kù)
-
node_modules\dwt\dist\addon\dynamsoft.webtwain.addon.ocr.js
-
node_modules\dwt\dist\addon\dynamsoft.webtwain.addon.pdf.js
如果你以前在本地安裝了Dynamic Web TWAIN,則還可以在以下目錄中找到相同的文件(dynamsoft.webtwain.addon.pdf.js除外)。
Dynamsoft OCR Basic runtime安裝代碼
function downloadOCRBasic(bDownloadDLL) { var strOCRPath = Dynamsoft.WebTwainEnv.ResourcesPath + "/OCRResources/OCR.zip", strOCRLangPath = Dynamsoft.WebTwainEnv.ResourcesPath + '/OCRResources/OCRBasicLanguages/English.zip'; if (bDownloadDLL) { DWObject.Addon.OCR.Download( strOCRPath, function () {/*console.log('OCR dll is installed');*/ downloadOCRBasic(false); }, function (errorCode, errorString) { console.log(errorString); } ); } else { DWObject.Addon.OCR.DownloadLangData( strOCRLangPath, function () { }, function (errorCode, errorString) { console.log(errorString); }); } }
如上面的代碼所示,Dynamsoft OCR Basic安裝需要兩個(gè)步驟。第一步是使用 DWObject.Addon.OCR.Download 接口安裝核心DLL(來(lái)自“/OCRResources/OCR.zip”的DynamicOCR.dll)。 第二步是使用DWObject.Addon.OCR.DownloadLangData 接口安裝OCR語(yǔ)言包或識(shí)別字典('/ OCRResources / OCRBasicLanguages / English.zip')。此處僅安裝英語(yǔ)詞典,因此該程序只能識(shí)別英語(yǔ)。 如果你需要識(shí)別其他語(yǔ)言(總共27種主要語(yǔ)言),你可以下載完整的示例或參考此在線示例。
支持的語(yǔ)言:Arabic, Bengali, Chinese_Simplified, Chinese_Traditional, English, French, German, Hindi, Indonesian, Italian, Japanese, Javanese, Korean, Malay, Marathi, Panjabi, Persian, Portuguese, Russian, Spanish, Swahili, Tamil, Telugu, Thai, Turkish, Vietnamese, Urdu.
使用插件
function DoOCR() { if (DWObject) { if (DWObject.HowManyImagesInBuffer == 0) { alert("Please scan or load an image first."); return; } DWObject.Addon.OCR.SetLanguage('eng'); DWObject.Addon.OCR.SetOutputFormat(EnumDWT_OCROutputFormat.OCROF_TEXT); DWObject.Addon.OCR.Recognize( DWObject.CurrentImageIndexInBuffer, function (sImageIndex, result) { if (result == null) return null; var _textResult = (Dynamsoft.Lib.base64.decode(result.Get())).split(/\r?\n/g), _resultToShow = []; for (var i = 0; i < _textResult.length; i++) { if (i == 0 && _textResult[i].trim() == "") continue; _resultToShow.push(_textResult[i] + '<br />'); } _resultToShow.splice(0, 0, '<p style="padding:5px; margin:0;">'); _resultToShow.push('</p>'); document.getElementById('divNoteMessage').innerHTML = _resultToShow.join(''); }, function (errorcode, errorstring, result) { alert(errorstring); } );
核心代碼是
DWObject.Addon.OCR.SetLanguage('eng'); //Set the language to be recognized DWObject.Addon.OCR.SetOutputFormat(EnumDWT_OCROutputFormat.OCROF_TEXT); //Set the output format DWObject.Addon.OCR.Recognize(... //Start Reconizing
查看支持的輸出格式 EnumDWT_OCROutputFormat。
相關(guān)方法是 SetLanguage( ), SetOutputFormat( ),Recognize( ), RecognizeFile( ), RecognizeRect( ), RecognizeSelectedImages( )。
關(guān)于Dynamic Web TWAIN使用OCR插件的教程就到此結(jié)束啦,希望對(duì)你有所幫助~