LEADTOOLS使用教程:在C#中使用OCR將圖像轉(zhuǎn)換為可搜索的PDF
如今,在每個地方,幾乎每個人都在使用PDF。在大多數(shù)組織中,PDF文檔對于業(yè)務(wù)應(yīng)用程序和工作流程至關(guān)重要。由于文件格式的可移植性和多功能性,許多行業(yè),例如保險代理機(jī)構(gòu)、金融機(jī)構(gòu)和法律實踐,已將其文檔管理系統(tǒng)標(biāo)準(zhǔn)化為PDF格式。
這些PDF的使用方式取決于所處理PDF的類型。PDF有兩種主要類型:圖像和可搜索。例如,如果您使用文字處理器保存PDF,則很可能是可搜索的PDF,您可以根據(jù)需要復(fù)制/粘貼文檔中的文本。另一方面,如果您使用掃描儀將紙張轉(zhuǎn)換為PDF,則很可能是圖像PDF,并且您將無法搜索文本。
即使您使用掃描儀來創(chuàng)建圖像PDF或由其他人發(fā)送了圖像PDF,仍然可以通過某種方式使它可搜索。這是通過OCR發(fā)生的,OCD是LEADTOOLS最擅長的!借助LEAD強(qiáng)大的OCR庫,開發(fā)人員能夠輕松制作自動化的OCR解決方案,并僅用五行代碼即可將這些圖像轉(zhuǎn)換為可搜索的PDF轉(zhuǎn)換。這些解決方案可以節(jié)省人員和公司兩個最寶貴的資源:時間和金錢。
LEAD強(qiáng)大的OCR庫包括這些產(chǎn)品:LEADTOOLS Recognition Imaging Developer Toolkit、LEADTOOLS Document Imaging Suite、LEADTOOLS OCR Module - LEAD Engine、LEADTOOLS OCR Module - OmniPage Engine、LEADTOOLS ICR Module - OmniPage Engine。
以下代碼向您展示了創(chuàng)建將圖像轉(zhuǎn)換為可搜索的PDF的解決方案所需的全部內(nèi)容。如果您需要完整的分步教程,請查看我們的“使用OCR將圖像轉(zhuǎn)換為可搜索PDF教程”。(如文章后面內(nèi)容)
static void OCR(string inputFile, string outputFile) { using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false)) { //Startup the LEADTOOLS OCR Engine ocrEngine.Startup(null, null, null, null); //Run the AutoRecognizeManager and specify PDF format ocrEngine.AutoRecognizeManager.Run(inputFile, outputFile, DocumentFormat.Pdf, null, null); Console.WriteLine($"OCR output saved to {outputFile}"); } }
使用OCR將圖像轉(zhuǎn)換為可搜索的PDF-控制臺C#
本教程說明如何創(chuàng)建一個C#Windows控制臺應(yīng)用程序,該應(yīng)用程序設(shè)置LEAD OCR引擎以處理OCR。
創(chuàng)建項目并添加LEADTOOLS參考
在Visual Studio中,創(chuàng)建一個新的C#Windows Console項目,并添加以下必要的LEADTOOLS引用。
所需的參考取決于項目的目的。引用可以通過以下兩種方法中的一種或另一種添加(但不能同時添加)。對于此項目,需要以下參考:
如果使用NuGet引用,則本教程需要以下NuGet軟件包:
- Leadtools.Ocr
如果使用本地DLL引用,則需要以下DLL:
本地DLL安裝在<INSTALL_DIR>\LEADTOOLS 20\Bin\Dotnet4\x64:
- Leadtools.dll
- Leadtools.Codecs.dll
- Leadtools.Codecs.Cmp.dll
- Leadtools.Codecs.Tif.dll
- Leadtools.Codecs.Fax.dll
- Leadtools.Document.Writer.dll
- Leadtools.Ocr.dll
- Leadtools.Ocr.LEADEngine.dll
設(shè)置許可證文件
許可證可解鎖項目所需的功能。必須在調(diào)用任何工具包功能之前進(jìn)行設(shè)置。
有兩種類型的運行時許可證:
- 評估許可證,在下載評估工具包時獲得。它允許評估工具包。
- 部署許可證。
添加OCR代碼
創(chuàng)建項目,添加參考和許可證集后,即可開始編碼。
在解決方案資源管理器中,打開Program.cs。要初始化和運行OCR引擎,請?zhí)砑右粋€新OCR(string inputFile, string outputFile)方法并在Main方法內(nèi)部調(diào)用它。
將以下語句添加到Program.cs頂部的using塊中:
- using Leadtools;
- using Leadtools.Ocr;
- using Leadtools.Document.Writer;
C#
// Using block at the top using System; using Leadtools; using Leadtools.Document.Writer; using Leadtools.Ocr;
C#
static void OCR(string inputFile, string outputFile) { using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false)) { //Startup the LEADTOOLS OCR Engine ocrEngine.Startup(null, null, null, null); //Run the AutoRecognizeManager and specify PDF format ocrEngine.AutoRecognizeManager.Run(inputFile, outputFile, DocumentFormat.Pdf, null, null); Console.WriteLine($"OCR output saved to {outputFile}"); } }
C#
static void Main(string[] args) { SetLicense(); string input = @"C:\Users\Public\Documents\LEADTOOLS Images\OCR1.TIF"; string output = @"C:\Users\Public\Documents\LEADTOOLS Images\OCR1.PDF"; OCR(input, output); }
運行項目
按F5或選擇Debug- > Start Debugging運行項目。
如果正確執(zhí)行了這些步驟,則會出現(xiàn)控制臺并確認(rèn)許可證設(shè)置正確,然后應(yīng)用程序?qū)CR1.TIF圖像轉(zhuǎn)換為PDF格式,并將其保存到指定位置(作為可搜索的PDF)。