沒有找到合適的產(chǎn)品?
聯(lián)系客服協(xié)助選型:023-68661681
提供3000多款全球軟件/控件產(chǎn)品
針對軟件研發(fā)的各個階段提供專業(yè)培訓(xùn)與技術(shù)咨詢
根據(jù)客戶需求提供定制化的軟件開發(fā)服務(wù)
全球知名設(shè)計軟件,顯著提升設(shè)計質(zhì)量
打造以經(jīng)營為中心,實現(xiàn)生產(chǎn)過程透明化管理
幫助企業(yè)合理產(chǎn)能分配,提高資源利用率
快速打造數(shù)字化生產(chǎn)線,實現(xiàn)全流程追溯
生產(chǎn)過程精準(zhǔn)追溯,滿足企業(yè)合規(guī)要求
以六西格瑪為理論基礎(chǔ),實現(xiàn)產(chǎn)品質(zhì)量全數(shù)字化管理
通過大屏電子看板,實現(xiàn)車間透明化管理
對設(shè)備進(jìn)行全生命周期管理,提高設(shè)備綜合利用率
實現(xiàn)設(shè)備數(shù)據(jù)的實時采集與監(jiān)控
利用數(shù)字化技術(shù)提升油氣勘探的效率和成功率
鉆井計劃優(yōu)化、實時監(jiān)控和風(fēng)險評估
提供業(yè)務(wù)洞察與決策支持實現(xiàn)數(shù)據(jù)驅(qū)動決策
打通數(shù)據(jù)孤島 實現(xiàn)生產(chǎn)過程全透明化
實現(xiàn)產(chǎn)品全生命周期的質(zhì)量管理與追溯
精準(zhǔn)制定生產(chǎn)計劃 合理配置生產(chǎn)資源
全面可視的生產(chǎn)質(zhì)量統(tǒng)計與追溯
一鍵生成排產(chǎn)計劃,有效提升資源利用率
打通生產(chǎn)過程數(shù)字化全鏈路,提高生產(chǎn)效率
幫助企業(yè)大幅降低因改裝質(zhì)量問題帶來的損失
打造數(shù)字化工廠,全面提升產(chǎn)品質(zhì)量
快速應(yīng)對訂單變化,大幅減少企業(yè)資源浪費
實現(xiàn)產(chǎn)品報價快速精準(zhǔn),全面實現(xiàn)生產(chǎn)透明化
打造生產(chǎn)計劃自動排產(chǎn)信息化平臺
PDFlib TET是一款可以從任意PDF文檔格式中可靠地提取文本信息的軟件。
標(biāo)簽:PDF開發(fā)商: PDFlib
當(dāng)前版本: v5.4
產(chǎn)品類型:控件
產(chǎn)品功能:文檔管理
平臺語言:Activex & COM|.NET|JAVA|C++/ MFC|其他
開源水平:不提供源碼
本產(chǎn)品的分類與介紹僅供參考,具體以商家網(wǎng)站介紹為準(zhǔn),如有疑問請來電 023-68661681 咨詢。
接受所有的PDF輸入
世界所有書寫系統(tǒng)均可使用
允許多種許可證程序運行
全球信賴的PDF產(chǎn)品
PDFlib TET(文本和圖像提取工具包)可靠地從 PDF 文檔中提取文本、圖像和元數(shù)據(jù)。TET 將 PDF 的文本內(nèi)容作為 Unicode 字符串提供,以及詳細(xì)的顏色、字形和字體信息以及頁面上的位置。以通用圖像格式提取柵格圖像。TET 可以選擇將 PDF 文檔轉(zhuǎn)換為基于 XML 的格式,稱為 TETML,該格式包含文本和元數(shù)據(jù)以及資源信息。TET 包含用于確定字邊界、將文本分組到列、標(biāo)識表結(jié)構(gòu)和刪除冗余項(如陰影文本)的高級內(nèi)容分析算法。
PDFlib TET (Text Extraction Toolkit) reliably extracts text, images and metadata from PDF documents. TET makes available the text contents of a PDF as Unicode strings, plus detailed glyph and font information as well as the position on the page. Raster images are extracted in common raster formats. TET optionally converts PDF documents to an XML-based format called TETML which contains text and metadata as well as resource information.
* 關(guān)于本產(chǎn)品的分類與介紹僅供參考,精準(zhǔn)產(chǎn)品資料以官網(wǎng)介紹為準(zhǔn),如需購買請先行測試。
TET可檢測跨越多行的連字詞,刪除連字符,并將各個部分組合成一個完整的詞。這對確保完整的單詞搜索成功是很重要的,盡管文檔中僅包含帶連字符的部分。破折號(與連字符不同)要分開處理,因為不能將其刪除。
TET的專利陰影檢測算法可識別并刪除多余的文本實例,以避免過多的文本提取。 就算其他軟件會提取陰影或粗體文本乘積,但TET會正確刪除多余的副本。 盡管一個單詞的額外實例仍將導(dǎo)致搜索引擎的點擊,但是,如示例中所示,如果逐個字符地重復(fù)復(fù)制文本,則將找不到更多的點擊。
在許多語言中,都會將重音符號和其他變音標(biāo)記放置在其他字符附近,以形成組合字符。一些排版程序(最著名的是TeX)分別發(fā)出兩個字符(基本字符和重音符)以創(chuàng)建組合字符。 例如,要創(chuàng)建字符?,首先將字母a放置在頁面上,然后將降壓字符¨放置在頁面頂部。 TET會檢測到這種情況,并重新組合兩個字符以形成適當(dāng)?shù)慕M合字符。
連字在單個字形中組合了兩個或更多字符。最常見的連字用于fi,fl和ffi的組合;Th,sp,ct,st和許多其他組合使用了較少見的連字。從數(shù)字文檔中提取文本時,必須分析連字并將其分離為組成字符以進(jìn)行正確的文本處理。TET可以檢測連字并酌情提供兩個或更多字符。
首字下沉是段落開頭的較大的初始字符,其中初始字符的頂部與行的頂部對齊,而其余字符則下降幾行,首字下沉用于強(qiáng)調(diào)段落的開頭。如果對它們的處理不當(dāng),則會從兩個部分提取初始單詞:單個初始字符和單詞其余部分,TET會正確提取完整單詞。
TET獲得專利的Unicode映射算法實現(xiàn)了一種級聯(lián)算法,該算法采用所有可用信息來確定Unicode值。 對于許多有問題的文檔,TET會提取適當(dāng)?shù)腢nicode文本,而其他產(chǎn)品只會傳遞不可用的垃圾。
PDF不對邏輯文本進(jìn)行編碼,而只是頁面上字形的容器。 阿拉伯語和希伯來語腳本中的文本從右到左排列。 由于它通常包含從左到右的插入物(例如西方語言中的數(shù)字或名稱),因此文本必須在兩個方向上都進(jìn)行解釋,因此使用術(shù)語“雙向”。 TET對從右到左和從左到右的文本的視覺混合重新排序,以創(chuàng)建適當(dāng)?shù)倪壿嬑谋据敵觥?
PDF文檔可能由于傳輸錯誤或其他問題而損壞。TET的修復(fù)模式可恢復(fù)多種損壞的PDF。有時,PDF文檔損壞嚴(yán)重,以致頁面甚至無法在Acrobat中顯示。即使在這種極端情況下,TET仍經(jīng)常交付文檔的頁面內(nèi)容。
PDF中的柵格圖像數(shù)據(jù)可以以11種顏色空間和9種壓縮濾鏡的組合進(jìn)行編碼,但是常見的圖像文件格式(例如JPEG和TIFF)僅支持這些組合的子集。TET的圖像引擎在PDF圖像的特性與圖像輸出格式的功能之間取得了平衡。無論P(yáng)DF圖像的內(nèi)部結(jié)構(gòu)如何,像素圖像都是以一種常見的圖像文件格式提取的。
TET創(chuàng)建帶有其他專色通道的TIFF輸出。這適用于需要出色的色彩保真度并且不能接受任何顏色轉(zhuǎn)換的應(yīng)用。如果具有DeviceN顏色的圖像僅包含常見CMYK印刷色的子集,則會添加缺少的印刷通道,以便可以創(chuàng)建純CMYK輸出。但是,某些應(yīng)用程序可能無法處理專色通道,但僅限于普通TIFF輸出。在這種情況下,可以指示TET發(fā)出單個專色通道作為灰度TIFF,以便于處理。
許多PDF文檔中的圖像被生成PDF的軟件分解為小片段。在頁面上看似單一的圖像實際上可能由許多小塊組成。例如,Microsoft Office應(yīng)用程序和TeX通常會產(chǎn)生大量碎片圖像,其中包含成百上千個小碎片。Adobe InDesign通常將圖像分成大小不一的片段。TET檢測碎片圖像并將其合并以形成可用的較大圖像。只有合并圖像后,才能合理地重新使用碎片圖像。
TET contains advanced content analysis algorithms for determining word boundaries, grouping text into columns and removing redundant text. Using the integrated pCOS interface you can retrieve arbitrary objects from the PDF, such as metadata, interactive elements, etc.
Accepted PDF input
TET supports all relevant flavors of PDF input:
Unicode
Since text in PDF is usually not encoded in Unicode, PDFlib TET normalizes the text in a PDF document to Unicode:
Content analysis and word detection
TET includes advanced content analysis algorithms:
Page Layout and Table Detection
The page content is analyzed to determine text columns. Tables are detected, including cells which span multiple columns. This improves the ordering of the extracted text. Table rows and the contents of each table cell can be identified.
Geometry
TET provides precise metrics for the text, such as the position on the page, glyph widths, and text direction. Specific areas on the page can be excluded or included in the text extraction, e.g. to ignore headers and footers or margins.
Image Extract
Images on PDF pages can be extracted as TIFF, JPEG, or JPEG 2000 files. Precise geometric information (position, size, and angles) are reported for each image. Fragmented images will be combined to larger images to facilitate repurposing. Image fidelity is guaranteed since no downsampling or color space conversion occurs. This ensures the highest possible image quality.
PDF Analysis
The TET library includes the pCOS interface for querying details about a PDF document, such as document info and XMP metadata, font lists, page size, and many more.
Configuration Options for problematic PDF
TET contains special handling and workarounds for various kinds of PDF where the text cannot be extracted correctly with other products. In addition, it includes various configuration features to improve processing of problem documents:
Unicode Postprocessing
TET supports various Unicode postprocessing steps which can be used to improve the extracted text:
Document Domains
PDF documents may contain text in other places than the page contents. While most applications will deal with the page contents only, in many situations other document domains may be relevant as well. TET extracts the text from all of the following document domains:
XMP Metadata
TET supports XMP metadata in several ways:
TETML represents PDF Contents as XML
TET optionally represents the PDF contents in an XML flavor called TETML. It contains a variety of PDF information in a form which can easily be processed with common XML tools. TETML contains the actual text plus optionally font and position information, resource details (fonts, images, colorspaces), and metadata.
TETML is governed by a corresponding XML schema to make sure that TET always creates consistent and reliable XML output. TETML can be processed with XSLT stylesheets, e.g. to apply certain filters or to convert TETML to other formats. Sample XSLT stylesheets for processing TETML are included in the TET distribution.
The following fragment shows TETML output with glyph details:
<Word>
<Text>PDFlib</Text>
<Box llx="111.48" lly="636.33" urx="161.14" ury="654.33">
<Glyph font="F1" size="18" x="111.48" y="636.33" width="9.65">P</Glyph>
<Glyph font="F1" size="18" x="121.12" y="636.33" width="11.88">D</Glyph>
<Glyph font="F1" size="18" x="133.00" y="636.33" width="8.33">F</Glyph>
<Glyph font="F1" size="18" x="141.33" y="636.33" width="4.88">l</Glyph>
<Glyph font="F1" size="18" x="146.21" y="636.33" width="4.88">i</Glyph>
<Glyph font="F1" size="18" x="151.08" y="636.33" width="10.06">b</Glyph>
</Box>
</Word>
TET Connectors
TET connectors provide the necessary glue code to interface TET with other software. The following TET connectors make PDF text extraction functionality available for various software environments:
TET Cookbook
The TET Cookbook is a collection of programming examples which demonstrate the use of TET for various text and image extraction tasks. Several Cookbook samples show how to combine the TET and PDFlib+PDI products in order to enhance PDF documents, e.g. add bookmarks or links based on the text on the page.
更新時間:2023-07-13 15:00:44.000 | 錄入時間:2006-01-18 11:46:00.000 | 責(zé)任編輯:胡濤
掃碼聯(lián)系 獲取幫助
允許開發(fā)人員在不需要Office Automation的情況下處理Word文檔的API
控件開發(fā)商業(yè)類微軟Office擴(kuò)展的一體化框架,如Office COM Add-in、Outlook插件
控件PDF優(yōu)化類庫,用于壓縮PDF文件的尺寸大小、提高網(wǎng)絡(luò)瀏覽速度、提供高質(zhì)量的打印等
軟件PDF Studio是一款功能強(qiáng)大的,易于使用的PDF編輯器,它以Adobe? Acrobat?和其他PDF工具的小部分代價在PDF文檔上提供了大量的功能。
軟件Spire.Cloud是一款幫助WEB網(wǎng)站或WEB應(yīng)用系統(tǒng)輕松處理Office文件全面的解決方案。
官方微信
官方微博
服務(wù)電話
重慶/ 023-68661681
華東/ 13452821722
華南/ 18100878085
華北/ 17382392642
客戶支持
技術(shù)支持咨詢服務(wù)
服務(wù)熱線:400-700-1020
郵箱:sales@evget.com
關(guān)注我們
地址 : 重慶市九龍坡區(qū)火炬大道69號6幢
慧都科技 版權(quán)所有 Copyright 2003- 2024 渝ICP備12000582號-13 渝公網(wǎng)安備 50010702500608號