当前位置：首页 > 软件 > PDF软件 > PDFlib PDFlib TET PDF软件

< >

PDFlib PDFlib TET PDF软件

价格：: ￥ 立即询价

规格：

规格描述：

型号：: PDFlib TET

正版保证：: 原装正品

品牌：: PDFlib品牌更多产品>>

质保服务：

货期：: 现货

产品状态：: 成熟产品

发票类型：: 含13%货物增票

产品类型：: 标准规格

物流费用：: 包运费

品牌属国：: 欧美品牌

支付方式：: 公对公付款 公司支付宝

服务区域：

适用场景：

扫一扫，分享到手机

商品详情
同款比较
售后服务

TET 5

PDFlib GmbH发布了新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之后逐渐改名为»文本和图像提取工具包«，在图像提取方面得到明显提升。

TET检索文本、图像、PDF文档中的元数据和其他信息。以下是全新或显著改善的五大特性:

· 文本检索:

检索文本的填充色和描边色

改善布局检测

· 图像检索

显著增强分散图像的合并

提取图像蒙版和软蒙版

· 页面处理:

荣誉图层和剪辑路径

· TETML 内容:

包括符号的填充色和描边色、颜色空间和ICC文件配置细节

一些新的pCOS 伪对象

全新的PDFlib TETPDF IFilter 5 (企业版PDF搜索应用于窗口)版本现已可用。

PDFlib TET 5 – 特性
PDFlib文本和图像提取工具包（TET）旨在从PDF文档中提取文本和图像，但也可用于从PDF检索其他信息。
接受PDF输入
TET支持所有相关的PDF输入：
所有PDF版本到Acrobat DC，包括ISO 32000-1和-2
保护那些打开不需要密码的PDF文档

损坏的PDF文档将被修复

世界的所有写作系统

TET在世界上所有书写系统中处理PDF文档，并实现某些脚本所需的特殊处理：

拉丁语，希腊语和西里尔字母，包括脱音

阿拉伯语和希伯来语，包括从右到左和双向文本的逻辑重新排序;阿拉伯语呈现形式的规范化

简体和繁体中文，日语和韩语，无论编码;水平和垂直文本

印度文字（无字形重排）

Unicode支持的所有其他语言和脚本

Unicode

由于PDF中的文本通常不以Unicode编码，因此PDFlib TET将PDF文档中的文本标准化为Unicode：

TET将所有文本内容转换为Unicode。在C和其他非Unicode感知语言中，文本以UTF-8或UTF-16格式返回，并作为具有Unicode功能的编程语言的本地字符串返回。

字符和其他多字符字形被分解为相应的Unicode字符序列。

没有适当的Unicode映射的字形被识别，并被映射到可配置的替换字符，以避免误解。

TET针对特定文档创建包（例如InDesign和TeX文档或在大型机系统上生成的PDF）的问题实施各种解决方法。

内容分析和字检测

TET包括专利内容分析算法：

确定检索正确单词所需的单词边界

重组连字字的部分（去连字）

删除重复的文字实例，例如阴影和人为粗体文本

按阅读顺序重新组合段落

正确排序散布在页面上的文本

页面布局和表检测

分析页面内容以确定文本列。检测表，包括跨越多个列的单元格。这改进了提取的文本的排序。可以标识表行和每个表单元格的内容。

几何

TET提供了文本的精确度量，例如页面上的位置，字形宽度和文本方向。页面上的特定区域可以被排除或包括在文本提取中，例如。以忽略页眉和页脚或边距。

文本颜色

TET分析PDF页面描述中的颜色信息，并返回每个字形的精确颜色信息。这可以用于例如识别标题或其他突出显示的文本。

图像提取

PDF页面上的图像可以提取为TIFF，JPEG，JPEG 2000或JBIG2文件。针对每个图像报告精确的几何信息（位置，大小和角度）。分割的图像被组合到较大的图像以方便重新使用。由于不进行下采样或颜色转换，保证了图像保真度。这确保了最高的图像质量。

PDF分析

TET库包括用于查询PDF文档的详细信息的pCOS接口，例如文档信息和XMP元数据，字体列表，页面大小等等。

有问题的PDF的配置选项

TET包含各种PDF的特殊处理和解决方法，其中文本无法与其他产品正确提取。此外，它包括各种配置功能，以改善问题文档的处理：

Unicode映射可以通过用户提供的表来定制，用于将字符代码或字形名称映射到Unicode。

PDFlib FontReporter是一个用于分析PDF中的字体，编码和字形的辅助工具。它作为adobe Acrobat的插件。此插件可免费用于OS X / macOS和Windows。

分析嵌入字体以查找Unicode映射的其他提示。如果未嵌入字体，则使用外部字体文件或系统字体来提高文本提取结果。

Unicode后处理

TET支持各种Unicode后处理步骤，可用于改进提取的文本：

折叠保留，删除或替换字符，例如。从不相关的脚本中删除标点符号或字符。

分解用一个或多个其他字符的等效序列替换字符，例如。用其各自的标准对应物替换窄的，宽的或垂直的日语字符或拉丁上标变体。

文本可以转换为所有四种Unicode标准化形式，例如。发射NFC表单以满足Web文本或数据库的要求。

文档域

PDF文档可能包含除页面内容之外的其他位置的文本。虽然大多数应用程序将仅处理页面内容，但在许多情况下，其他文档域也可能是相关的。 TET从以下所有文档域中提取文本：

页面内容

预定义和自定义文档信息条目

文档和图像级别的XMP元数据

书签

文件附件和PDF文件包可以递归处理

表单域

评论（注释）

可查询一般PDF属性，如页数，符合PDF / A或PDF / X等标准。

XMP元数据

TET以多种方式支持XMP元数据：

使用集成的pCOS接口，可以以编程方式提取文档，单个页面，图像或文档的其他部分的XMP元数据。

TETML输出包含XMP文档和图像元数据（如果存在于PDF中）。

以TIFF或JPEG格式提取的图像包含图像元数据（如果存在于PDF中）。

TETML表示作为XML的PDF内容

TET可选地表示称为TETML的XML风格中的PDF内容。它包含各种各样的PDF信息，可以很容易地使用常用的XML工具进行处理。 TETML包含实际文本以及可选的字体和位置信息，资源详细信息（字体，图像，颜色空间）和元数据。

TETML还包括交互式元素，例如表单字段，注释，书签等。它甚至可以用于分析JavaScript或颜色空间细节，ICC配置文件或输出意图。

TETML由相应的XML模式管理，以确保TET始终创建一致和可靠的XML输出。 TETML可以用XSLT样式表处理，例如。应用某些过滤器或将TETML转换为其他格式。用于处理TETML的样本XSLT样式表包括在TET分布中。

以下片段显示具有字形详细信息的TETML输出：

PDFlib

TET连接器

TET连接器提供必要的粘合代码来与其他软件进行TET接口。以下TET连接器使PDF文本提取功能可用于各种软件环境：

Lucene搜索引擎的TET连接器

Solr搜索服务器的TET连接器

TIKA工具包的TET连接器

Oracle Text的TET连接器

MediaWiki的TET连接器

TET PDF用于Microsoft产品的IFilter可作为单独的产品提供。它从PDF文档中提取文本和元数据，并使其可用于在Windows上搜索和检索软件。

TET食谱

TET Cookbook是一个编程示例的集合，演示了TET对各种文本和图像提取任务的使用。几个Cookbook示例展示了如何结合TET和PDFlib + PDI产品，以增强PDF文档，例如。基于页面上的文本添加书签或链接。

: Software CompanionsscViewerX SDKPDF软件¥ 立即询价

: NONEFineprintPDF软件¥ 立即询价

: NONEpdfFactoryPDF软件¥ 立即询价

: NucleusNucleus Data Recovery Kernel for PDF to WordPDF软件¥ 立即询价

: PDFlibPDFlib TETPDF软件¥ 立即询价

: NONE文电通PDF套装版PDF软件¥ 立即询价

: NONE文电通PDF转换器PDF软件¥ 立即询价

: NONE文电通PDF终端服务器PDF软件¥ 立即询价

: NONE文电通PDF转换服务器PDF软件¥ 立即询价

: 北京棣南新宇文电通PDF阅读器PDF软件¥ 立即询价

我有产品使用问题，现在去咨询去了解售后服务范围