跳到内容
  • 福昕首页
  • 开发中心
  • SDK文档资料
  • 福昕首页
  • 开发中心
  • SDK文档资料
申请试用
  • 企业自动化
    • Compressor
  • 福昕CloudAPI
  • 福昕PDF SDK 软件开发工具包
    • 福昕PDF SDK(ActiveX)
    • 福昕PDF SDK(桌面/服务器)
    • 福昕PDF SDK(Plug-in)
    • 福昕 PDF SDK(安卓)
    • 福昕PDF SDK(iOS)
    • 福昕PDF SDK(Web)
  • 福昕管理控制台
    • 公有云
    • 私有云
    • 通用情况
  • 福昕阅读器
    • RMS插件
  • 福昕高级编辑器
    • AI助手
    • Mac版本
      • 常规问题
    • windows版本
      • ECM集成
      • 互联PDF
      • 企业管理指南
      • 保护
      • 内容编辑
      • 创建PDF
      • 压缩
      • 图章
      • 安装与卸载
      • 常见问题
      • 打印
      • 注释/评论
      • 福昕插件
      • 翻译助手
      • 翻译助手教程
      • 试用与激活
      • 转换
      • 页面管理
    • 教育用户
      • 论文查重
      • 论文畅
      • 操作指南
    • 网页版
      • Foxit eSign
      • 电子签章
    • 订阅
    • 资源
  • 福昕高级编辑器Linux版本
  • 福船图纸管理系统
  • 福昕PDF SDK 软件开发工具包 > 福昕PDF SDK(桌面/服务器)
  • 标签:

如何估算文本对象之间的空格个数?

  • 福昕知识库
  • 2024-10-24

PDF页面上人眼看见的一行文本,可能是由多个独立的文本对象TextObject构成,

如果需要自行将文本导出,为txt纯文本的格式,通常可以通过TextPage.GetTextInRect()获取。但这个接口最多只保留文本间的一个空格符。如果要求还准确原空格间距,保留多个空格,可以按照如下方式进行估算(代码为python语言):

  1. 获取文本对象本身空格间距:
textState = textObject.GetTextState(page);
# 获取词间距
wordSpace = textState.wordspace;
# 获取当前字体的空格原始宽度
spaceWidth_original = textState.font.GetCharWidth(ord(' ')) / 1000;
# 根据词间距spaceWidth_original,字体大小font_size,
#以及文本的横向缩放Matrix.a比例, 计算出实际PDF中 该文本对象的空格实际宽度
spaceWidth = 1 * spaceWidth_original * textState.font_size * textRow福昕PDF SDK 软件开发工具包 > 福昕PDF SDK(桌面/服务器).GetMatrix().a + wordSpace

2. 计算单个文本对象,字符所占的左右两侧的坐标。

#左侧坐标:
textObj.GetCharPos(0).x;
#右侧坐标:
textObj.GetCharPos(textObj.GetCharCount()-1).x+textObj.GetCharWidthByIndex(textObj.GetCharCount()-1);

3. 完整代码:

def GetTextObjBoundary(textObj,is_left=True):
    if is_left:
        return textObj.GetCharPos(0).x;
    else:
        return textObj.GetCharPos(textObj.GetCharCount()-1).x+textObj.GetCharWidthByIndex(textObj.GetCharCount()-1);
#textRow为一行已从左往右排好序的文本对象数组。
def GetTextInRow(textRow, page):
    str=""
    prePosX=0;
    textRow = sorted(textRow, key=lambda x: x.GetRect().left, reverse=False);
    for i in range(0, len(textRow)):
        textStr=textRow福昕PDF SDK 软件开发工具包 > 福昕PDF SDK(桌面/服务器).GetText();
        rect=textRow福昕PDF SDK 软件开发工具包 > 福昕PDF SDK(桌面/服务器).GetRect()
        textObj=textRow福昕PDF SDK 软件开发工具包 > 福昕PDF SDK(桌面/服务器)
        if i==0:
            str=textStr;
            prePosX = GetTextObjBoundary(textObj,False);
            continue;
        distance=GetTextObjBoundary(textObj,True)-prePosX
        GetTextObjBoundary(textObj,True);

        textState = (textRow福昕PDF SDK 软件开发工具包 > 福昕PDF SDK(桌面/服务器).GetTextState(page));
        # 获取词间距
        wordSpace = textState.wordspace;
        # 获取当前字体的空格原始宽度
        spaceWidth_original = textState.font.GetCharWidth(ord(' ')) / 1000;
        # 根据词间距spaceWidth_original,字体大小font_size,文本的横向缩放Matrix.a
        # 计算出实际PDF中 该文本对象的空格宽度
        spaceWidth = 1 * spaceWidth_original * textState.font_size * textRow福昕PDF SDK 软件开发工具包 > 福昕PDF SDK(桌面/服务器).GetMatrix().a + wordSpace
        #根据相邻文本的间距,来计算空格符的个数
        spaceCount=(int)(distance/spaceWidth+0.5)
        for space in range(0,spaceCount):
            str=str+" "
        str=str+textStr;
        prePosX = GetTextObjBoundary(textObj,False);
    return str;

相关内容

版式识别功能Layout Recognition功能Demo简介

自v2025.2.1和v14.0.1版本开始以及之后的版本,如何获取到msi的包

云文档列表右键菜单与程序语言不一致

如何重复使用区域高亮的功能

如何在页面中总是显示文档页面大小

如何实现总是在新窗口中打开文件

如何实现PDF批量转换为word

如何设置编辑器默认启动界面

复制标注粘贴到另一文档后方向变化

在PDF文档上添加图片章打印不显示图章

推荐内容

版式识别功能Layout Recognition功能Demo简介

自v2025.2.1和v14.0.1版本开始以及之后的版本,如何获取到msi的包

云文档列表右键菜单与程序语言不一致

如何重复使用区域高亮的功能

如何在页面中总是显示文档页面大小

如何实现总是在新窗口中打开文件

如何实现PDF批量转换为word

如何设置编辑器默认启动界面

复制标注粘贴到另一文档后方向变化

在PDF文档上添加图片章打印不显示图章

产品
  • 应用行业
  • 白皮书
开发支持
  • 开发中心
  • SDK文档资料

销售咨询:010-50951668

客服电话:0591-38509808

销售咨询
微信公众号

©2025 福建福昕软件开发股份有限公司 版权所有

隐私策略