跳到内容
  • 福昕首页
  • 开发中心
  • SDK文档资料
  • 福昕首页
  • 开发中心
  • SDK文档资料
申请试用
  • 企业自动化
    • Compressor
  • 福昕CloudAPI
  • 福昕PDF SDK 软件开发工具包
    • 福昕PDF SDK(ActiveX)
    • 福昕PDF SDK(桌面/服务器)
    • 福昕PDF SDK(Plug-in)
    • 福昕 PDF SDK(安卓)
    • 福昕PDF SDK(iOS)
    • 福昕PDF SDK(Web)
  • 福昕管理控制台
    • 公有云
    • 私有云
    • 通用情况
  • 福昕阅读器
    • RMS插件
  • 福昕高级编辑器
    • AI助手
    • Mac版本
      • 常规问题
    • windows版本
      • ECM集成
      • 互联PDF
      • 企业管理指南
      • 保护
      • 内容编辑
      • 创建PDF
      • 压缩
      • 图章
      • 安装与卸载
      • 常见问题
      • 打印
      • 注释/评论
      • 福昕插件
      • 翻译助手
      • 翻译助手教程
      • 试用与激活
      • 转换
      • 页面管理
    • 教育用户
      • 论文查重
      • 论文畅
    • 网页版
      • 电子签章
    • 订阅
    • 资源
  • 福昕高级编辑器Linux版本
  • 福船图纸管理系统
  • 福昕PDF SDK 软件开发工具包 > 福昕PDF SDK(桌面/服务器)
  • 标签:
  • pdf2txt,分栏,导出文本,按顺序提取文本

对于分栏布局的页面,如何按分栏快速导出纯文本?

  • 福昕知识库
  • 2025-03-07

在PDF导出成txt时,如果页面存在分栏的情况例如下图:左右分栏格式的文档,文章的正文被分为左右两个部部分。我们期望从“介绍”开始,后面的内容按照阅读顺序先左后右地进行导出,最后保存到txt格式中。示例图如下:

但如果直接运行SDK中的pdf2txt的Demo,结果则是机械的导出文本。一行文本会包含两个段落的内容,可能对后续对文本的操作带来不便。示例结果如下:

如果期望按照阅读顺序或文本生成顺序进行导出,可以使用代码textPage.GetText(TextPage.TextOrderFlag.e_TextStreamOrder) 进行文本的提取。示例图如下:

完整C#代码如下:

static MemoryStream pdf2text_2(PDFDoc doc)
{

   MemoryStream memoryStream = new MemoryStream();
   StreamWriter writer = new StreamWriter(memoryStream, Encoding.UTF8);
   String data = "";

   for (int i = 0; i < doc.GetPageCount(); i++)
   {
       using (PDFPage original_page = doc.GetPage(i))
       {
           original_page.StartParse((int)PDFPage.ParseFlags.e_ParsePageNormal, null, false);
           using(TextPage textPage=new TextPage(original_page, (int)(TextPage.TextParseFlags.e_ParseTextNormal)))
           {
             data=data+ textPage.GetText(TextPage.TextOrderFlag.e_TextStreamOrder)+"\r\n";
           }
       }
   }
   writer.Write(data);
   writer.Flush();

   return memoryStream;

}

相关内容

【校园昕积分】邀请攻略:使用福昕合作高校发放教育专用激活码激活

【校园昕积分】邀请攻略:使用CARSI高校账户或高校EDU邮箱注册

在福昕高级PDF编辑器中如何自定义快速访问工具栏

在福昕高级PDF编辑器中如何设置常用图章

在对文件虚拟打印后如何设置文件不自动打开

通知消息关闭后如何开启

PDF文件奇偶页差异化页码添加

Web SDK 开发实战:动态自定义 PDF 注释右键菜单的 JavaScript 实现方案

无法安装服务“Foxit Document Management”(FoxitAssistantSvcPlus)

将3D文件添加作为信任文件

推荐内容

【校园昕积分】邀请攻略:使用福昕合作高校发放教育专用激活码激活

【校园昕积分】邀请攻略:使用CARSI高校账户或高校EDU邮箱注册

在福昕高级PDF编辑器中如何自定义快速访问工具栏

在福昕高级PDF编辑器中如何设置常用图章

在对文件虚拟打印后如何设置文件不自动打开

通知消息关闭后如何开启

PDF文件奇偶页差异化页码添加

Web SDK 开发实战:动态自定义 PDF 注释右键菜单的 JavaScript 实现方案

无法安装服务“Foxit Document Management”(FoxitAssistantSvcPlus)

将3D文件添加作为信任文件

产品
  • 应用行业
  • 白皮书
开发支持
  • 开发中心
  • SDK文档资料

销售咨询:010-50951668

客服电话:0591-38509808

销售咨询
微信公众号

©2025 福建福昕软件开发股份有限公司 版权所有

隐私策略