PDF转HTML 查看PDF文件代码

合集下载

C#在线预览文档(word,excel,pdf,txt,png)

C#在线预览文档(word,excel,pdf,txt,png)

C#在线预览⽂档(word,excel,pdf,txt,png) C#在线预览⽂档(word,excel,pdf,txt,png)1、预览⽅式:将word⽂件转换成html⽂件然后预览html⽂件2、预览word⽂件:需要引⼊Interop.Microsoft.Office.Interop.Word.dll(Com组件)3、预览Excel⽂件:需要引⼊Interop.Microsoft.Office.Interop.Excel.dll(Com组件,Microsoft Excel 12.0(or other version) Object Library)4、PDF⽂件直接嵌⼊到浏览器中进⾏查看,⽆需转换(需安装pdf阅读器)5、⽂本⽂件直接嵌⼊到浏览器进⾏查看,⽆需转换6、图⽚⽂件直接嵌⼊到浏览器进⾏查看,⽆需转换Excel预览⽅法using Microsoft.Office.Interop.Excel;using System;using System.Collections;using System.Collections.Generic;using System.Diagnostics;using System.Linq;using System.Web;///<summary>/// Summary description for ExcelPreview///</summary>public class ExcelPreview{public static void Priview(System.Web.UI.Page p, string inFilePath, string outDirPath = ""){Microsoft.Office.Interop.Excel.Application excel = null;Microsoft.Office.Interop.Excel.Workbook xls = null;excel = new Microsoft.Office.Interop.Excel.Application();object missing = Type.Missing;object trueObject = true;excel.Visible = false;excel.DisplayAlerts = false;string randomName = DateTime.Now.Ticks.ToString(); //output fileNamexls = excel.Workbooks.Open(inFilePath, missing, trueObject, missing,missing, missing, missing, missing, missing, missing, missing, missing,missing, missing, missing);//Save Excel to Htmlobject format = Microsoft.Office.Interop.Excel.XlFileFormat.xlHtml;Workbook wsCurrent = xls;//(Workbook)wsEnumerator.Current;String outputFile = outDirPath + randomName + ".html";wsCurrent.SaveAs(outputFile, format, missing, missing, missing,missing, XlSaveAsAccessMode.xlNoChange, missing,missing, missing, missing, missing);excel.Quit();//Open generated HtmlProcess process = new Process();eShellExecute = true;process.StartInfo.FileName = outputFile;process.Start();}}Pdf类using Microsoft.Office.Interop.Word;using System;using System.Collections.Generic;using System.Diagnostics;using System.IO;using System.Linq;using System.Web;///<summary>/// Summary description for WordPreview///</summary>public class PDFPreview{public static void Priview(System.Web.UI.Page p, string inFilePath){p.Response.ContentType = "Application/pdf";string fileName = inFilePath.Substring(stIndexOf('\\') + 1);p.Response.AddHeader("content-disposition", "filename=" + fileName);p.Response.WriteFile(inFilePath);p.Response.End();}}Word预览⽅法using Microsoft.Office.Interop.Word;using System;using System.Collections.Generic;using System.Diagnostics;using System.IO;using System.Linq;using System.Web;///<summary>/// Summary description for WordPreview///</summary>public class WordPreview{public static void Priview(System.Web.UI.Page p, string inFilePath, string outDirPath = ""){object missingType = Type.Missing;object readOnly = true;object isVisible = false;object documentFormat = 8;string randomName = DateTime.Now.Ticks.ToString();object htmlFilePath = outDirPath + randomName + ".htm";string directoryPath = outDirPath + randomName + ".files";object filePath = inFilePath;//Open the word document in backgroundApplicationClass applicationclass = new ApplicationClass();applicationclass.Documents.Open(ref filePath,ref readOnly,ref missingType, ref missingType, ref missingType,ref missingType, ref missingType, ref missingType,ref missingType, ref missingType, ref isVisible,ref missingType, ref missingType, ref missingType,ref missingType, ref missingType);applicationclass.Visible = false;Document document = applicationclass.ActiveDocument;//Save the word document as HTML filedocument.SaveAs(ref htmlFilePath, ref documentFormat, ref missingType,ref missingType, ref missingType, ref missingType,ref missingType, ref missingType, ref missingType,ref missingType, ref missingType, ref missingType,ref missingType, ref missingType, ref missingType,ref missingType);//Close the word documentdocument.Close(ref missingType, ref missingType, ref missingType);#region Read the Html File as Byte Array and Display it on browser//byte[] bytes;//using (FileStream fs = new FileStream(htmlFilePath.ToString(), FileMode.Open, FileAccess.Read)) //{// BinaryReader reader = new BinaryReader(fs);// bytes = reader.ReadBytes((int)fs.Length);// fs.Close();//}//p.Response.BinaryWrite(bytes);//p.Response.Flush();//p.Response.End();#endregionProcess process = new Process();eShellExecute = true;process.StartInfo.FileName = htmlFilePath.ToString();process.Start();#region Delete the Html File and Diretory 删除⽣成的⽂件//File.Delete(htmlFilePath.ToString());//foreach (string file in Directory.GetFiles(directoryPath))//{// File.Delete(file);//}//Directory.Delete(directoryPath);#endregion}}⽂本预览⽅法using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Web;///<summary>/// Summary description for TextFilePreview///</summary>public class TextFilePreview{public static void Preview(System.Web.UI.Page p, string inFilePath){string fileName = inFilePath.Substring(stIndexOf('\\') + 1);p.Response.ContentType = "text/plain";p.Response.ContentEncoding = System.Text.Encoding.UTF8; //保持和⽂件的编码格式⼀致p.Response.AddHeader("content-disposition", "filename=" + fileName);p.Response.WriteFile(inFilePath);p.Response.End();}}图⽚预览⽅法using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Web;///<summary>/// Summary description for TextFilePreview///</summary>public class TextFilePreview{public static void Preview(System.Web.UI.Page p, string inFilePath){string fileName = inFilePath.Substring(stIndexOf('\\') + 1);p.Response.ContentType = "images/*";p.Response.ContentEncoding = System.Text.Encoding.UTF8;p.Response.AddHeader("content-disposition", "filename=" + fileName);p.Response.WriteFile(inFilePath);p.Response.End();}}以上的pdf,txt,图⽚这个三种⽅式在MVC下不可⽤,在aspx界⾯可⽤。

.NET(C#)中使用pdf2htmlEX实现pdf向html的格式转换器word精品文档3页

.NET(C#)中使用pdf2htmlEX实现pdf向html的格式转换器word精品文档3页

(C#)中使用pdf2htmlEX实现pdf向html的格式转换器1 背景目前,网络阅读平台在线阅读pdf文档的较为流行的解决方案是将pdf 文档转换成swf格式,然后使用flash播放器进行播放。

该解决方案的缺点较多:一,对于没有安装flash播放器的用户,pdf文档内容可能不能正常显示;二,使用flash在线播放容易导致清晰度降低,影响阅读;三,用户无法复制其中的内容;四,对屏幕尺寸各异的移动设备缺乏自适应能力。

将pdf转换成html文档则可以解决上述问题。

网络上和文献中分享的该领域的技术大部分是通过Java语言实现的。

笔者通过查阅文献和相关技术资料,结合本人的开发实践,提供了(C#)中基于pdf2htmlEX开源工具的格式转换器的实现技术。

2 使用pdf2htmlEX在(C#)中实现pdf向html的转换2.1 pdf2htmlEX介绍pdf 转换为html(下文部分地方简称为pdf2html)的技术思路是将pdf文档中的文字、图片、字体等信息提取出来,然后按照html的语法写入html文档中[1]。

pdf2htmlEX是免费使用的可高保真地对pdf至html 转换的工具,作者为王璐,在网上能找到较多的版本,笔者所使用的版本的下载地址是:http://download.csdn/detail/zhouyifan2009/8552783。

pdf2htmlEX的主要特点有以下四个:首先,它能准确提取字体,保证最大限度地原样输出;第二,保证渲染准确性,针对Web进行优化,如对文件进行必要的压缩等;第三,其他内容用背景图片的形式显示;第四,单文件输出,即转换结果是生成一个html文件,图片等信息不存放在单独的文件中。

[2]2.2 实现步骤pdf2htmlEX工具是控制台程序,没有自己的用户界面(点击pdf2htmlEX.exe文件时,程序窗口一闪而过,用户不能直接使用),必须由操作系统自带的cmd.exe调用或者其他第三方程序调用来实现它的功能。

PDF转word方法全面盘点

PDF转word方法全面盘点

PDF转word方法全面盘点PDF是由Adobe公司发明的文件格式,Portable Document Format的缩写,意为“便携文档格式”。

它已成为事实上的电子文档标准,越来越多的电子出版物、软件说明书、填报表格多采用PDF格式。

正是因为如此,在日常工作中要经常处理PDF文件。

有时是文档制作成PDF文件,有时则需要将PDF文件转换成MS word的Doc格式…本文将汇总一些PDF 转word方法,希望对你有所帮助。

邮箱篇:免安装,且简易,邮箱转pdf为html或文本格式优点:速度快、可信任;各种语言编码的文字都可转换(效果不一);免去安装软件之劳苦…缺点:图片的转换效果令人纠心。

QQ邮箱有网友戏言:QQ邮箱是腾讯推出的唯一好用的服务!对此我持保留意见,至少腾讯的很多服务我是离不开的!至于QQ邮箱嘛,的确是我使用频率很高的服务……这个使用很简单!只需将要转换的文件发送到到QQ邮箱里面,然后将附件以纯文本的方式打开即可。

(图:1 QQ邮箱的纯文本方式查看功能)然后复制过去即可。

(图:2 QQ邮箱的纯文本方式查看功能)比较适合少图的PDF文件。

如果转换的PDF文件包含众多图片的话!很容易出现说该文件已损坏的情况。

(图:3 QQ邮箱的报错)此外,如果要是要转换的文件超出普通邮件限制的附件大小的话,还可以试试QQ邮箱的文件中转站功能。

将要转换的文件上传后转换成文本格式或者HTML格式后再复制到word就ok了。

(图:4 QQ邮箱文件中转站功能)(图:5 QQ邮箱文件中转站功能)第二:Gmail邮箱转pdf为html格式,然后再复制到word里。

将要转换的文件发送到gmail,在附件一栏有“查看”选项,点击进入后在上面点击“以纯HTML“查看即可。

(图:6 Gmail的查看功能)(图:7 Gmail以纯HTML查看功能)但是,目前似乎gmail有些小问题。

每当我点击以“纯HTML”查看文件的时候,它都会弹出保存窗口,然后保存打开之后还是gmail的邮箱……who can tell me why?以前可是能用的…(图:8 Gmail的一个小问题)网站篇:免费而专业的转换网站强烈推荐:,一个相当专业且免费的网站。

Java 将Word转为PDF、html、图片、XPS(基于Spire.Cloud.SDK for Java)

Java 将Word转为PDF、html、图片、XPS(基于Spire.Cloud.SDK for Java)

Java 将Word转为PDF/Html/图片/XPS/SVG(基于Spire.Cloud.SDK for Java)Spire.Cloud.SDK for Java API提供了ConverApi接口支持将Word文档转换为多种文档格式,包括将Word转为PDF、Html、位图Bitmap(JPEG/BMP/ PNG)、矢量图Vectorgraph(支持WMF/SVG)、XPS、PostScript、PCL、dotx、dotm、docm、odt、wordxml、wordml、doc、docx、rtf、epub等等。

下面将详细介绍如何来实现转换。

步骤一、导入jar文件创建Maven项目程序,通过maven仓库下载导入。

以IDEA为例,新建Maven项目,在pom.xml文件中配置maven仓库路径,并指定spire.cloud.sdk的依赖,如下:<repositories><repository><id>com.e-iceblue</id><name>cloud</name><url>/repository/maven-public/</url></repository></repositories><dependencies><dependency><groupId> cloud </groupId><artifactId>spire.cloud.sdk</artifactId><version>3.5.0</version></dependency><dependency><groupId> com.google.code.gson</groupId><artifactId>gson</artifactId><version>2.8.1</version></dependency><dependency><groupId> com.squareup.okhttp</groupId><artifactId>logging-interceptor</artifactId><version>2.7.5</version></dependency><dependency><groupId> com.squareup.okhttp </groupId><artifactId>okhttp</artifactId><version>2.7.5</version></dependency><dependency><groupId> com.squareup.okio </groupId><artifactId>okio</artifactId><version>1.6.0</version></dependency><dependency><groupId> io.gsonfire</groupId><artifactId>gson-fire</artifactId><version>1.8.0</version></dependency><dependency><groupId>io.swagger</groupId><artifactId>swagger-annotations</artifactId><version>1.5.18</version></dependency><dependency><groupId> org.threeten </groupId><artifactId>threetenbp</artifactId><version>1.3.5</version></dependency></dependencies>完成配置后,点击“Import Changes” 即可导入所有需要的jar文件。

Word文件如何转换为PDF文件并在网页里显示PDF文件

Word文件如何转换为PDF文件并在网页里显示PDF文件

如何在中Word文件转换为PDF文件并在网页里显示PDF文件在开发项目时,可能有时需要将项目中上传的文件进行转换,如将Word文件转换为PDF文件。

要实现这一功能,可能有些人根本就毫无头绪或者是实现方法很复杂、不容易理解而且效率低,但若是通过PageOfficeCtrl控件,则很容易就能实现这一转换,并且还可以利用PDFCtrl控件在网页里显示转换生成的PDF文件。

下面我就来和大家分享一下,通过这两个控件实现文档转换并显示的一个示例。

第一步:请先安装PageOffice的服务器端的安装程序,之后在你的网站中根目录下添加pageoffice文件夹(在网站的“下载中心”中可下载相应的压缩包,解压之后直接将PageOffice实例代码里的pageoffice文件夹拷贝到根目录下就可以了)。

第二步:在网站中添加文件夹存放word模板文件和转后的PDF文件,我习惯命名为“doc”,将要转换的文件“template.doc”拷贝到该文件夹下。

第三步:在网站中创建web页面WordToPDF.aspx。

在工具箱中拖动一个PageOfficeCtrl控件到前台页面上(PageOfficeCtrl控件位于工具箱最下方)。

然后在后台添加代码设置PageOffice的服务器页面、保存页面、打开Word文件和添加自定义按钮,部分代码如下://设置服务器页面PageOfficeCtrl1.ServerPage = "pageoffice/server.aspx";//设置保存页PageOfficeCtrl1.SaveFilePage = "SaveFile.aspx";//添加自定义按钮PageOfficeCtrl1.AddCustomToolButton("保存", "Save()", 1);PageOfficeCtrl1.AddCustomToolButton("另存为PDF文件", "SaveAsPDF()", 1);string fileName = "template.doc";//定义将要转换的PDF文件的名称pdfName = fileName.Substring(0, fileName.Length - 4) + ".pdf";//打开Word文件PageOfficeCtrl1.WebOpen(Server.MapPath("doc/") +fileNamen, PageO ffice.OpenModeType.docNormalEdit, "张佚名");之后在前台页面添加执行自定义按钮“保存”、“另存为PDF文件”时执行的的JS函数:Save()、SaveAsPDF(),代码如下://保存function Save() {document.getElementByIdx_x_x_x("PageOfficeCtrl1").WebSave();}//另存为PDF文件function SaveAsPDF() {document.getElementByIdx_x_x_x("PageOfficeCtrl1").WebSaveAsPDF(); //转换为PDF文件后,在OpenPDF.aspx中打开转换后的PDF文件window.open("OpenPDF.aspx?fileName=<%=pdfName %>");} 第四步:在网站中创建动态页面SaveFile.aspx保存Word文件,在后台添加代码如下://定义FileSaver对象PageOffice.FileSaver fs = new PageOffice.FileSaver();//保存Word文件fs.SaveToFile(Server.MapPath("doc/") + fs.FileName);//关闭FileSaver对象fs.Close();第五步:显示转换得到的PDF文档。

实现在线预览PDF的几种解决方案

实现在线预览PDF的几种解决方案

实现在线预览PDF的⼏种解决⽅案因客户需要实现PDF的预览处理,在⽹上找了⼀些PDF在线预览的解决⽅案,有的⽤PDFJS的在线预览⽅式,有的使⽤PDFObject的嵌⼊式显⽰,有的通过转换JPG/PNG⽅式实现间接显⽰的⽅式,开始是想通过简单的⽅式,能够使⽤JS插件实现预览最好,可是在线预览总是有⼀些不⾜,如不同浏览器的兼容问题,甚⾄不同的⼿机平台中展⽰的效果也不⼀样,不过最好还是采⽤了间接的⽅式,把PDF转换为图⽚展⽰效果,达到客户的要求。

1、在线实现预览的⽅式⼀开始我还是很倾向使⽤这种⽅式,希望能采⽤⼀个较为好的JS插件的⽅式,实现PDF的在线预览(通过Web预览),因此在Github上找到排名⽐较⾼的PDF插件⼀看排名还是很⾼的,那么采⽤它应该不错,查看⾃带的PDF⽂件,效果还是杠杠的。

不过客户的要求是显⽰正常的发票PDF⽂件,换⼀下⽂件地址,有部分信息显⽰不了,找了⼀下没有看到解决⽅法,所以效果不达标。

连基本的发票也显⽰不了,那我这个就不能⽤它来显⽰发票PDF⽂件了。

最后,测试了使⽤PDFObject()的⽅式实现在线嵌⼊PDF显⽰的⽅式,这个JS插件也是不错的,同样可以在GitHub上可以找到。

它的使⽤也是很简单的,如下代码所⽰。

<script src="/js/pdfobject.js"></script><script>PDFObject.embed("/pdf/sample-3pp.pdf", "#example1");</script>如果需要设置预览窗⼝的⼤⼩,通过设置样式即可。

<style>.pdfobject-container { height: 500px;}.pdfobject { border: 1px solid #666; }</style>显⽰的效果是正常的了,不过我在苹果⼿机打开Safari浏览器测试发现,不能正常显⽰。

pdf2htmlex实现原理

pdf2htmlex实现原理

pdf2htmlex实现原理
PDF2HTML EX是一种将PDF文档转换为HTML格式的在线工具。

它的实现原理主要包括以下几个方面:
1. 页面解析:首先,程序会对输入的PDF文档进行解析,将其分割成多个页面。

2. 文本识别:然后,程序会使用光学字符识别(OCR)技术,将每个页面上的文本进行识别,提取出文本内容。

3. 页面布局分析:接下来,程序会分析每个页面的布局,包括文本的位置、大小、字体等,以便在生成的HTML页面中尽可能地保留原文的布局和格式。

4. 文本转换:最后,程序会将识别出的文本转换为其对应的HTML标签,如<p>、<h1>、<img>等。

5. 页面生成:将所有页面的HTML代码组合在一起,生成一个完整的HTML文件。

这个过程涉及到计算机视觉、图像处理、自然语言处理等多个领域的技术。

PDF2HTML EX能够准确地转换PDF文档的内容和布局,使得用户可以在网页上查看和编辑PDF文档。

链接转pdf java

链接转pdf java

在Java中将链接转换为PDF文件,通常需要使用一些第三方库,如Jsoup 用于抓取网页内容,然后使用iText或PDFBox等库将HTML内容转换为PDF 格式。

以下是一个基本的步骤示例:
1. 添加依赖项:
对于Jsoup:在你的Maven或Gradle构建文件中添加Jsoup依赖。

对于iText或PDFBox:添加相应的PDF生成库依赖。

2. 使用Jsoup抓取网页内容:
java代码:
3. 将HTML内容转换为PDF:
如果使用iText:
java代码:
如果使用PDFBox:
java代码:
注意:上述PDFBox示例中并没有直接将HTML转换为PDF,因为PDFBox 本身并不直接支持HTML到PDF的转换。

你可能需要结合使用Flying Saucer 或Apache FOP等其他库来实现这一功能。

请根据你的具体需求和环境选择合适的库和方法进行链接转PDF的操作。

同时,由于网络抓取和PDF生成可能会涉及到版权和许可问题,确保你在进行此类操作时遵守相关法律法规和网站的使用条款。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

我们在进行HTML代码编程的时候,会去查看相关的文件或是网站后台的代码进行参考,那么对于PDF文件要怎么查看它的代码——PDF 转HTML
文件的代码不像是网站代码,网站想要查看代码,可以直接查看代码源就可以了
想要查看PDF文件的HTML代码,那么就需要将PDF文件的格式进行转换,将CSS的代码单独提取出来,那么就需第三方软件——迅捷caj 转换器进行转换操作
由于需要对PDF文件进行代码查看,所以我们打开一个编辑好的PDF 文件
然后打开迅捷caj转换器,寻找到有关PDF文件的转换选项,然后点击“PDF转HTML”
之后将PDF文件上传到HTML的文件转换的页面中
如果你没有什么特殊的需求,那么就可以直接点击上传文件下方的“开始转换”进行PDF文件转换
如果是对转文件有需求,可以在下面的“页码选择”中进行选择操作
转换后的HTML文件是一个压缩包,我们进行解压后可以看到CSS文件就在其中,可以点击右键直接在TXT文件中进行查看。

相关文档
最新文档