PDF文件如何将繁体转为简体

合集下载

关于PDF,caj与word转换问题,打印问题

关于PDF,caj与word转换问题，打印问题2009-04-06 17:01:41| 分类：学习技能| 标签：|字号大中小订阅在当今的计算机世界里，使用率最高的两种文档方式分别是Microsoft Word的Doc格式和Adobe Acrobat 的Pdf格式文件。

由于微软的渗透，我们现在所使用的绝大部分文稿或报告的格式都是Doc的，而Pdf格式的文件由于其在网络上传输的便利和安全性，也被广泛的使用。

但两者由于所处的公司不同，出于商业目的，互相不能直接打开使用。

因此，也就给我们广大的文件用户增添了很大的麻烦。

鉴于大家写论文时可能遇到这个问题，加上很多好的论文资源都是pdf格式的，如果一个字一个字的敲显得麻烦而笨拙，下面就介绍一下我的使用经验。

转换方法得根据pdf文档的情况而定，但无论那种情况，你都需要安装adobe acrobat 6.0 professional（或者是standard）,注意不是免费得reader安装好acrobat 6.0后，下面根据各种情况介绍一下转换方法。

情况一：如果pdf文档本身就是用pagemaker或word转换而来的（文字非常清晰锐利，很容易识别），那你就方便了。

你可以先用acrobat打开，然后点文件——>另存为——>把他保存成rtf文档，这样将把所有的pdf页保存成rtf文档，在用word打开。

注意最好保存成rtf文档，要不很有可能产生乱码。

情况二：如果你所得到的pdf文档是用扫描仪扫进去的图片转换的，那么就麻烦了，不过还是比手输入快多了，所以继续往下看。

首先你用acrobat把pdf文件打开，然后点文件——>另存为——>把他保存成图片格式*.tiff（这是无压缩图片格式，以便识别）当然保存成.jpeg格式也行，然后利用文字识别软件，建议用尚书六号（现在好像出到七号了），安装好后，打开转换好的tiff图片，点击“版面分析” ，点击“文字识别” ，可在编辑窗口中进行更正编辑，文字出来了吧，尚书系列文字识别软件功能十分强大，你可以在里面把文字都编辑好了，再保存成rtf或txt文件，然后粘贴到word里就可以使用了。

怎样将英文版PDF文件转换成中文

怎样将英文版PDF文件转换成中文
在使用电脑在网上下载PDF文件的时候，有时不注意下载下来打开一看内容全是英文版的，对于英文水平不好的人来说真是个脑疼的问题，在这里小编可以教大家一个小秘诀就是可以利用转换软件将这个文件翻译成中文版本的，在这里就分享给大家！
1、如何进行到PDF文件翻译呢？首先我们可以在电脑上安装一款PDF 翻译的软件，在浏览器中搜索关键词PDF翻译工具迅捷PDF转换器进行安装。

2、安装好后，双击运行软件。

进入到操作主页面，进行的是PDF文件翻译，鼠标点击选择“特色功能”这个栏目，然后在下面选择到功能“PDF翻译”。

3、点击软件右侧的添加文件按钮。

在文件中找到翻译的PDF文件点击打开添加到转换框内。

4、看到PDF文件成功添加到转换列表中后，下方会出现一个功能就是翻译的功能，在这里可以选择转换的语言，选择英文翻译成简体中
文，最后设置完成后，就可以点击下面的确定啊转换按钮或者鼠标右击文件点击开始转换。

5、看到文件后面的状态栏进度栏完成100%了，就表示PDF文件翻译成功了。

在转换工具中点击文件后面的打开即可查看翻译后的PDF文件。

以上就是使用到转换工具将英文的PDF文件转换成简体中文的操作步骤了，当然大家也可以使用这个工具进行格式的转换。

是不是很好用呢？。

langconv的使用方法

langconv的使用方法langconv是一个用于简繁体转换的Python模块，其使用方法如下：1. 安装langconv模块：可以通过pip命令进行安装，命令为“pip install langconv”。

2. 使用langconv进行简繁体转换：langconv模块提供了Converter类用于简繁体转换操作。

具体使用方法如下：将繁体转换为简体：使用Converter类的convert方法，并指定语言参数为'zh-hans'。

例如：```python`from langconv importdef convert(text):将繁体转换为简体text = Converter('zh-hans').convert(text)return texttext = '繁體字'text = convert(text)print(text) 输出 '繁体字'````将简体转换为繁体：使用Converter类的convert方法，并指定语言参数为'zh-hant'。

例如：```python`from langconv importdef convert(text):将简体转换为繁体text = Converter('zh-hant').convert(text)return texttext = '汉字'text = convert(text)print(text) 输出 '漢字'````3. 使用langconv进行简繁体混合文本转换：如果文本中既有简体又有繁体，可以使用Converter类的convert方法进行文本转换。

例如：```python`from langconv importdef convert(text):将简繁体混合文本转换text = Converter('zh-hans').convert(text)text = Converter('zh-hant').convert(text)return text````。

OCR：如何把扫描版pdf转变成文字版？

我经常在阅读扫描格式pdf的时候，把它们抓取为文字格式，当然得是好书。

可能有朋友不清楚ocr，它就是把文字从图像中识别抓取出来。

文字版pdf的好处就是便于传播、引用，视觉上清晰，具有更大的处理空间，乃至可以二次制作，比如出于手机什么的阅读需要。

但是，ocr过程中的文字识别率不会是100%，需要进一步校对，所以在这个意义上粗制滥造的文字版pdf还不如扫描原版的价值。

我分享自己的一点ocr经验，也是想更多的朋友制作文字版好书，也因为很多的朋友不熟悉ocr。

ocr软件很多，这里只根据自己的经验进行推荐，而忽略其他。

首先说单页pdf的ocr这种单张图片式的文字抓取我强烈推荐JOCR。

JOCR的优点是免费绿色轻量（绿色就是不需要安装），体积小到几乎不可思议的不到100kb。

然后不可想象的是，这么小的软件其识别率还非常高，而且可以抓取20多种语言，包括中文繁体，夫复何求。

JOCR（原版、汉化版、使用说明、MODI及“繁体中文识别”文件）下载：/s/uImX网路上有汉化版，其实不必。

它常用功能很简单，一般就是第一步“Capture Region（选取需要ocr的区域）”，然后在语言框选择语言，最后“Recognize（识别）”，于是就为你蹦出一个txt文本，接下去你还可以就着这文本进行校对。

注意：1、要成功使用JOCR，首先得保证在安装office时选择了“完整”安装选项，因为JOCR的运转是依托于Microsoft Office Document Imaging （MODI，中文OCR辨识引擎）的。

Office 2003的缺省安装是第一次使用MODI时安装，Office 2007的缺省安装是不装，都需要自己主动安装一下。

如果你没有完整安装office，也可以只是再安装一下MODI，微软官方有下载。

2、如果需要抓取繁体，而你使用的是简体windows系统（即比如安装的是简体中文Office 2003），那么请将下列“繁体中文识别”文件复制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0TCCODE.UNITCPRINT.DATTCPRINT2.DATTCSERHT.DATTCTREE.DATTW_BU.DATTW_UB.DATTWBIG532.DLL然后双击reg文件导入注册表，ok。

word文档进行简繁转换方法

word文档进行简繁转换方法word文档进行简繁转换方法如何对word文档进行简繁转换如何对文档进行简繁转换？作为一个台资企业的文员，经常需要阅读台湾的工作文档，另外也需要将自己的文档给台湾同仁看。

但是，因为在语言的文字表现和使用习惯上，大陆和台湾存在着一些区别，有没有什么方法可以实现简繁转换呢？在MicrosoftOffice2003中包括了中文的简繁转换功能，可以使我们的文档交流畅通无阻。

在Word中，如果希望将一个简体中文的文档转化为能够方便阅读的繁体中文文档，可以执行如下操作步骤：1．打开Word文档。

2．执行菜单栏中的“工具”→“语言”→“中文简繁转换”命令，打开“中文简繁转换”对话框。

在“转换方向”选项区域中，选中“简体中文转换为繁体中文”单选按钮，并且选中“词汇”选项区域中的“转换时包括词汇”复选框，这样就可以保证在进行语言转换时，不仅仅可以将简体字转换为繁体字，还可以将在词汇上的不同使用习惯转换过来。

在c语言库函数中将一个字符转换成整型的函数是atol()吗，这个函数的原型是什么？在c语言库函数中将一个字符转换成整型的函数是atol()吗，这个函数的原型是什么？答、函数名: atol功能: 把字符串转换成长整型数用法: long atol(const char *nptr);程序例:＃include＃includeint main(void){ long l; char *str = "98765432"; l = atol(lstr); printf("string = %s integer = %ld ", str, l); return(0);}windows 7窗口转换更疾速窗口转换更疾速 Windows 7绚丽的效果确实美观，但美丽的效果就需求拿速度来交流，因而假如你想要Windows 7中的各个窗口切换得更疾速，那封闭窗口最大、最小化的动画效果后，你会发现窗口切换得更快了。

电脑输入法怎把简体转成繁体输出的方法介绍

电脑输⼊法怎把简体转成繁体输出的⽅法介绍
据⽹络调查，笔者发现⼤家从起初的拼⾳输⼊法变成了QQ等输⼊法，最近⼜有流⾏繁体字的趋势，所以就有朋友会问了，电脑输⼊法怎么把简体转繁体？或者繁体字怎么打？其实繁体字对于中国内地很少有⼈使⽤，不过在中国⾹港、澳门、台湾等地，繁体字应⽤⼴泛，那么到底怎么简体转繁体呢？下⾯笔者将通过⼀个实例简单的演⽰给⼤家，只要⼤家以后⽤起来⽅便即可。

搜狗拼⾳输⼊⽅法：使⽤输⼊法输⼊繁体字。

这种⽅法适合字数较少的繁体字输⼊。

使⽤微软拼⾳输⼊法，在微软拼⾳输⼊法2.0和3.0版本中，当切换到微软拼⾳输⼊法时，输⼊法⼯具条上便可看
到“简”“繁”字样，当点击“繁”字即可切换到繁体字，当再点击“简”字时，会切换回简体字。

另外⽬前⼤家最喜欢的搜狗输⼊法设置中也有简繁体切换功能，如下图设置：
使⽤搜狗输⼊法输⼊繁体字-电脑输⼊法怎么把简体转繁体？另外，⼤家常⽤的紫光拼⾳、google拼⾳、全拼都是使⽤翻页⼯具便可找到繁体字，由于输⼊繁体字较少，可以使⽤此法，当需要输⼊的繁体字较多时，建议使⽤切换到繁体字模式！ PS：假如说你想把⼀篇很长的⽂章原本全是简体字的，怎么简体转繁体呢？可以在百度搜索平台上查找在线简体转换繁体字的⽹页，把⽂章复制进去选择转换即可达到简体转繁体的效果！。

各种电子图书馆文章(PDF、PDG、CAJ)转为Word文档的方法

3：然后就可以使用Acrobat Distiller（Adobe Acrobat Professional自带有此软件）转换成PDF文件，速度比其它虚拟打印机快很多
注意：Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格，但是无法将图形输出到Word，而是把文件中的所有图形单独形成一个个独立的图片文件，放在相同位置的一个相同名称的文件夹中，因此可用snagit软件将图形打开，然后复制到Word中。(所有的识别软件都不能很好的处理图形的识别问题，Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)
3)超星相对比较麻烦一些，如果还有问题，可以先把超星打印成完整的pdf文件，然后在用1、的方法转成Word
4、其他情况下的识别：
使用snagit软件将任何形式的文字可以变成图片，例如使用snagit将屏幕拷贝成图片，然后右键点击图片文件，用microsoft Office Document Image打开图形，其他和2)一样。
1、PDF文件的识别
1)文件可以直接识别的(以文本形式保存的PDF文件)：安装acrobat 7专业版，注意不是acrobat reader，直接另存为rtf文件(识别整个文件)，或者选择工具栏上的文字选择按钮，然后选择文字区域，然后复制到Word等中。
2)文件不能直接识别的(以图片形式保存的PDF文件)：安装office2003，并装上office工具Microsoft Office Document Imaging(完全安装此工具)，然后在打印机里面会增加Microsoft Office Document Image Writer打印机，然后将PDF文件打印到此打印机，选择打印形成的文件的保存位置，然后会自动形成一个MDI文件，并且自动用Microsoft Office Document Image打开此文件，然后选择“工具”菜单下的“使用ocr识别文本”，识别完成后，在选择“工具”下的，“将文本发送到Word”，最后将把整个PDF文件识别输出到Word文件中。

Python汉字简体和繁体的相互转换

Python汉字简体和繁体的相互转换该项⽬还有其他很多跟汉字相关的功能,本⽂只介绍繁体和简体相互转换具体⽅法很简单,下载该项⽬中的 zh_wiki.py 和 langconv.py 两个⽂件,放到python代码⽬录下就可以了.我的python是3.5版本,所以在字符串的decode上和python2.x 有所不同,demo:#!/usr/bin/env python# -*- encoding: utf-8 -*-'''@Author: Victor@Contact: 、@@Date: 2020/9/18@function: '''''from ngconv import Converterdef cat_to_chs(sentence): # 传⼊参数为列表"""将繁体转换成简体:param line::return:"""sentence = ",".join(sentence)sentence = Converter('zh-hans').convert(sentence)sentence.encode('utf-8')return sentence.split(",")def chs_to_cht(sentence): # 传⼊参数为列表"""将简体转换成繁体:param sentence::return:"""sentence = ",".join(sentence)sentence = Converter('zh-hant').convert(sentence)sentence.encode('utf-8')return sentence.split(",")if __name__ == '__main__':li_1 = ['鸡', '鸡', '虎', '⽜', '猪', '虎', '兔']li_2 = ['雞', '雞', '虎', '⽜', '豬', '虎', '兔']rest_fon = chs_to_cht(li_1) # 简体转换成繁体print("简体转换成繁体:{0}".format(rest_fon))rest_chinese = cat_to_chs(li_2)print("简体转换成简体:{0}".format(rest_chinese))#!/usr/bin/env python# -*- coding: utf-8 -*-from copy import deepcopytry:import psycopsyco.full()except:passfrom ycyj_zhongtai.libs.zhtools.zh_wiki import zh2Hant, zh2Hansimport syspy3k = sys.version_info >= (3, 0, 0)UEMPTY = ''# states(START, END, FAIL, WAIT_TAIL) = list(range(4))# conditions(TAIL, ERROR, MATCHED_SWITCH, UNMATCHED_SWITCH, CONNECTOR) = list(range(5))MAPS = {}class Node(object):def__init__(self, from_word, to_word=None, is_tail=True,have_child=False):self.from_word = from_wordif to_word is None:self.to_word = from_wordself.data = (is_tail, have_child, from_word)self.is_original = Trueelse:self.to_word = to_word or from_wordself.data = (is_tail, have_child, to_word)self.is_original = Falseself.is_tail = is_tailself.have_child = have_childdef is_original_long_word(self):return self.is_original and len(self.from_word) > 1def is_follow(self, chars):return chars != self.from_word[:-1]def__str__(self):return'<Node, %s, %s, %s, %s>' % (repr(self.from_word),repr(self.to_word), self.is_tail, self.have_child) __repr__ = __str__class ConvertMap(object):def__init__(self, name, mapping=None): = nameself._map = {}if mapping:self.set_convert_map(mapping)def set_convert_map(self, mapping):convert_map = {}have_child = {}max_key_length = 0for key in sorted(mapping.keys()):if len(key) > 1:for i in range(1, len(key)):parent_key = key[:i]have_child[parent_key] = Truehave_child[key] = Falsemax_key_length = max(max_key_length, len(key))for key in sorted(have_child.keys()):convert_map[key] = (key in mapping, have_child[key],mapping.get(key, UEMPTY))self._map = convert_mapself.max_key_length = max_key_lengthdef__getitem__(self, k):try:is_tail, have_child, to_word = self._map[k]return Node(k, to_word, is_tail, have_child)except:return Node(k)def__contains__(self, k):return k in self._mapdef__len__(self):return len(self._map)class StatesMachineException(Exception): passclass StatesMachine(object):def__init__(self):self.state = STARTself.final = UEMPTYself.len = 0self.pool = UEMPTYdef clone(self, pool):new = deepcopy(self)new.state = WAIT_TAILnew.pool = poolreturn newdef feed(self, char, map):node = map[self.pool + char]if node.have_child:if node.is_tail:if node.is_original:cond = UNMATCHED_SWITCHelse:cond = MATCHED_SWITCHelse:cond = CONNECTORelse:if node.is_tail:cond = TAILelse:cond = ERRORnew = Noneif cond == ERROR:self.state = FAILelif cond == TAIL:if self.state == WAIT_TAIL and node.is_original_long_word():self.state = FAILelse:self.final += node.to_wordself.len += 1self.pool = UEMPTYself.state = ENDelif self.state == START or self.state == WAIT_TAIL:if cond == MATCHED_SWITCH:new = self.clone(node.from_word)self.final += node.to_wordself.len += 1self.state = ENDself.pool = UEMPTYelif cond == UNMATCHED_SWITCH or cond == CONNECTOR:if self.state == START:new = self.clone(node.from_word)self.final += node.to_wordself.len += 1self.state = ENDelse:if node.is_follow(self.pool):self.state = FAILelse:self.pool = node.from_wordelif self.state == END:# END is a new STARTself.state = STARTnew = self.feed(char, map)elif self.state == FAIL:raise StatesMachineException('Translate States Machine ''have error with input data %s' % node) return newdef__len__(self):return self.len + 1def__str__(self):return'<StatesMachine %s, pool: "%s", state: %s, final: %s>' % ( id(self), self.pool, self.state, self.final)__repr__ = __str__class Converter(object):def__init__(self, to_encoding):self.to_encoding = to_encodingself.map = MAPS[to_encoding]self.start()def feed(self, char):branches = []for fsm in self.machines:new = fsm.feed(char, self.map)if new:branches.append(new)if branches:self.machines.extend(branches)self.machines = [fsm for fsm in self.machines if fsm.state != FAIL] all_ok = Truefor fsm in self.machines:if fsm.state != END:all_ok = Falseself._clean()return self.get_result()def _clean(self):if len(self.machines):self.machines.sort(key=lambda x: len(x))# self.machines.sort(cmp=lambda x,y: cmp(len(x), len(y))) self.final += self.machines[0].finalself.machines = [StatesMachine()]def start(self):self.machines = [StatesMachine()]self.final = UEMPTYdef end(self):self.machines = [fsm for fsm in self.machinesif fsm.state == FAIL or fsm.state == END]self._clean()def convert(self, string):self.start()for char in string:self.feed(char)self.end()return self.get_result()def get_result(self):return self.finaldef registery(name, mapping):global MAPSMAPS[name] = ConvertMap(name, mapping)registery('zh-hant', zh2Hant)registery('zh-hans', zh2Hans)del zh2Hant, zh2Hansdef run():import sysfrom optparse import OptionParserparser = OptionParser()parser.add_option('-e', type='string', dest='encoding',help='encoding')parser.add_option('-f', type='string', dest='file_in',help='input file (- for stdin)')parser.add_option('-t', type='string', dest='file_out',help='output file')(options, args) = parser.parse_args()if not options.encoding:parser.error('encoding must be set')if options.file_in:if options.file_in == '-':file_in = sys.stdinelse:file_in = open(options.file_in)else:file_in = sys.stdinif options.file_out:if options.file_out == '-':file_out = sys.stdoutelse:file_out = open(options.file_out, 'wb')else:file_out = sys.stdoutc = Converter(options.encoding)for line in file_in:# print >> file_out, c.convert(line.rstrip('\n').decode(file_out.write(c.convert(line.rstrip('\n').decode('utf8')).encode('utf8'))# 转换繁体到简体def to_jianti(line):line = Converter('zh-hans').convert(line)line.encode('utf-8')return line# 转换简体到繁体line = Converter('zh-hant').convert(line) line.encode('utf-8')return lineif__name__ == '__main__':run()简体繁体转换。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

PDF文件如何将繁体转为简体
在PDF文件中选取、复制到Word文件中出现乱码，我认为是由于Acrobat Reader 所带的OCR软件未能很好地认别繁体字（但我也不知道在Acrobat Reader中如何设置）所致。

解决问题的步骤是：
1、先将PDF文件另存为.JPEG文件（会自动每页生成一个JPEG文件），或者将需要拷贝
的文本内容部分用截图方法另存为图片文件。

2、下载并安装汉五OCR6.0软件，在文件\系统设置成“简繁混合”（这点很重要，以保证
识别质量），再打开要识别的图象文件，使用OCR识别。

3、识别后，对文本中红色字符进行校对，完成全文校对后，输出到指定文件，生成.txt文
件。

4、将.txt文件中内容复制到word文档中，选取要转换的文件内容，“工具”--语言--中文简
繁转换，选繁体转简体，确定即可。