PDF快速提取文字,怎样提取PDF中的文字

1,怎样提取PDF中的文字PDF 2 Word v1.4PDF2Word是一款PDF文档转换工具,能够从PDF格式文档中提取文字、图形和及其它内容并放入Word格式文档中,因此你就能重复利用你的PDF文档内容,在Word中再编辑文字、排版及重整布局;此外它还是一个独立软件,不需要安装MicrosoftWord、AdobeAcrobat软件支持.其实有的,你的PDF估计是reader,转换成WORD是pdf软件自带的.你用福昕阅读器打开后,“视图”——“文本查看器” , 直接选择复制就可以了这个需要转换了,去找易捷PDF试试吧 , 效果不错的,呵呵 , 百度上面搜索易捷PDF转换就可以了~!用PDF专业版的可以看你的是什么形式的源文件,有的是可以直接编辑,有的需要用软件 。
2 , 怎样从PDF文件中提取文字用OCR就可以了.比如Office 2003中也提供了文字识别服务,结合那个Image writer可以很方便将PDF转成WORD 。Office2003实现PDF文件转Word文档经过尝试,发现可以利用 Office 2003 中的 Microsoft Office Document Imaging 组件来实现PDF转WORD文档,也就是说利用WORD来完成该任务 。方法如下: 用Adobe Reader 打开想转换的PDF文件 ,接下来 选择 “文件→打印”菜单,在打开的“打印”窗口中将 “打印机”栏中的名称设置为 “Microsoft Office Document Image Writer”,确认后将该PDF文 件输出为 MDI格式的虚拟打印文件。注: 如果没有找到“Microsoft Office Document Image Writer”项,使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“Office 工具 Microsoft DRAW转换器” 。然后,运行 “Microsoft Office Document Imaging”,并利用它来 打开 刚才保存的MDI文件,选择“工具→ 将文本发送到Word ”菜单,在弹出的窗口中选中“ 在输出时保持图片版式不变 ”,确认后系统会提示“必须在执行此操作前重新运行 OCR。这可能需要一些时间”,不管它,确认 即可 。注: 对PDF转DOC的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作 。以上仅在 word2003 中可用 , 其他版本没有Microsoft Office Document Image Writer 。回答者:Kant康德 - 高级经理 七级 11-5 19:26现在为了便于传输和阅读,很多资料都做成了pdf格式的,但随之带来的问题就是有些文档资料不便于复制资料中的某些部分 。方法总比困难多 , 下面就告诉大家如何提取pdf中的文字 。工具/原料一台可正常工作的电脑安装有adobe acrobat x pro软件方法/步骤首先运行adobe acrobat x pro软件,打开你要提取文字的pdf文档,定位到你想要提取文字的页面 , 选中,点击右键可以看到,当前页面是一张图片 , 在adobe acrobat x pro软件工具栏右侧,依次找到工具——识别文本,点击“在本文件中”,弹出识别文本的窗口 , 为了方便,我选择了当前页面,设置中内容一般不用设置,如有需要可以点击编辑,更改设置项目,点击“确定”后 , 软件会自动分析当前页面,然后自动识别其中的文本,识别完成后,仍然停留在当前页面 , 不同的是 , 当再次选择其中的文本点击右键后,就能看到熟悉的复制,也可以选择“将选定项目导出为…”,复制完成后 , 将其粘贴到文本文档中或者你需要的地方就可以了,如下图所示 , pdf中的文字就这样提取出来了 。【PDF快速提取文字,怎样提取PDF中的文字】
3,怎样提取pdf里的文字出来1、实现工具:Office 2003中自带的Microsoft Office Document Imaging 应用情景:目前国外很多软件的支持信息都使用PDF方式进行发布,如果没有Adobe Reader,无法查看其内容,如果没有相关的编辑软件又无法编辑PDF文件 。转换为DOC格式则可以实现编辑功能 。尽管有些软件也可以完成PDF转换为DOC的工作,但很多都不支持中文 , 我们利用Office 2003中的Microsoft Office Document Imaging组件来实现这一要求最为方便 。使用方法: 第一步:首先使用Adobe Reader打开待转换的PDF文件 , 接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件 。编辑提示:如果你在“名称”设置的下拉列表中没有找到“Microsoft Office Document Image Writer”项,那证明你在安装Office 2003的时候没有安装该组件,请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件 。第二步:运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行OCR 。这可能需要一些时间” , 不管它,确认即可 。编辑提示:目前,包括此工具在内的所有软件对PDF转DOC的识别率都不是特别完美 , 而且转换后会丢失原来的排版格式,所以大家在转换后还需要手工对其进行后期排版和校对工作 。2、实现工具:Solid Converter PDF 应用情景:利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF转Word文档在一定程度上的确可以实现PDF文档到Word文档的转换,但是对于很多“不规则”的PDF文档来说,利用上面的方法转换出来的Word文档中常常是乱码一片 。为了恢复PDF的原貌,推荐的这种软件可以很好地实现版式的完全保留,无需调整,而且可以调整成需要的样板形式 。使用方法: 1、下载安装文件Solid Converter PDF,点击安装 。编辑提示:安装前有个下载安装插件的过程,因此需要保证网络连接通畅 。2、运行软件,按工具栏要求选择需要转换的PDF文档,点击右下的“转换”(Convert)按扭,选择自己需要的版式,根据提示完成转换 。说白了就是不能直接提取 需要下载第三方软件 !如果你不想转,就用软件自带的选择方式提取用文字识别软件,尚书6号、汉王ocr都可以 。扫描出来把错别字一改就行了 。目前没有办法下一个可以阅读这样格式的软件就可以了,好像是 PDF READER
4 , 我要把PDF里的文字提取出来很多手打很麻烦请问有什么软件可以用 adobe acrobat 这个软件可以提取文字的1、实现工具:Office 2003中自带的Microsoft Office Document Imaging 应用情景:目前国外很多软件的支持信息都使用PDF方式进行发布,如果没有Adobe Reader,无法查看其内容,如果没有相关的编辑软件又无法编辑PDF文件 。转换为DOC格式则可以实现编辑功能 。尽管有些软件也可以完成PDF转换为DOC的工作 , 但很多都不支持中文,我们利用Office 2003中的Microsoft Office Document Imaging组件来实现这一要求最为方便 。使用方法:第一步:首先使用Adobe Reader打开待转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件 。编辑提示:如果你在“名称”设置的下拉列表中没有找到“Microsoft Office Document Image Writer”项,那证明你在安装Office 2003的时候没有安装该组件,请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件 。第二步:运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行OCR 。这可能需要一些时间”,不管它,确认即可 。编辑提示:目前,包括此工具在内的所有软件对PDF转DOC的识别率都不是特别完美,而且转换后会丢失原来的排版格式,所以大家在转换后还需要手工对其进行后期排版和校对工作 。2、实现工具:Solid Converter PDF 应用情景:利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF转Word文档在一定程度上的确e799bee5baa6e4b893e5b19e31333264643837可以实现PDF文档到Word文档的转换,但是对于很多“不规则”的PDF文档来说 , 利用上面的方法转换出来的Word文档中常常是乱码一片 。为了恢复PDF的原貌,推荐的这种软件可以很好地实现版式的完全保留,无需调整 , 而且可以调整成需要的样板形式 。使用方法:1、下载安装文件Solid Converter PDF,点击安装 。编辑提示:安装前有个下载安装插件的过程,因此需要保证网络连接通畅 。2、运行软件,按工具栏要求选择需要转换的PDF文档,点击右下的“转换”(Convert)按扭,选择自己需要的版式,根据提示完成转换 。当原始文本一旦转换成了pdf格式,pdf就不能更改了 。假如pdf文件被设置成“无法截取”或是“不能打印” , 那么要提取pdf文档里面的文本,只能是先把pdf转换成图像格式,再进行 ocr(optical character recognition)的光学文字识别才可以把里面的文字提取出来放到类似于word的文本软件里面进行更改 。不过,这么做 , 你只能提取出文字;所有文字的大?。丈?和排版都会丢失的 。你需要先用adobe acrobat软件把pdf的文件储存为图像格式,然后用ocr软件 。对文本资料进行扫描,然后对扫描图像进行分析处理 , 获取文字及版面信息的提取过程 。就好像把报纸放入扫描仪,变成一个jpg的影像图片格式,ocr可以透过光学字符识别科技把报纸上的字完全的提取出来 , 储存成一个可以让你更改文字的txt格式 。这样,你就不需要把报纸的每一个字一个一个的打出来 。节省很多的时间 。ocr的文字识别准确度可以在95%,不过这个需要看扫描原件的质量和清晰度 。现在较通用的ocr软件识别汉字的有尚书七号、汉王文本王3、清华紫光文通9 。现在较通用的ocr软件识别英语的有scansoft、textbridge、omnipage和presto 。假如pdf文档本身没有任何的权限限制,另一个方法是用adobe acrobat professional的版本把pdf格式另储存为rtf(rich text format)的格式 。rtf格式可以保留文字的大小和颜色,但是无法保留pdf的里面排版 。不过在储存的时候 , acrobat也会一并把图像存到rtf文件里面,要比上面说的ocr方法方便很多 。然后你可以用word开启rtf格式的文件 , 在储存为doc格式就可以了 。下面两款软件也可以透过ocr的方式将pdf转换成文本格式,你可以试试看: 1)汉王 pdf ocr (简体中文版) v 8.0【42.8mb】 http://download.hw99.com/hanwang/online/ocr80/hw_pdf_ocr_80.rar 2)pdf2word(pdf to word)1.6汉化版【1.36mb】 http://xiazai.zol.com.cn/down.php?softid=29304&subcatid=53&site=7b&server=7b4 【杰夫转载声明】本人在问问网站上的回答是个人在电脑硬件和软件的经验和各自厂家官方网上收集到的一些咨询 。大家都是互相帮忙,互相解决问题,我不介意你们转载我的答案,不过希望能够尊重我的劳苦,转载我的回答请注明信息来源,谢谢 。呵呵这个我空间里转载了解决这个问题的文章 。把书上的字快速弄到电脑上,我也会,哇哇 。。。作者:1074 已被分享79次 评论(0) 复制链接 在工作中,我常常在想 , 要是能把纸上有用的文字快速输入到电脑中,不用打字录入便可以大大提高工作效率该有多好呀!随着科技的发展,这个问题在不断的解决 , 例如,现在市场上的扫描仪就带有OCR软件,可以把扫描的文字转换到电脑中进行编辑 。但是,对于我们平常人来说,大多数人都是即不想多花钱购买不常用的设备 , 又不想费力气打字录入,那我就给大家提供一个我刚刚发现的方法吧!现在数码相机很普遍,也很常用,我们就从这里下手吧 。工具准备:硬件:电脑一台 数码相机软件:word2003(其它的版本我没有实验)doPDF (百度可以搜索下载 , 是一款免费的PDF制作软件)AJViewer软件(在百度可以搜索下载,是一款免费的阅读器)步骤:1、在电脑中安装 doPDF和AJViewer2、用数码相机把需要的文字拍下来(相机和照像水平就不多谈了 。照片效果越好,可以大大缩小转换文字的误差率)例如:3、在word中插入你用数码相机照的书上的文字(打开word——插入菜单——图片——来自文件——选择照片——插入)4、在word中选择文件菜单——打印——在打印机选项中选择doPDF——确定——点击“浏览”选项——选择文件保存的位置和填写文件名称——保存——确定5、按7a686964616fe59b9ee7ad9431333264643837照上面的步骤,电脑会自动打开AJViewer软件,若没有自动打开该软件 , 可以自己打开AJViewer软件,然后在AJViewer中打开刚刚转换的PDF文件 。6、选择AJViewer中的,然后在需要的文字部分拖动鼠标画出虚线 。7、点击发送到word按钮,就可以转换成word文件了 。可以编辑了 。第6、7步骤图片如下:要点提示:1、照片一定要平整,最好对比强烈 。(最最关键的部分)2、用doPDF生成PDF文件不只一种用法,你也可以选择其它更好、更便捷的方法,这里只提供我本此的实验软件 。3、如果熟练的使用我的方法,用不了一分钟就可以转出若干的文字 , 大大提高了工作效率 。4、切记:输出的文字一定要校对呀!用CDR打开工具准备:硬件:电脑一台 数码相机软件:word2003(其它的版本我没有实验)doPDF (百度可以搜索下载,是一款免费的PDF制作软件)AJViewer软件(在百度可以搜索下载,是一款免费的阅读器)步骤:1、在电脑中安装 doPDF和AJViewer2、用数码相机把需要的文字拍下来(相机和照像水平就不多谈了 。照片效果越好,可以大大缩小转换文字的误差率)3、在word中插入你用数码相机照的书上的文字(打开word——插入菜单——图片——来自文件——选择照片——插入)4、在word中选择文件菜单——打印——在打印机选项中选择doPDF——确定——点击“浏览”选项——选择文件保存的位置和填写文件名称——保存——确定5、按照上面的步骤,电脑会自动打开AJViewer软件,若没有自动打开该软件,可以自己打开AJViewer软件,然后在AJViewer中打开刚刚转换的PDF文件 。6、选择AJViewer中的[/url] , 然后在需要的文字部分拖动鼠标画出虚线 。7、点击发送到word按钮,就可以转换成word文件了 。可以编辑了e120要点提示:1、照片一定要平整,最好对比强烈 。(e131最最关键的部分)2、用doPDF生成PDF文件不只一种用法,你也可以选择其它更好、更便捷的方法 , 这里只提供我本此的实验软件 。3、如果熟练的使用我的方法,用不了一分钟就可以转出若干的文字,大大提高了工作效率 。4、切记:输出的文字一定要校对呀!

    推荐阅读