综合案例二:通过PDF文本解析分析上市公司理财公告

合集下载

公司理财案例分析报告

公司理财案例分析报告

公司理财案例分析报告摘要:通过中国远航股份有限公司的案例分析配股对于上市公司发展的意义,从而更深一层次的了解配股的利弊。

以及对当下上市公司再融资的方式和趋势进行研究。

关键词:配股、上市公司、再融资一、案例介绍——中远航运通过配股融资(一)公司简介中远航运股份有限公司成立于1999年12月 8日,是由广州远洋运输公司为主发起人,联合中国广州外轮代理公司,广州经济技术开发区广远海运服务公司、广州中远国际货运有限公司和深圳远洋运输股份有限公司设立的股份有限公司。

2002 年 4 月 3 日,中远航运向社会公开发行人民币普通股13000万股,至18 日,股票在上海证券交易所成功上市,股票代码为 600428. 截至2010 年 2月31 日,中远航运累计发行股份 1310423625股,全部为无限售条件股份。

(二)主营业务中远航运所处行业为交通运输业,主要从事特种杂货远洋运输业务,经营远东—孟加拉航区等五条主要班轮航线。

中远航运拥有的船舶类型是半潜船滚装船多用途船,杂货船等。

经营方式主要以不定期拼货或航运期租,为超长,超重超大件,不适箱以及有特殊运载,装卸要求的特种货物提供远洋和沿海的货运服务。

(三)竞争优势及战略目标目前,中远航运经营着国内规模最大,位居于世界前列的特种杂货远洋运输船队。

经过多年来的健康发展,已经形成了独特的竞争优势,树立了国内特种杂货运输业的龙头地位,并且还在不断巩固和扩大在国际专业市场的影响力。

并且公司在所经营的各条航线上均拥有较高的市场占有率,具有较强的品牌优势。

中远航运未来的发展战略目标是:“打造全球特种船运输最强综合竞争力”二、特种杂货远洋运输行业的基本情况特种杂货远洋运输是航运业随世界经济发展不断细化分工而形成的比较新的细分行业,其主要承运货物是常规常规船舶无法或难以承载的超重超大型货物。

特种杂货运输市场的船队船型结构已逐渐由单一型的特种杂货船或普通杂货船发展为包括多用途船、半潜船、重吊船、滚装船、汽车船等各类特种船型的结构,以更加适应市场发展的要求并更好地满足客户运输的需求。

理财法律案例分析(3篇)

理财法律案例分析(3篇)

第1篇一、案件背景近年来,随着我国经济的快速发展,理财市场日益繁荣,各类理财产品层出不穷。

然而,在理财市场高速发展的同时,非法集资等违法行为也屡见不鲜。

本案涉及某私募基金涉嫌非法集资一案,通过对该案的分析,旨在揭示理财法律风险,提高投资者风险意识。

二、案情简介某私募基金公司(以下简称“该公司”)成立于2015年,注册资本1000万元,主要从事股权投资、债权投资等业务。

自成立以来,该公司通过多种渠道向社会公众募集资金,承诺给予投资者高额回报。

然而,在2019年,该公司因涉嫌非法集资被公安机关立案调查。

经调查,该公司在未取得相关金融许可证的情况下,通过公开宣传、线下推广等方式,向社会公众募集资金。

在募集资金过程中,该公司承诺给予投资者年化收益率8%至12%不等的高额回报,并以虚假的投资项目、伪造的财务报表等手段欺骗投资者。

截至案发,该公司已向社会公众募集资金达5亿元,涉及投资者上千人。

三、案件分析1. 非法集资行为的认定根据《中华人民共和国刑法》第一百七十六条的规定,非法集资是指以非法占有为目的,使用诈骗方法非法集资,数额较大的行为。

本案中,该公司在未取得相关金融许可证的情况下,以高额回报为诱饵,向社会公众募集资金,其行为符合非法集资的构成要件。

2. 私募基金的法律风险私募基金作为一种非公开募集的基金,其法律风险主要表现在以下几个方面:(1)私募基金管理人资格问题。

本案中,该公司未取得相关金融许可证,其私募基金管理人资格存在问题,违反了《中华人民共和国证券投资基金法》的相关规定。

(2)私募基金募集方式问题。

本案中,该公司通过公开宣传、线下推广等方式募集资金,违反了《私募投资基金监督管理暂行办法》的规定。

(3)私募基金投资范围问题。

本案中,该公司以虚假的投资项目欺骗投资者,其投资范围存在问题,违反了《私募投资基金监督管理暂行办法》的相关规定。

3. 投资者权益保护本案中,投资者因该公司涉嫌非法集资而遭受重大损失。

上市公司财务分析报告参考案例

上市公司财务分析报告参考案例

上市公司财务分析报告参考案例上市公司财务分析报告参考案例一、**集团简介**实业(集团)股份有限公司是1992年7月经某某某省人民政府批准首家按国际惯例投资创办的,以公有制法人持股为主,产业资本、金融资本和私人资本相结合的大型集团股份有限公司。

公司由某某市铁路局等40余家大型和特大型国有企业组成,囊括了铁路、煤炭、石油、化工、钢铁、金融、机械等十六个行业。

公司股票于1996年5月16日在上海证券交易所挂牌上市;1999年公司又成功的实施了增资配股。

截止200*年6月末,总股本为3.35亿,总资产14.1亿元,净资产7.8亿元人民币。

主要从事高科技、铁路运输、基础产业等实业。

公司充分利用股份制企业的运营机制和优势,致力于发展与国家产业政策相符的高科技产业,并初步形成了"高科技、大交通"的产业格局,经营绩效逐年递增:公司围绕铁路系统积极参与并大力开发铁路售票系统、调度指挥系统、事故救援系统,以及铁路沿线地貌信息的电子化储存等软件高科技系列产品,使铁路高科技成为公司经营版图上举足轻重的前卫产业;拥有2345辆近60列自备货车大幅度提高了铁路货运的运营模式,而且使煤炭经营与铁路货运形成良性互动,从而突出了铁路运输和煤炭产、运、销一体化这一主导产业的地位;拥有10组新型具有国际现代化水平的动车组旅客列车,开拓城际间旅客高速服务,已取得显著的社会效益和良好的经济效益,成为**新的利润增长点;总投资1344万美元,全套引进国外最先进设备和技术生产三层实木复合地板,生产能力达年生产50万平方米,80%出口德国,并以防水、防火、耐磨、美观等优势得到外商的青睐;年产3000吨替代进口的药用油生产厂已进入大批量生产;金融证券、贸易等实业稳步推进,成为业主的重要补充。

公司现有10个管理部门、2个直属业务部、8个控股子公司。

二、财务指标分析(一)短期偿债能力短期偿债能力是主要是通过研究企业资产负债表中各项目的结构关系及各项目的变动情况,来确定企业财务状况是否健康。

上市公司财务报表分析与案例

上市公司财务报表分析与案例

上市公司财务报表分析与案例上市公司财务报表分析与案例随着经济的不断发展,上市公司财务报表分析成为投资者、分析师和经济学家的重要工具。

通过分析财务报表,可以了解公司的经营状况、财务状况和盈利能力,从而帮助投资者作出更明智的投资决策。

本文将通过分析上市公司的财务报表来介绍财务报表分析的方法和技巧,并提供一些实际案例。

第一部分:财务报表分析方法1.比率分析比率分析是财务报表分析中最常用的方法之一。

它通过计算和分析财务指标的比率来评估公司的财务状况和盈利能力。

常见的比率包括利润率、资产负债率、偿债能力比率等。

2.趋势分析趋势分析是通过比较不同时间点的财务数据来观察和评估公司的经营状况和财务状况的变化趋势。

通过分析数据的变化趋势,可以提供关于公司未来发展的线索。

3.现金流分析现金流分析是通过分析公司的现金流量表来评估公司的现金收入和支出,以及现金流量的变化情况。

通过分析现金流量表,可以了解公司的经营活动、投资活动和筹资活动的情况,从而判断公司的资金情况和财务稳定性。

第二部分:案例分析下面通过一个实际的案例来进行财务报表分析。

某上市公司的财务报表数据如下:年度销售收入净利润总资产负债总额2018年 1000万 200万 5000万 2500万2019年 1200万 240万 5500万 3000万2020年 1500万 300万 6000万 3500万从销售收入和净利润的数据来看,公司的业绩在过去三年间都呈现增长趋势,说明公司的经营状况良好。

但是需要注意的是,增长的速度在逐年放缓,这可能意味着公司的增长空间有限。

通过计算利润率可以进一步评估公司的盈利能力。

利润率=净利润/销售收入。

根据上述数据计算,2018年的利润率为20%,2019年为20%,2020年为20%。

可以看出,公司的利润率保持相对稳定,说明公司能够有效地控制成本和提高盈利能力。

除了利润率,我们还可以通过计算资产负债率来评估公司的财务状况。

资产负债率=负债总额/总资产。

公司理财 第11版 案例

公司理财 第11版 案例

公司理财第11版案例案例背景ABC 公司是一家中型企业,主要经营食品加工业务。

随着企业的发展壮大,资金管理变得越来越重要。

为了实现资金的最大利用和风险的最小化,ABC 公司决定进行公司理财的规划和管理。

本文将介绍 ABC 公司的第11版公司理财案例。

目标ABC 公司的公司理财目标主要包括以下几点:1.最大化利润:通过有效的资金配置和投资策略,使得公司的利润最大化。

2.风险管理:合理分散投资风险,降低资金损失的可能性。

3.稳定现金流:确保公司的现金流稳定,以应对应急情况和未来的投资需求。

现状分析ABC 公司目前的资金管理情况如下:1.资金闲置:由于未进行有效的资金配置,部分资金一直处于闲置状态,导致利润较低。

2.投资项目不同:公司进行了多个投资项目,但分散度不足,存在较大的投资风险。

3.管理流程不完善:缺乏有效的资金管理流程和决策机制,导致决策效率低下。

理财策略为了实现上述目标,ABC 公司决定采取以下公司理财策略:1.资金配置:对闲置资金进行有效配置和投资,包括短期理财产品、股票、债券等多种投资方式,以提高利润。

2.风险分散:将投资项目进行分散化布局,控制单一项目的风险,并根据市场条件和项目风险进行动态调整。

3.管理流程优化:建立完善的资金管理流程和决策机制,提高决策效率和反应速度。

具体操作ABC 公司的具体操作如下:1.资金配置:根据公司的资金需求、风险承受能力和市场状况,将一部分闲置资金投资于短期理财产品,以获取相对较高的收益。

同时,将一部分资金投资于股票和债券市场,以分散风险并获得较长期的投资回报。

2.风险分散:ABC 公司将投资项目进行细分,分别投资于不同行业、不同地区和不同规模的项目,以降低项目风险和行业风险。

同时,定期评估和调整投资组合,以应对市场波动和项目变化。

3.管理流程优化:建立公司理财委员会,由高级管理人员和财务部门共同组成,负责制定和执行公司的资金管理策略和投资决策。

通过定期会议和报告,及时调整策略和项目配置,以适应市场变化和公司需求。

关于上市公司财务分析报告案例

关于上市公司财务分析报告案例

关于上市公司财务分析报告案例一、公司背景介绍上海达志科技有限公司是一家在上交所主板上市的高科技公司,主要从事集成电路及电子产品的研发、生产和销售。

公司成立于2024年,在短短几年时间里迅速发展壮大,成为行业内的领先企业之一二、财务指标分析1.资产负债表分析根据最新财务报表,截止到2024年12月31日,公司总资产达到10亿元,较上年同期增长了20%。

其中,流动资产为6亿元,固定资产为4亿元。

总负债为6亿元,主要包括短期负债和长期负债。

总股东权益为4亿元,占总资产的40%。

资产负债表显示了公司的整体资产结构稳定,负债相对较低。

2.利润表分析根据最新财务报表,公司2024年的营业收入为4亿元,同比增长了10%。

营业成本为3亿元,毛利润为1亿元,毛利率为25%。

净利润为5000万元,同比增长了15%。

净利润率为12.5%。

公司的利润表显示了持续增长的趋势,业绩表现不俗。

3.现金流量分析根据最新财务报表,公司2024年的经营活动现金流入为5000万元,经营活动现金流出为3000万元,净现金流入为2000万元。

投资活动现金流入为5000万元,主要用于购置固定资产和投资项目。

公司的现金流量表显示了稳定的运营和投资活动。

三、财务指标对比分析1.财务指标与行业平均值对比通过与同行业公司的财务指标对比,发现公司的营业收入和净利润增速高于行业平均水平,并且净利润率也高于行业平均水平。

这表明公司在市场竞争中具有较强的盈利能力和竞争优势。

2.财务指标与历史数据对比通过与公司历史数据的对比,发现公司的营业收入和净利润呈现稳定增长的趋势。

公司的资产负债表结构也相对稳定,负债和股东权益占比相对合理。

这表明公司在经营管理上积极稳健,具有良好的风险控制能力。

四、风险分析1.行业竞争压力在集成电路和电子产品行业,竞争压力较大。

新技术的不断涌现和市场需求的波动使竞争更加激烈。

公司需要持续进行技术创新和产品升级,以保持竞争力。

2.市场需求变化市场需求的不确定性是一个风险因素。

关于上市公司财务分析报告案例

关于上市公司财务分析报告案例

关于上市公司财务分析报告案例标题:上市公司财务分析报告案例,XX公司摘要:本报告旨在对XX公司进行全面的财务分析,旨在帮助投资者了解该公司的财务状况和经营情况。

本报告将从财务报表分析、财务比率分析、盈利能力分析和成长能力分析等方面对该公司进行深入的研究和评估,提供给投资者作为决策依据。

一、引言XX公司是一家在中国境内上市的制造业公司,主要从事电子产品的研发、生产和销售。

该公司在过去几年里实现了快速发展,并取得了显著的财务业绩。

本报告将围绕该公司的财务状况进行详细的分析和评估。

二、财务报表分析1.资产负债表2.利润表3.现金流量表三、财务比率分析1.偿债能力比率-流动比率-速动比率-利息保障倍数2.偿债能力比率-资产负债比率-长期债务比率3.盈利能力分析-毛利率-净利率-资产回报率4.成长能力分析-销售收入增长率-净利润增长率四、风险分析1.市场风险2.行业风险3.公司内部风险五、投资建议根据对XX公司的财务分析和风险评估,我们对投资者提出以下建议:1.建议买入2.建议持有3.建议卖出六、结论本报告通过对XX公司财务报表的分析和财务比率的计算,综合评估了该公司的盈利能力和成长能力,并对其未来的风险进行了评估和分析。

基于这些分析和评估结果,为投资者提供了对该公司的投资建议。

在编写本报告过程中,我们参考了以下资料:1.XX公司年度财务报告2.相关行业报告3.财务分析学参考书籍以上是对上市公司财务分析报告案例的基本框架和要点。

根据实际情况,可以对各个方面进行更加详细和全面的分析和评估,并提供更具体的投资建议。

上市公司财务案例分析模板

上市公司财务案例分析模板
.
2.长期偿债能力分析 .
长期偿债能力的高低,不仅涉及投资者投资的安全,而且关系到公司扩展经营能力 的强弱。测算公司长期偿债能力的指标主要有:股东权益对负债的比率、资产负债率和利息 保障倍数。
.
股东权益对负债的比率,是股东权益与负债总额之间的比率。 其计算公式为:股 东权益对负债比率=股东权益/负债总额 €?00%。该指标用以表示每百元负债中有多少自有 资本可以抵债,即自有资本占负债的比例。比率越大,表明公司自有务负担沉重,有可能陷入财务危机之中。一般认为, 该比率应大于 50%。
.
存 货 周 转 率 反 映 了 企 业 销 售 效 率 和 存 货 使 用 效 率 。在 正 常 情 况 下 ,如 果 企 业 经 营 顺 利 , 存 货 周 转 率 越 高 ,说 明 企 业 存 货 周 转 得 越 快 ,企 业 的 销 售 能 力 越 强 。营 运 资 金 占 用 在 存货上的金额也会越少。
1. 存货周转率(inventory turnover)是衡量和评价企业购入存货、投入生产、销售 收回等各环节管理状况的综合性指标。它是销货成本被平均存货所除而得到的比率, 或 叫 存 货 的 周 转 次 数 ,用 时 间 表 示 的 存 货 周 转 率 就 是 存 货 周 转 天 数 。其 计 算 公 式 如 下 :
.
.
.
一、企业的偿债能力 .
偿债能力的强弱关乎 企业 的生死存亡,尤其是新破产法即将出台,上市公司不死的神话将 随之破灭。而公司一旦破产,对于股东而言,很可能意味着血本无归,因此, 分析 上市公 司的偿债能力显得尤为重要。偿债能力分析应从以下几个方面入手:
.
1.短期偿债能力分析 .
短期偿债能力分析主要是 计算 反映公司流动性状态的比率,研究 公司资产转变为现 金,用以偿还短期债务的能力。主要指标有流动比率和速动比率。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分析上市公司理财公告10.1 巨潮资讯网理财公告PDF批量下载实战10.2 PDF文本解析基础10.3 PDF文本解析实战-寻找合适的理财公告分析上市公司理财公告上一章最后一节讲了巨潮资讯网理财公告信息的爬取实战,其中还有些地方可以完善:•如爬取多页内容•自动筛选所需内容•比如只要2018年的数据•以及完成理财报告PDF的批量自动下载在这一小节就把这些知识点进行分析讲解。

10.1.1 爬取巨潮资讯网多页内容在巨潮资讯网上批量爬取多页没有办法用之前爬取普通网站多页的手段:修改网url进行处理,因为翻页操作的时候,网址的链接并没有发生变化。

此时解决办法为利用selenium来模拟鼠标点击下图所示的“下一页”按钮,并根据公告数量来确定模拟点击次数,每点击完就获取一下该页的网页源代码,最后把获取到的各页的源代码放到一个列表里。

10.1.1 爬取巨潮资讯网多页内容首先来完成自动模拟点击按钮的操作,这个和8.2.4节讲过的模拟点击“百度一下”那个按钮的道理是一样的,只要获取到这个“下一页”按钮的xpath内容,就可以用selenium进行模拟点击了。

方法如下:1.在网页上利用F12调出开发者工具2.然后选中翻页按钮对应的位置3.右键选择Copy4.然后选中Copy Xpath5.把Xpath内容复制到代码里即可10.1.1 爬取巨潮资讯网多页内容把Xpath内容复制到代码里以后,组合的代码如下:10.1.1 爬取巨潮资讯网多页内容把Xpath内容复制到代码里以后,组合的代码如下:注意点:运行之后发现它已经可以自动翻页跳转到第二页了,这边引入time 模块,在访问网址后写一个time.sleep(3),一是为了方便演示点击翻页的过程,二是防止浏览器页面还处于刷新阶段。

10.1.1 爬取巨潮资讯网多页内容那如果想要把所有的内容都获取下来该如何处理呢,比如这边数万条理财公告的信息。

1.我们只需要获取到所有公告的数量,这个数量在网页上的右下角有显示2.然后因为巨潮资讯网每页是显示十条内容,所以把这个数量除以十,那么就是我们需要翻页的次数了3.利用F12和观察源代码可以发现该数量的正则规律如下:10.1.1 爬取巨潮资讯网多页内容获取公告条数和一共多少页的页数的完整代码如下:10.1.1 爬取巨潮资讯网多页内容在我们从前面的代码中获得页数之后,可以进行自动翻页:下面要把datas这个列表转换成字符串,使用.join(列表名)的方式可以把列表转换成字符串。

因为只有在字符串中才能提取想要的各个页面的公告标题,下载地址,日期等信息。

加完.join(datas) 如下:10.1.1 爬取巨潮资讯网多页内容我们可以使用从第9.4章中的代码提取标题,下载地址,日期:10.1.1 爬取巨潮资讯网多页内容我们可以使用从第9.4章中的代码来清洗标题,下载地址,日期:10.1.1 爬取巨潮资讯网多页内容打印出的标题,下载地址,日期如下:10.1.2 自动筛选所需内容如说这里只想要日期为2019年和2020年的内容。

这里可以通过if()语句把不符合条件的内容都赋值为空字符串,如果符合条件的,则让它等于原来的值,这和第五章数据清洗的相关代码类似,代码如下:10.1.2 自动筛选所需内容我们利用while循环遍历这些个列表,一旦发现有某个元素是空字符串,就直接用列表.remove(元素)的办法把这些空字符串给剔除掉。

代码如下:10.1.2 自动筛选所需内容我们还可以使用类似的方法在标题中查找关键字,并删除不包含关键字的任何标题,列如下:10.1.3 理财公告PDF的自动批量下载如下图所示,对于一个刚刚获取到的PDF下载地址:/new/disclosure/detail?orgId=jjjl0000090&an nouncementId=1207206145&announcementTime=2019-12-27,我们需要做的就是让selenium模拟点击一下下图的下载按钮即可:10.1.3 理财公告PDF的自动批量下载我们使用f12方法查找xpath或ccs_selector代码:获取的xpath代码10.1.3 理财公告PDF的自动批量下载运行结果如下,可以看到已经可以实现PDF的自动下载了:10.1.3 理财公告PDF的自动批量下载那如何来实现批量下载呢,其实只要写一个for循环即可。

我们之前已经获得了一个下载链接的列表href,利用for循环遍历该列表,就能实现把列表里所有的内容都下载下来了,代码如下:批量下载实战10.1 巨潮资讯网理财公告PDF我们可以使用for函数告诉我们是否有要下载的pdf,如下所示:想要深入到PDF正文内容进行分析的话,就需要用到PDF文本解析技术。

Python中有多个可以用于解析PDF文本的库,如:•pdfplumber库•pdfminer库•tabula库•等经笔者测试pdfplumber库是目前使用最方便的库,而且pdfplumber库不仅可以解析文字,还可以方便的解析PDF文件中的表格。

10.2.1 pdfplumber库的安装这里推荐pip安装法安装pdfplumber库,和之前讲过的pip安装法一样:1.Win + R调出运行框2.输入cmd后点击确定3.然后在弹出的控制台里输入“pip install pdfplumber”4.按一下Enter回车键,等待安装结束即可注意点:如果一直安装不成功,可以使用清华镜像镜像安装,代码如下:10.2.2 pdfplumber库提取文本内容pdfplumber库的使用方法非常简单,通过pdfplumber库的extract_text()方法就可以解析PDF文件第一页的文本内容了,代码如下:10.2.2 pdfplumber库提取文本内容如果想解析每一页的内容,那么通过for循环语句即可实现,代码如下:10.2.3 pdfplumber库提取表格内容pdfplumber库还可解析文档中的表格,在演示文档“公司A理财公告.PDF”第4页有如下图所示的表格内容:10.2.3 pdfplumber库提取表格内容通过pdfplumber库的extract_tables()方法就可以提取页面中的表格,代码如下:10.2.3 pdfplumber库提取表格内容注意:通过extract_tables()返回的tables是该页的全部表格,其是一个列表。

因为第四页只有一个表格,所以可以通过tables[0]来提取第一个也即唯一的表格,运行效果如下:10.2.3 pdfplumber库提取表格内容我们可以通过第六章讲过的pandas库使得最终的展现效果更加好看一些,代码如下,其中table[0]即是表头信息,table[1:]为第二行及其以下的内容:获得的表格df如下图所示:10.2.3 pdfplumber库提取表格内容此时获得的表格存在一些换行符\n,这个是因为在原表格中这些字符之间是存在换行的,如果想把这些换行符去掉,可以采用replace()函数将换行符替换掉,代码如下:10.2.3 pdfplumber库提取表格内容此时获得的表格存在一些换行符\n,这个是因为在原表格中这些字符之间是存在换行的,如果想把这些换行符去掉,可以采用replace()函数将换行符替换掉,代码如下:10.2.3 pdfplumber库提取表格内容这里再补充一个知识点,在有的编译器中,比如PyCharm中,展示DataFrame的时候可能只展示一部分列而不展示全部列,这里可以在打印查看df前多写如下一行代码解决该问题:完整代码如下所示:10.3.1 遍历文件夹里所有的PDF文件首先我们需要遍历文件夹里所有的PDF文件然后才能进行批量的文本解析,在Python中通过如下几行代码即可实现文件夹遍历:10.3.1 遍历文件夹里所有的PDF文件各行代码解释如下:第一行引用os库,为之后使用os.walk功能遍历文件夹做准备;第二行就是写入你想要遍历的文件夹路径;第三行是遍历该母文件夹下面的所有子文件夹及子文件夹里的所有文件信息。

如果没有子文件夹,那么就只循环一遍,获取到该母文件夹下面的所有文件信息。

10.3.1 遍历文件夹里所有的PDF文件第四行是把文件信息打印输出出来。

其中files[2]表示母文件夹和子文件夹里的各个文件信息,我们一般写files[2]来获取文件信息。

如果写files[1]则表示各个子文件夹信息,如果写files[0]则表示母文件夹信息,运行结果如下:10.3.1 遍历文件夹里所有的PDF文件获取到文件名称后,我们还需要判断文件后缀名是否为.PDF,通过如下代码可以获得文件后缀名:有时文件后缀名为.pdf或.PDF,此时可以通过or逻辑运算符连接两个判断条件,代码如下:10.3.1 遍历文件夹里所有的PDF文件获取到文件名称后,我们还需要判断文件后缀名是否为.PDF,通过如下代码可以获得文件后缀名:有时文件后缀名为.pdf或.PDF,此时可以通过or逻辑运算符连接两个判断条件,代码如下:10.3.1 遍历文件夹里所有的PDF文件把这些PDF筛选出来之后,我们需要把它们都放到一个列表里,方便之后批量解析的时候调用,这里可以通过一个空列表和列表.append(新元素)的方法来完成该操作:上面获得的file_list中的元素都是文件名称,在真正实战的时候我们需要给文件名称加上文件夹路径,这样之后才可以调用。

比如说我们需要把“信托购买报告A.PDF”改成“文件夹路径\\信托购买报告A.PDF”,我们通过字符串拼接的方式来加上文件夹路径:10.3.1 遍历文件夹里所有的PDF文件组合代码如下:打印结果:10.3.2 批量解析每一个PDF文件10.3.2 批量解析每一个PDF文件完成上一小节的文件遍历之后,下面的批量解析其实只要写一个for循环即可:10.3.3 将合格的PDF文件自动归档遍历并解析完PDF后,便能够进行一些深度分析了,这边以关键词筛选为例作为演示:只有当PDF正文里含有‘自有'、'议案'、'理财'或者'现金管理'这些关键词的时候,我们才把这个PDF筛选出来并存储到一个列表里,代码如下:10.3.3 将合格的PDF文件自动归档完整代码如下(仅显示变化的部分):10.3.3 将合格的PDF文件自动归档这个是一个简单的分析策略,大家可以根据自己的逻辑来写自己的分析策略,比如可以通过自然语言处理以及机器学习来进行更深度的分析,这边不再详述。

如果想把这些筛选后的PDF文件存储到特定的文件夹,只需要补写如下代码:10.3.3 将合格的PDF文件自动归档其中第一行代码遍历刚刚筛选出来的PDF列表;第二行代码的话就是编写想要移动到的文件夹,这边有几个重要的注意点:注意点1:在写保存的文件夹的时候,这个文件夹一定要已经创建好了;注意点2:写保存的文件夹时候,不要在最后忘了多加两个反斜杠,比如'E:\\筛选后的文件夹\\'最后的两个反斜杠;注意点3:pdf_i.split(‘\\’)[-1]是为了获取到文件名称,我们以前将文件路径添加到pdf上了,通过split函数即可将它们分割开来,split分割之后产生一个列表,其中[-1]就表示列表中倒数第一个元素,也即文件名称。

相关文档
最新文档