pentaho介绍

pentaho介绍
pentaho介绍

一、Pentaho 整体架构

cc

二、Client tools

1. Report Designer

报表创建工具。如果想创建复杂数据驱动的报表,这是合适工具。

2. Design Studio

这是基于eclipse的工具,你可以使用它来创建手工编辑的报表或分析视图xaction 文件,一般用来对在report designer中无法增加修改的报表进行修改。

3. Aggregation Designer

帮助改善Mondrian cube 性能的图形化工具。

4. Metadata Editor

用来添加定制的元数据层到已经存在的数据源。一般不需要,但是它对应业务用户在创建报表时解析数据库比较容易。

5. Pentaho Data Integration

这是kettle etl工具。

6. Schema Workbench

帮助你创建rolap的图形化工具。这是为分析准备数据的必须步骤。

三、Pentaho BI suit community editon安装

硬件要求:

RAM:At least 2GB

Hard drive space:At least 1GB

Processor:Dual-core AMD64 or EM64T

软件要求:

需要JRE 1.5版本,1.4版本已经不再支持。

修改默认的端口8080,打开\biserver-ce\tomcat\conf目录下的server.xml文件,修改base-urlhttp://localhost:8080/pe ntaho中的端口号。否则administration-console中不能连接到bi server。

四、配置数据库连接

如果要是pentaho bi server能连接到关系数据库,需要将相应数据库driver的jar包拷贝到server/biserver-ce/tomcat/common/lib目录。

为了能在administration console中创建数据库连接并测试,需要将相应的数据库driver 的jar包拷贝到server/administration console/jdbc目录。下面是具体关系数据库连接设置说明。

1、连接oracle数据库。

需要将oracle的driver类class12.jar包拷贝到/Pentaho/server/enterprise-console-server/jdbc/或/biserver-ee/server/enterprise-console-server/jdbc/

/Pentaho/server/bi-server/tomcat/common/lib/或/biserver-ee/server/bi-server/tomcat/common/lib/目录。

执行\Pentaho\Server\administration-console目录下的start-pac.bat启动admin console或bi server。

在Adminstrator console中配置数据库连接:

在iE中输入http://localhost:8099/后进入管理界面,点左边的administrator,在右边窗口中点database connection进入下面的界面。

在name中输入要创建的数据库连接的名称,在driver class中选择要使用的driver类,user name中输入访问数据库的用户、password中输入相应的密码,在url中输入访问数据库的连接信息:jdbc:oracle:thin:@xzq:1521:oradata。在@之前的是固定信息,@之后分别是服务器名称或IP:端口号:数据库服务名。

2、连接MS Sql server数据库

在iE中输入http://localhost:8099/后进入管理界面,点左边的administrator,在右边窗口中点database connection进入下面的界面。

在name中输入要创建的数据库连接的名称,在driver class中选择要使用的driver类,user name中输入访问数据库的用户、password中输入相应的密码,在url中输入访问数据库的连接信息:jdbc:Microsoft:sqlserver://localhost:41433;DatabaseName=GOSLDW。//前的字符是固定的,//后是数据库服务器名或ip地址:端口号;DatabaseName=数据库名。

五、Report Designer创建报表

5.1. 创建步骤

第一步:定义数据源,创建dataset

第二步:定义report layout,report layout有一组band构成,包括reportheader、report footer、group header、group footer以及detail构成。

第三步:部署报表到BI server.

5.2. 创建report title

在左边的工具栏上拖一个label报表元素到reportheader band中,双击label报表元素输入你想要的report title,如图5-2。你可以在右边的属性窗口中对该title进行属性定义,包括字体大小、颜色、样式等。

图5-2 创建report title

5.3. 创建column header

在report title下加几个label报表元素,构成你需要的columnheader,如图5.3所示。

图5-3 创建column header

5.4. 创建report detail

报表的Detail本身将产生报表的明细记录,这些记录有dataset提供,因此需要将dataset 中的字段拖入report detail band即可,如图5-4。

图5-4 产生reportdetail

5.5. 创建report summary

在report footer band加上汇总元素的描述标签和相应的汇总计算字段,如图5-5所示。

这里的关键是需要生产汇总计算字段,图中生成了两个library count 和total library size,要产生这两个汇总字段,需要在右边data页的function中增加function字段,分别利用了count(running)和summary(running)函数

5.6. 画布大小设置

点击菜单file->pagesetup,出现图5.6所示的界面,在该界面中可以设置画布的大小

图5.6

5.7. 创建图表

所有图表都有一个showlabel属性,默认是hidelabel,在这种情况下,图表上不会显示相应的值,图表上能显示的值一般有三种情况,分别是0、1、2(对pie chart有3),分别表示系列的描述、category描述、项值,如果需要组合显示,可以采用{0},{2}这样的格式来表示。

5.7.1. Bar chart

Bar chart对比较不同类别数据的大小是有用的。

在左边的工具按钮中拖入chart图标到report header,如图5.7.1

图5.7.1

双击该图出现图5.7.2所示的属性窗口

图5.7.2 bar chart属性设置

在左边窗口中设置相关的显示属性,在右边窗口中指定显示的数据字段。这样就完成了图形报表的创建。

技巧:

Pentaho中的数据集是同报表绑定的,如果想在同一报表中显示多张chart报表,需要利用sub report,在不同的sub report中分别创建报表完成。

5.7.2. 区域图(Area chart)

区域图用于比较两个或多个数据集间的差异是有用的。

5.7.3. 线性图(line chart)

线性图对分析发展趋势是有用的。

注意,堆积和堆积百分比(stackand stack percent)不能用于linechart。

5.7.4. 饼图(pie chart)

饼图一般用来分析不同category占总值的占比分析。

饼图有一个labelformat属性,该属性值有以下几种:

{0}:series name,

{1}::series raw value

{2}:percentage value

{3}:total raw value

5.7.5. 环形图(ring chart)

环形图类似于饼图,除了它呈现为环形,而饼图是实体填充外,没有什么差异。

5.7.

6. 多饼图(muti pie chart)

根据category呈现一组饼图,每一个category对应一个饼图。

5.7.7. 瀑布图(warterfall chart)

瀑布图呈现了唯一一个跨category的stacked bar chart。这种图形对于一个category同另一个category进行比较时是有用的。通常最后一个category等于所有别的category的总和。5.7.8. 条形和线形组合图(bar line chart)

在比较category值的同时查看趋势。这是一个需要两个category 数据集的图形,第一个产生bar chart,第二个产生line chart。

5.7.9. 冒泡图(bubble chart)

冒泡图允许你查看三维数据,前两维是传统的X/Y维,也就是域和范围(domainand range)。第三维代表单个气泡的大小。

六、将pentaho的资料库迁移到oracle数据库

默认情况下是使用HSQLDB数据库作为pentaho的资料库。

迁移步骤:

1、将oracle JDBC驱动class12.jar拷贝到..\tomcat\webapps\pentaho\WEB-INF\lib 或..\tomcat\common\lib目录,供pentaho BI服务器访问oracle 数据库使用。另外也需要将oracle JDBC驱动拷贝到administration-console\jdbc目录,否则用户不能正常使用pentaho管理控制台。

2、初始化Oracle 10g数据库。依次执行下面的sql包,在执行sql包前先创建两个用户,quartz/password,用于存储quartz相关信息,另一个用户hibuser/password用户存储pentaho bi服务本身资料库。Sql包说明:

l Create_repository_Ora.sql,用于创建pentaho_tablespace表空间、新增hibuser/password 用户,以及datasource 表。

l Create_sample_datasource_Ora.sql,往datasource表中增加外部业务资料库连接信息。

l Create_quartz_ora.sql,创建pentaho_user/password用户,quartz数据库、quartz表等。

3、修改contex.xml中配置数据库连接的信息。这个文件位于\biserver-ce\tomcat\webapps\pentaho\META-INF位置。修改该文件中的数据库连接相关信息。

4、打开biserver-ce\pentaho-solutions\system\hibernate中的hibernate-settings.xml配置文件,并启用oracle10g.hibernate.cfg.xml配置文件,配置示例如下。

system/hibernate/oracle10.cfg.xml

5、调整oracle10g.hibernate.cfg.xml文件,主要是连接数据库的相关信息。

6、修改applicationContext-spring-security-hibernate.properties配置文件,它位于biserver-ce\pentaho-solutions\system。下面是配置示例。

Jdbc.driver=oracle.jdbc.driver.OracleDriver

Jdbc.url=jdbc:oracle:thin@localhost:1521:ORCL

https://www.360docs.net/doc/0514823301.html,ername=hibuser

Jdbc.password=password

Hibernate.dialect=org.hibernate.dialect.Oracle10Dialect

7、修改quartz.properties,位于biserver-ce\pentaho-solutions\system\quartz目录。当使用oracle存储quartz的各种信息时,需要启动如下实现类,即默认的org.quartz.impl.jdbcjobstore.StdJDBCDelegate被替换成OracleDelegate。

Org.quartz.impl.jobstore.driverDelegateClass=org.quartz.impl.jdbcstore.oracle.OracleDelegate 8、可选地,用户需要修改start_hypersonic.bat中的相关信息。

七、设置publication口令

Pentaho设置工具用来定义BI 内容,如report 、olap cube和metadata。在这些工具中创建的内容文件要部署到BI server上,可以通过手工拷贝这些内容文件到pentaho相应的solution 文件夹下来完成部署,但典型的方式还是通过publication来完成部署。

为了能完成publication,需要设置相应的口令,默认情况下是没有设置口令的。为了设置这个口令,需要在pentaho-solution/system目录下的publisher_config.xml文件中添加

password

这个例子中将password设置为”password”。

八、Pentaho Data integration

Pentaho DI包含的主要工具和实用程序:

Spoon –图形化的DI IDE,用于创建Transformation和job

Kitchen –运行job的命令行工具

Pan –运行transformation的命令行工具

Carte –在远程主机上运行transformation和job的轻量级服务器。默认的登录用户是cluster/cluster.可以使用Encr –carte 修改口令。Carte将登录用户信息存储在/data-integration/pwd目录下的kettle.pwd文件中。

Encr—这个用来加密口令,用法为Encr –kettle

下图是关于pentahoDI 各个工具和组件工作情况说明。

Dataintegration engine负责解释和执行数据集成job和transformation。Data integration engine 在物理上是以java库的形式存在,前端可以通过调用公共的api来执行job和transformation。Data integration engine也包括pentaho BI server,将job和transformation作为action sequence 的一部分来执行。

Repository。Job 和transformation可以存储在数据库知识库中,前端工具可以通过连接知识库来装载job和tranformation定义。

8.1 自动连接知识库

在user的home目录下的.kettle目录中打开kettle.properties文件,然后添加:

KETTLE_REPOSITORY = KETTLE_MD –repositoryname

KETTLE_USER = admin -- credential user name

KETTLE_PASSWORD = admin --user password

这样每次启动spoon时,可以自动登录默认的repository。

8.2使用集群

要使用集群,首先要定义相关的子服务器(slave server),然后定义cluster schema,最后将定义好的cluster schema分配给相应的Transformation step。

8.3创建数据库连接

在spoon IDE中在Transformation 树结构中右键单击“数据库连接”->新建连接或新建数据库连接向导或按快捷键F3进入“创建数据连接”窗口。

目前支持几乎所有的数据库连接。

数据库连接选项:

1) Connection name:定义转换或者任务访问的连接的唯一名称,可以自行设置;

2) Connection type:连接的数据类型;

3) Method of access:可以是Native(JDBC),ODBC,或者OCI,一般选择JDBC;

4) Server host name:指定数据库部署的主机或者服务器的名称,也可以指定IP 地

址;

5)Database name:指定连接的数据库的名称,如果是ODBC 方式就指定DSN 名称;

6)Port number:设定数据库监听的TCP/IP 端口号

7)Username/password:指定连接数据库的用户名和密码;

数据库用法:

8.4 Transformation Step

8.4.1. Text File input

这个step用来读取各种不同类型的text-file类型文件,常见的是由excel生成的cvs文件和固定宽度的flat file。

该组件提供了指定文件列表或文件目录列表的能力,支持正则表达式,还可以接收前面步骤

生成的文件。

8.4.2. 表输入(table input)

该组件用来从数据库获取信息。主要的属性有数据库连接、sql等。在sql中可以使用变量,如果使用了变量,则必须勾选上“替换sql 语句中的变量”选项,否则变量不能传入,sql 语句将报错。

“允许延迟转换”选项可以避免不必要的数据类型转换,改善数据处理性能。

8.4.3. 获取系统信息(get systeminfo)

该组件用来获取kettle环境中可用的信息。

8.4.4. 行发生器(generaterows)

产生多行,具体产生多少行可以通过设置limit(限制)来做设定。可以通过field(字段)列表来指定字段名称及类型。

8.4.5. 输入(De-serializefrom file,原名cube输入)

从二进制的kettlecube文件中读取记录行数据。

8.4.6. XBase输入

使用这一步可以读取大多数被称为XBase family派生的DBF文件。

8.4.7. Excel输入

该组件可以从一个或多个excel文件中读取数据,可以使用正则表达式来指定文件。

8.4.8. 插入或更新(insert/update)

这个组件首先使用一个或多个对照key来查询表中的一行,如果找到,则更新,如果没有找到则插入。

选项

1、步骤名称:步骤的名称,在单个转换中必须唯一。

2、连接:目标表所在的数据库连接名称。

3、Target schema:要写入数据的表的Schema 名称。允许表名中包含“.”是很重要的。

4、目标表:想插入或者更新的表的名称。

5、Commit size:提交之前要改变(插入/更新)的行数。

6、不执行任何更新:如果被选择,数据库的值永远不会被更新。仅仅可以插入。

7、用来查询的关键字:可以指定字段值或者比较符。可以用以下比较符:=,

<>,<,<=,>,LIKE,BETWEEN,ISNULL,IS NOT NULL。

8、更新字段:指定你想要插入/更新的字段

8.4.9. 更新(Update)

这个步骤类似于插入/更新步骤,除了对数据表不作插入操作之外。它仅仅执行更新操作。

8.4.10. 删除(Delete)

这个步骤类似于上一步,除了不更新操作。所有的行均被删除。

8.4.11. XML 输出(XMLoutput)

这个步骤允许你从源中写入行到一个或者多个XML 文件。

选项

8.4.12. 数据库查询(Databaselookup)

这个步骤类型允许你在数据库表中查找值。

选项

步骤名称:在单一转换中步骤名称必须唯一。

数据库连接:想要写入数据的连接。

查询表:想要查询的表名。

使用缓存:数据库查询是否使用缓存。这意味着在某种查询值的条件下,每次数据

库都能返回同样的结果。

8.4.13. 流查询(Streamlookup)

这个步骤类型允许你从其它步骤中查询信息。首先,“源步骤(lookup step)”的数据被读到内存中,

然后被用来从主要的流中查询数据。

选项

步骤名称:在单个转换中步骤名必须唯一。

源步骤:数据来源的步骤名称

查询值所需要的关键字:允许你来指定用来查询值的字段名称。值总是用“等于”

比较符来搜索。

接收的字段:你可以指定用来接收字段的名称,或者在值没有找到的情况下的缺省

值,或者你不喜欢旧的字段名称的情况下的新字段名称

Preserve Memory:排序的时候对数据行进行编码以保护内存

Key and value are exactly one integer field: 排序的时候对数据行进行编码

以保护内存

Use sorted list:是否用一个排序列表来存储值,它提供更好的内存使用。

这个步骤的使用类似于数据库查询步骤,区别在于数据库查询使用的是数据库表,而流查询是从文本文件等数据流中查询。

8.4.14. 调用数据库存储过程(Call DBProcedure)

这个步骤允许你运行一个数据库存储过程,获取返回结果。

8.4.15. 字段选择(selectvalue)

该组件对于选择、重命名或修改字段的长度和精度方面很有用。这几方面被放在了不同的category中,在组件上分别放在不同的tab中。

8.4.16. 过滤记录(Filterrows)

这个步骤允许你根据条件和比较符来过滤记录。

一旦这个步骤连接到先前的步骤中,你可以简单的单击“”,“=”和“”区域来构建条件。

选项

步骤名称:步骤的名称,在单一转换中必须唯一。技术资料,【Kette3.0用户手册】

发送“true”数据给步骤:指定条件返回true的数据将发送到此步骤。

发送“false”数据给步骤:指定条件返回false 的数据将发送到此步骤。

8.4.17. 空操作(什么也不做)(dummy(do nothing))

该组件什么也不做,只是用来做一些测试时的占位符。

8.4.18. Row DeNormalizer(行转列)

该组件做行转列。在“构成分组的字段”中指定分组字段,在“目标字段”中指定“目标字段”的名称,目标字段的值字段(从哪个字段中获取值)和“关键字值”。如下图所示的样例:

8.4.19. 列转行(Rownormaliser)

用于将列转行

例如下表的数据

转换成下表所示的数据

Row normaliser步骤的设置如下图

8.4.20. 拆分字段(split field)

基于指定的分割符信息进行字段拆分。

8.4.21. 去重(Unique Rows)

从输入流中去除重复的记录。需要确保输入流是排了序的,否则只有相邻连续的记录会去重。

8.4.22. 分组(group by)

这个组件用来根据一组分组字段进行计算。

选项

步骤名称:步骤的名称,在单一转换中必须唯一。

分组字段:指定分组的字段。

聚合:指定需要聚合的字段、方法以及新字段结果的名称

包含所有的行:如果选择这个,输出中就包含所有的行,不仅仅是聚合。

临时文件目录:临时文件存储的目录。

临时文件前缀:指定命名临时文件时的文件文件前缀。

添加行号,每一个分组重启:如果你想添加行号,就选择这个。

字段名行数:指定行号将插入的字段的名称。

8.4.23. 设置为空值(Null if)

如果某个字符串的值等于指定的值,设置那个值为空。

8.4.24. 计算器(Calculator)

这个步骤提供一个功能列表,可以在字段值上运行。

计算器的一个重要优势是,它有着几倍于常用的JavaScript 脚本的速度。

8.4.25. 行扁平化(flattener)

这个操作类似行转列(分组字段,对某一列进行行转列)

8.4.26. 值映射(value mapper)

该组件将值从一个值映射到另一个值。通常你想解决存储一个数据库中转换表的问题,不管怎么说,这是一种可选的方案:简单的将转换表作为值映射对话框的一部分。

例如将1映射为男,0映射为女等。

8.4.27. 数据库连接(DatabaseJoin)

这个步骤允许你使用先前步骤的数据,运行一个数据库查询。

能够指定查询参数:

在SQL 查询中使用“?”

在SQL 查询中使用数据网格中的字段

8.4.28. 合并记录(Merge rows)

该组件可以用来比较两个记录流。对于比较两个不同时间点的记录流是很有用的。常使用在没有包含最后更新时间的数据仓库源系统状态中。两个记录流,参照流和比较流进行合并,记录的最后更新版本数据被传给下一个组件,记录被标记为:

identical –在两个流中都发现了key,并且值是一致的。

changed—在两个流中都发现了key,但是一个或多个值不一致。

new –key在参照流(旧数据源)中没有发现

deleted –key在比较流(新数据源)中没有发现。

除了deleted状态情况,比较流的数据传到下一个组件中。

需要注意的是,两个流都需要在指定的key上排序。

8.4.29. Merge join

对两个不同的输入组件的数据集做合并关联。关联类型可以是内联、左外联、右外联和全外

联。

需要注意的是,合并join的数据记录需要在指定的key上做排序。

8.4.30. Java Script 值(JavaScript Value)

这个步骤允许你用JavaScript 语言做复杂的运算。使用的JavaScript 引擎是Rhino

1.5R5。

选项

步骤名称:步骤的名称,在单个转换中必须唯一

Java Script:步骤中的脚本。

字段:要添加到输出流中的字段。

8.4.31. Excute SQL Script

可以使用该组件执行sql 脚本。可以在整个Transformation初始化中执行一次(一般这种情况用于DDL语句)或在没输入该组件一行记录时执行一次(这种情况一般用于带参的DML语句)。

注意:如果sql语句中的脚本失败,整个Transformation的执行将挂起。

8.4.32. 维度更新/查询(dimensionlookup/update)

该组件允许你执行Ralphkimball的两类缓慢变化维:第一类(update)和第二类(insert)。使用该组件不仅可以更新维表,还可以查询维表值。

8.4.33. Oracle批量装载(Oraclebulk loader)

这个步骤允许你大批量加载数据到Oracle 数据库,它将用一个正确的装载格式,然后

用Oracle的SQL*Loader 数据加载工具加载到指定的表中。

选项

步骤名称:步骤的名称,在单个转换中必须唯一。

连接:维表所在数据库的连接。

目标schema: 要写入数据的表的schema 名称,表名中可以包含”.”。

Sqlldr path: SQL*Loader 数据加载工具的全路径。

装载方式: “自动加载”或者“手动加载”。如果是“自动加载”,步骤将在用指

定的参数收到所有的输入后运行Sqlldr 工具。如果是“手动加载”,将生成一个可

以作为后门使用的控制和数据文件。

加载动作:Append、Insert、Replace、Truncate。这些会映射到sqlddr 的动作

来执行。

错误的最大行数:发生错误的行数,这时sqlldr 将被中断。与sqlldr 的“ERROR”

属性来通信。

提交:提交的行数,与sqlldr 的“ROWS”属性通信。

绑定大小:与sqlldr 的“BINDSIZE”属性通信。

读取大小:与sqlldr 的“READSIZE”属性通信。

控制文件:sqlldr 控制文件的名称。

数据文件:数据将被写入的数据文件的名称。

日志文件:日志文件的名称,可选。

坏文件:坏文件的名称,可选。

废文件:废文件的名称,可选。

编码:数据指定的编码格式,可以从下拉列表框中选择。

直接路径:直接路径加载的开关,与sqlldr 的“DIRECT=TRUE”通信。

使用后删除cfg/dat 文件:加载后是否删除控制文件和数据文件的开关。

表字段:ORACLE 表中加载的表字段。

流字段:输入行中带来的字段。

8.4.34. 运行步骤的多个副本

右键单击每个Transformation步后都会出现一个菜单“改变开始复制的数量”,可以设置这个复制的数量,这个对于“数据库查询”组件来说,可以提高其执行的效率。但如果对于其他的组件,将使输出结果记录数翻倍,需要特别注意。另外,对于“数据库查询”组件,如果前一组件采用“数据迁移”是“复制到下一步”而不是“发送到下一步”也会造成“数据库查询”组件的输出记录翻倍。

8.4.35. 问题集

1、在“表输入”组件中,如何从上一步中获得数据替换sql语句中的参数?

2、

8.5 任务条目(Job Entries)

8.5.1 图标

8.5.2 Start

Start 是任务执行的入口,首先必须是任务可以执行。只有无条件的任务条目可以从

Start 入口连接。

8.5.3 Dummy

在一个任务中使用Dummy条目将什么也不做。这可以使一个任务更清晰的展示,或者在执行循环中使用。

8.5.4 转换

你可以用一个转换任务条目执行一个先前定义的转换。

选项

8.5.5 任务(Job)

你可以使用Job 条目来运行一个先前定义的任务。

8.5.6 Shell

你可以使用Shell 任务条目在任务运行的主机上执行一段Shell 脚本。

备注:Shell 脚本能在控制台窗口输出文本,输出将转换到Kettle 日志系统,这不会

影响Shell脚本的运行。

备注:Windows 系统,脚本被“CMD.EXE/C”(NT/XP/20000)或“https://www.360docs.net/doc/0514823301.html,/C”(95/98)。

8.5.7 Mail

你可以使用Mail 任务条目来发送e-Mail。

8.5.8 SQL

你可以使用SQL 任务条目执行SQL 脚本,多行脚本之前用“;”隔开。

8.5.9 FTP

你可以使用FTP 任务条目从FTP 服务器上获取一个或者多个文件。

8.5.10 Table Exists

你可以使用Tableexists任务条目检验数据库中是否存在某个表。

8.5.11 File Exists

你可以使用Fileexists任务条目检验在Kettle运行的服务器上中是否存在某个文件。

8.5.12 Evaluation(javascript)

你可以使用Evaluation 任务条目来计算一个布尔型的变量,这个变量可以在决定下一

个步骤是否将被执行时使用。用户可以使用以下变量:

Errors:先前的任务条目的错误数

Lines_input:从数据库或者文件读取的行数

Lines_output:从数据库或者文件读取的行数

Lines_updated:数据库表更新的行数

Lines_read:从先前转换步骤读取的行数

Lines_written:往下一个转换步骤写入的行数

Files_retrieved:从FTP 找到的文件数

Exit_status:Shell 脚本的退出状态

Nr(integer):任务条目数。每下一个条目就会自动增长

Iswindows:如果Kettle 运行在Windows 平台上就返回true

8.5.13 Create file

你可以使用Create afile任务条目创建一个空文件,这对在任务中创建“触发器”是

有用的。

8.5.14 Delete file

你可以使用Delete afile 任务条目来删除一个文件。

8.5.15 Wait for file

你可以使用Wait forfile任务条目来等待一个文件。这个任务条目将定期的检查指定

的文件是否存在,以决定流程是否继续。这个条目可以不确定的等待文件或者经过一过段时间后超时。

8.5.16 File compare

你可以使用Filecompare 任务条目来比较两个文件的内容,控制任务的流程。当两个

文件相等时,成功流出节点将继续,否则失败节点将继续。

8.5.17 Zip files

这个步骤将按照你在对话框中指定的选择创建一个标准的ZIP 归档。

选项

九、Metadata layer

元数据层的用法和范围。

元数据来自数据库以及用户定义元数据通过使用PME(pentahometadata editor)定义并存储在数据库中。

元数据能从知识库中导出成xml文件保存。元数据与在pentahoserver的pentahosolution相关,它用作基于metadata报表服务的源。

使用pentaho报表设计工具,终端用户可以使用元数据创建报表。

当运行基于pentaho元数据报表时,报表引擎解释报表,查询规范(query specifications)以MQL(Metadataquery language)的形式存储在报表中。

下图是metadata 层使用范围概览。

十、pentaho报表设计工具

10.1 报表架构

下图显示了报表架构的不同组件:

报表设计器定义报表规范

报表规范以xml的格式存放。

报表引擎根据报表规范和输出格式执行报表。

数据库连接定义能使用标准的中间件如JDBC来连接不同的数据源。在报表的最后阶段,报表查询被report engine直接执行。

Pentaho不仅包含了执行pentaho 报表的能力,而且还包含了jasper report 和BIRT报表的

类库。Pentaho报表引擎通常叫做JFreeReport,其设计器完全就是JFree Report 设计器的再造版,被称为pentaho report Designer(PRD)。

10.2 基于web的报表(web-based reporting)

Pentaho web 门户(web portal)不仅提供了查看和分析内容,而且也提供了特殊报表(ad hoc report)的能力。

使用基本web的报表工具能创建的报表只限于没有图形、交叉和图片的分组列表。这种web 工具官方名字叫Web Ad hoc query andreporting client,简称WAQR。WAQR只能使用metadata model工作,它必须首先发布到服务器。

WAQR模板存储在pentaho-solutions/system/waqr/templates目录,每个模板都存储在它自己的目录下,增加自己的模板比较容易的方法就是拷贝其中一个文件夹然后再重命名它。可以手工修改模板,关于手工修改模板可以参考

https://www.360docs.net/doc/0514823301.html,/display/ServerDoc1x/Adhoc+Reporting+Templates

10.3 Pentaho Report Designer

Pentaho report Designer是一款图形化的前端报表设计工具。它的好处之一是可以使用metadata作为数据源进行报表编辑。报表可以直接使用report designer发布到pentaho BI 平台。新的.prpt文件由pentaho server自动生成,因此不需要额外的包装就可以使PRD报表运行在门户网站上。

有两种方式创建报表:

l The New option

l The Report Wizard

报表的基本部分:

l Page header/report footer。任何放在这部分中的元素都会出现在每一页。Page behavior style属性能指定page header或page footer显示在第一页还是最后一页或都不显示。

l Report Header/Footer。任何放在这部分的内容都只会显示一次。Report header的典型用法是首页,显示所有参数或报表的简单简介或report title。Report footer用于报表的total。l Group Header/Footer。一张报表至少会有一个分组,每组会有一个header和footer来放置组标签或小计(subtotal)。分组可以嵌套,创建一个层级报表。

l Details Body。只有最里层分组包含明细体,它包含来自查询的每一行记录,detail header 和detail footer也是明细体的一部分。

l No Data。这是一种特殊的数据带,显示无查询结果时的显示信息。

l Watermark。这个主要用来设置背景。

一张PRD只能包含一个Data set,但是一张报表可以包含子报表。合并或使用子报表的的数据到主报表是不可能的。

10.3.1 创建数据库连接

有三种入口创建数据库连接:

l Data 菜单->adddata source

l Data tab->add datasources按钮

l Data Tab->右键单击Data set

10.3.2 创建SQL Query

在创建或编辑Datasource的界面中,右边有创建query的按钮,点增加query按钮可以创建SQL Query,如下图:

10.3.3 增加参数

有以下两种途径进入增加参数窗口:

9、Data菜单->add parameter

10、右边Data Tab->右键parameters-> add parameter

增加参数窗口

Name中输入参数名

Label是在运行时参数前的提示标签

Value type指定参数的值类型

Data format是指定值的格式

Default value指定参数的缺省值

Mandatory如果选上,参数是必须的

Hidden指定该参数是否需要显示在页面上

Display type-指定参数显示的方式,是单选下拉框还是多选下拉框或文本输入等。

Query-指定参数的值以及显示的内容从哪个query获得,如果是文本输入,可以不指定。

增加参数后,可以在query中使用该参数,使用方式${parameterName}

十一、保护pentaho管理控制台

1、管理员账号设置

管理员账号信息存储在/resource/config目录下的login.properties文件中,其格式如下:admin:OBF:1cb01j1s1kmy1jnb1wn31jk71kjo1iz21caa,server-administrator,content-administrator, admin

其中admin是用户名,OBF是其相应的密码。可以使用下面的命令来重新设置账号及其相应的密码。

java -cp lib/jetty-6.1.2.jar;lib/jetty-util-6.1.9.jarorg.mortbay.jetty.security.Password admin Admin1234

执行该命令需要进入administration-console目录。执行后将生成的OBF拷贝入login.properties 中覆盖现有的值即可。

2、使用ssl协议

为了启用https,只需要修改resource/config目录下console.properties文件中的console.ssl.enabled=false设置为true。

十二、Pentaho PSW(pentaho schema worbench)

12.1安装PSW

下载相关软件,解压即可。

在解压后,需要把连接数据库相关驱动程序的Jar包文件拷贝到drivers目录中。

12.2启动psw

在windows环境下,直接运行workbench.bat启动PSW。在unix环境下,执行workbench.sh 脚本启动PSW。

在开始设计之前,需要设置连接数据库的相关信息,点Tool->Connection菜单,在弹出的窗口如下图,填入相关的信息。

Driver Class Name –连接数据库的JDBC驱动类名。相应的jar包应该拷贝到drivers目录中。Connection URL –连接数据库服务的连接字符串。

Username and password –连接数据库的用户名和密码。

12.3 cube设计

创建schema

创建cube,指定fact table

创建维度,指定维度的hierachy,level级相应的dimension table。

指定相应的指标字段。

12.4 Publishcube到BI Server

需要保证pentaho BIServer是可用的,即BI Server是启动了的。

打开要publish 到BI Server的cube所在schema,点file->publish菜单,在弹出框中输入BI server的地址,publish 的password(这个在\server\biserver-ce\pentaho-solutions\system目录下的publisher_config.xml文件中)和授信用户及其密码,如下图所示。

十三、Mondrian

13.1 Mondrian 架构

Mondrian系统包括四层:展现层(presentationlayer)、维度层(dimensionallayer)、聚合层(starlayer)和存储层(storagelayer),其架构如图13-1所示。

第一层:展现层,根据用户的不同应用有不同的展现方式,包括pivot tables,pie,line,chart等,也可以通过swing或jsp展现,可以展现成图片或动画。

第二层:维度层,这层主要解析、验证、和执行MDX查询。从效率考虑,维度层批量发单元请求(cell-requests)给聚合层。

第三层:聚合层。这层负责维护聚合缓冲。一个聚合是内存中的由一组维度值确定的指标集。聚合层向存储层发请求。

第四层:存储层。这是一个关系数据库层,负责提供聚合的单元数据和维表数据。

13.2 设计Mondrian Schema

Mondrian Schema定义了一个多维数据库,它包含逻辑数据模型(包含cube、hierachies、成员)和该模型对物理模型的映射。

逻辑模型包含用来写MDX查询的结构:cube、hierachies、level、member。

物理模型是通过逻辑模型呈现的数据源。典型的是星形模型,一组关系数据库表。Mondrian Schema文件以xml文件的方式存放。

十四、Pentaho Analysis Services

用户使用pentahoanalysis services(PAS)的事件流程如下图所示。

1、终端用户通过http请求浏览、钻取到olappivot 表。

2、Jpivot servlet接收请求并转变为mdx查询,查询发给mondrian rolap engine

3、Mondrian解释MDX为sql.这部分技术称为ROLAP

4、关系数据库执行这种由Mondrian解释的sql查询。Mondrian接收执行结果

5、Mondrian接收执行的结果并转换为多位结果集

6、JPivot使用多位结果集并转换为html页面显示数据。

14.1 JPivot使用

在BI server中打开新的Analysis view,进入JPivot界面。如下图所示。

下图是JPivot的主要工具按钮:

1、可以通过使用钻取的三个按钮指定钻取的方式。通过图形显示来显示图形报表,通过图形设置来设置要显示的图形报表类型及其相关的属性设置。

2、通过MDX语句编辑框编辑MDX来生成报表

3、通过OLAP Navigator来设置报表,包括行列维度设置,filter(slice)设置。

Kettle开源ETL平台_安装配置及使用说明v1.1

KETTLE 开源ETL软件】【安装配置与使用说明】 2015 年09 月

修订记录

目录 修订记录 (2) 1.安装与配置 (4) 1.1ETL 与K ETTLE概述 (4) 1.2K ETTLE的下载与安装 (7) 1.2.1Windows下安装配置 ............................................ Kettle 8 1.2.2Linux 下安装配置.................................................. Kettle 10 1.2.3Kettle 下安装..................................................... JDBC数据库驱动15 1.2.4下配置资源库连接 (15) 1.2.5Kettle 下 Hadoop Plugin 插件配置 (17) 2.KETTLE组件介绍与使用 (19) 2.1K ETTLE SPOON使用 (19) 2.1.1组件树介绍 (20) 2.1.2使用示例.......................................................... 1 23 2.1.3使用示例.......................................................... 2 37 2.1.4使用Kettle 装载数据到..................................... HDFS 48 2.1.5使用Kettle 装载数据到 (iv) 52 2.1.6使用 Kettle 进行 hadoop的 mapreduce图形化开发 (52) 2.2K ETTLE PAN的使用 (63) 2.3K ETTLE KITECHEN的使用 (64) 2.4C ARTE添加新的ETL执行引擎 (65) 2.5E NCR加密工具 (68)

会计报表编制说明包括什么内容

会计报表编制说明包括什么内容会计报表编制说明包括什么内容 (一)资产负债表编制说明 1.本表反映小企业一定日期全部资产、负债和所有者权益的情况。 2.本表“年初数”栏内各项数字,应根据上年末资产负债表“期末数”栏内所列数字填列。如果本年度资产负债表规定的各个项目 的名称和内容同上年度不相一致,应对上年年末资产负债表各项目 的名称和数字按照本年度的规定进行调整,填入本表“年初数”栏内。 3.本表“期末数”各项目的内容和填列方法: (2)“短期投资”项目,反映小企业购入的各种能随时变现、并 准备随时变现的、持有时间不超过1年(含1年)的股票、债券等, 减去已计提跌价准备后的净额。本项目应根据“短期投资”科目的 期末余额,减去“短期投资跌价准备”科目的期末余额后的金额填列。 (3)“应收票据”项目,反映小企业收到的未到期收款也未向银 行贴现的应收票据,包括商业承兑汇票和银行承兑汇票。本项目应 根据“应收票据”科目的期末余额填列。已向银行贴现和已背书转 让的应收票据不包括在本项目内,其中已贴现的商业承兑汇票应在 会计报表附注中单独披露。 (4)“应收股息”项目,反映小企业因进行股权投资和债权投资 应收取的现金股利和利息,应收其他单位的利润,也包括在本项目内。本项目应根据“应收股息”科目的期末余额填列。 (5)“应收账款”项目,反映小企业因销售商品、产品和提供劳 务等而应向购买单位收取的各种款项,减去已计提的坏账准备后的

净额。本项目应根据“应收账款”科目所属各明细科目的期末借方 余额合计,减去“坏账准备”科目中有关应收账款计提的坏账准备 期末余额后的金额填列。如“应收账款”科目所属明细科目期末有 贷方余额,应在本表中增设“预收账款”项目填列。 (6)“其他应收款”项目,反映小企业对其他单位和个人的应收 和暂付的款项,减去已计提的坏账准备后的净额。本项目应根据 “其他应收款”科目的期末余额,减去“坏账准备”科目中有关其 他应收款计提的坏账准备期末余额后的金额填列。 (7)“存货”项目,反映小企业期末在库、在途和在加工中的各 项存货的可变现净值,包括各种材料、商品、在产品、半成品、包 装物、低值易耗品、委托代销商品等。本项目应根据“在途物资”、“材料”、“低值易耗品”、“库存商品”、“委托加工物资”、“委托代销商品”、“生产成本”等科目的期末余额合计,减去 “存货跌价准备”科目期末余额后的金额填列。材料采用计划成本 核算,以及库存商品采用计划成本或售价核算的企业,应按加或减 材料成本差异、商品进销差价后的金额填列。 (8)“待摊费用”项目,反映小企业已经支出但应由以后各期分 期摊销的费用。摊销期限在1年以上(不含1年)的其他待摊费用, 应在本表“长期待摊费用”项目反映,不包括在本项目内。本项目 应根据“待摊费用”科目的期末余额填列。“长期待摊费用”科目 中将于1年内到期的部分,也在本项目内反映。 (9)“其他流动资产”项目,反映小企业除以上流动资产项目外 的其他流动资产,本项目应根据有关科目的期末余额填列。 (10)“长期股权投资”项目,反映小企业不准备在1年内(含1年)变现的各种股权性质投资的账面余额。本项目应根据“长期股权 投资”科目的期末余额填列。 (11)“长期债权投资”项目,反映小企业不准备在1年内(含1年)变现的各种债权性质投资的账面余额。长期债权投资中,将于1 年内到期的长期债权投资,应在流动资产类下“1年内到期的长期

pentaho-kettle-6.1.0.1-R 源码搭建ecplise工程

pentaho-kettle-6.1.0.1-R 源码搭建ecplise工程 Pentaho Data Integration(Kettle) 插件开发调试环境搭建(上) 本文转自:https://www.360docs.net/doc/0514823301.html,/thread-576-1-1.html1. 下载源码https://https://www.360docs.net/doc/0514823301.html,/pentaho/pentaho-kettle/ https://https://www.360docs.net/doc/0514823301.html,/pentaho/pentaho-kettle/releases2. 下载kettle发行版本 https://www.360docs.net/doc/0514823301.html,/projects/data-integration/ (主要是为了获取依赖的jar包)以上两者版本请尽量保持一致。源码的readme文件中描述了源码编译方法,你可以照着步骤作,此方法需要联网下载所有的依赖包,一般非常慢,多数情况会出错。本文所述方法不需要联网下载依赖包,因为几乎所有需要下载的jar包已经在发行版中了。3. 将源码拷贝到eclipse的当前workspace目录下(如 /path/to/eclipse/workspace/pentaho-kettle-master)4. 在当前workspace中新建工程,名称与刚拷贝的目录名称相同(如pentaho-kettle-master)此时eclipse会自动引入编译时代码目录,暂时不理会编译错误。5. 在工程目录下新建libs目录(名称可自己自定义),此目录用于存放源码编译依赖的jar包,来源如下:1) 将kettle发行版本中lib

目录下所有jar包复制到新建的libs目录下2) 将kettle发行版本中libswt目录下相应平台的swt.jar复制到新建的libs目录下(请注意jvm版本,如果系统是win64,但jvm是32,则要选择win32下的swt.jar文件)3) 将kettle发行版本中plugins目录下所有插件目录中lib目录下的jar文件复制到新建的libs目录下4) 如要消除import中mockito相关错误,需要下载mockito-all,并复制到新建的libs目录下,参考下载地址 https://www.360docs.net/doc/0514823301.html,/maven2/org/mockito/mockito-all/1. 9.5/mockito-all-1.9.5.jar6. 在工程属性中java build path部分,libraries标签页下点击add library,选择JUnit并确定。然后点击add jars,选择libs目录下所有的jar文件(如果未显示libs目录,试试刷新工程再操作),此时基本上编译没 问题了。7. 源码中单元测试部分可能有冲突的类名,此时在工程属性中java build path部分,source标签页下,排除相应的文件即可。8. 修改工程目录(源码目录)中的https://www.360docs.net/doc/0514823301.html,unch文件,重命名为<工程名>.launch,如https://www.360docs.net/doc/0514823301.html,unch,然后修改内容,将所有 "@@@"替换为工程名,如pentaho-kettle-master9. 在eclipse中刷新工程,右键点击https://www.360docs.net/doc/0514823301.html,unch,选择run as 工程名,如果工程编译无错误,此时应该可以启动spoon。10. 在eclipse 工具栏中debug,run中已经有

财务报表附注内容提要(1)

附件3 财务报表附注内容提要 附注是对在资产负债表、利润表、现金流量表和所有者权益变动表等报表中列示项目的文字描述或明细资料,以及未能在这些报表中列示项目的说明等,企业应当按照规定披露附注信息,主要包括下列内容: 一、企业的基本情况 (一)企业注册地、组织形式和总部地址。 (二)企业的业务性质和主要经营活动。如企业所处的行业、所提供的主要产品或服务、客户的性质、销售策略、监管环境的性质等。 (三)母公司以及集团总部的名称。 (四)财务报告的批准报出者和财务报告批准报出日,或者以签字人及其签字日期为准。 (五)营业期限有限的企业,还应当披露有关其营业期限的信息。 二、财务报表的编制基础 三、遵循企业会计准则的声明 企业应当声明编制的财务报表符合企业会计准则的要求,真实、完整地反映了企业的财务状况、经营成果和现金流量等有关信息。 四、重要会计政策和会计估计 企业应当披露采用的重要会计政策和会计估计,并结合企业的具体实际披露其重要会计政策的确定依据和财务报表项目的计量基础,及其会计估计所采用的关键假设和不确定因素。 (一)会计期间 企业设立不足一个会计年度的,应说明其财务报表实际编制期间;子公司如采用的会计期间与我国会计制度规定不一致的,需说明是否进行调整。 (二)记账本位币 若记账本位币为人民币以外的其他货币的,说明选定记账本位币的考虑因素及折算成人民币时的折算方法。 (三)记账基础和计价原则

如果子公司的计价原则与母公司不一致的,需单独披露。 (四)企业合并 说明企业合并的处理方法,即企业合并的分类、合并日的会计处理以及合并财务报表的编制方法,并且披露非同一控制下企业合并中商誉/负商誉的确定方法。若发生非同一控制下的购买、出售股权而增加或减少子公司的,说明购买日或出售日的确定方法。说明合并日相关交易公允价值的确定方法。 (五)合并财务报表的编制方法 说明合并财务报表的编制方法,即合并范围的确定原则、合并报表编制的原则、程序及方法。 (六)现金及现金等价物的确定标准 (七)外币业务和外币报表折算 说明发生外币交易时折算汇率的确定、在资产负债表日外币项目采用的折算方法、汇兑损益的处理方法、外币报表折算的会计处理方法。 (八)金融工具 说明金融工具的分类、确认依据(包括指定标准)和计量方法;金融资产减值测试方法、减值准备计提方法及核销原则;金融资产和金融负债的利得和损失的计量基础;金融资产和金融负债终止确认条件等。 (九)套期工具 说明套期工具的会计处理方法。 (十)应收款项 说明单项金额重大并单项计提减值准备的应收款项,应披露金额重大的判断依据或金额标准;对按组合计提减值准备的应收款项,应披露确定组合的依据、按组合计提减值准备采用的计提方法;对单项金额虽不重大但单项计提减值准备的应收款项,应披露单项计提的理由、计提方法等。 (十一)存货 说明存货的分类、取得和发出的计价方法,存货的盘存制度以及周转材料(包括低值易耗品和包装物等)的摊销方法,存货跌价准备的确认标准和计提方法、可变现净值的确定依据。 (十二)长期股权投资

pentaho介绍

一、Pentaho 整体架构 cc 二、Client tools 1. Report Designer 报表创建工具。如果想创建复杂数据驱动的报表,这是合适工具。 2. Design Studio 这是基于eclipse的工具,你可以使用它来创建手工编辑的报表或分析视图xaction 文件,一般用来对在report designer中无法增加修改的报表进行修改。 3. Aggregation Designer 帮助改善Mondrian cube 性能的图形化工具。 4. Metadata Editor 用来添加定制的元数据层到已经存在的数据源。一般不需要,但是它对应业务用户在创建报表时解析数据库比较容易。 5. Pentaho Data Integration 这是kettle etl工具。 6. Schema Workbench 帮助你创建rolap的图形化工具。这是为分析准备数据的必须步骤。 三、Pentaho BI suit community editon安装 硬件要求: RAM:At least 2GB Hard drive space:At least 1GB Processor:Dual-core AMD64 or EM64T 软件要求: 需要JRE 1.5版本,1.4版本已经不再支持。 修改默认的端口8080,打开\biserver-ce\tomcat\conf目录下的server.xml文件,修改base-urlhttp://localhost:8080/pe ntaho中的端口号。否则administration-console中不能连接到bi server。 四、配置数据库连接 如果要是pentaho bi server能连接到关系数据库,需要将相应数据库driver的jar包拷贝到server/biserver-ce/tomcat/common/lib目录。 为了能在administration console中创建数据库连接并测试,需要将相应的数据库driver 的jar包拷贝到server/administration console/jdbc目录。下面是具体关系数据库连接设置说明。 1、连接oracle数据库。

会计报表附注内容与披露说明模板.

附注容及披露说明 附注是财务报表不可或缺的组成部分,报表使用者了解企业的财务状况、经营成果和现金流量,应当全面阅读附注,附注相对于报表而言,同样具有重要性。根据本准则规定,附注应当按照一定的结构进行系统合理的排列和分类,有顺序地披露信息。 企业应当按照《企业会计准则第1号——存货》等38项具体会计准则要求在附注中至少披露下列容,但是,非重要项目除外。 企业金融工具业务重大的,应当比照商业银行附注中相关规定进行披露。 (一)企业的基本情况 1.企业注册地、组织形式和总部地址。 2.企业的业务性质和主要经营活动。 3.母公司以及集团最终母公司的名称。 4.财务报告的批准报出者和财务报告批准报出日。按照有关法律、行政法规等规定,企业所有者或其他方面有权对报出的财务报告进行修改的事实。 (二)财务报表的编制基础 1.会计年度。 2.记账本位币。 3.会计计量所运用的计量基础。 4.现金和现金等价物的构成。 (三)遵循企业会计准则的声明 企业应当明确说明编制的财务报表符合企业会计准则体系的要求,真实、公允地反映了企业的财务状况、经营成果和现金流量。 (四)重要会计政策和会计估计 企业应当披露重要的会计政策和会计估计,不具有重要性的会计政策和会计估计可以不披露。判断会计政策和会计估计是否重要,应当考虑与会计政策或会计估计相关项目的性质和金额。 企业应当披露会计政策的确定依据。例如,如何判断持有的金融资产为持有至到期的投资而不是交易性投资;对于拥有的持股不足50%的企业,如何判断企业拥有控制权并因此将

其纳入合并围;如何判断与租赁资产相关的所有风险和报酬已转移给企业;以及投资性房地产的判断标准等等。这些判断对报表中确认的项目金额具有重要影响。 企业应当披露会计估计中所采用的关键假设和不确定因素的确定依据。例如,固定资产可收回金额的计算需要根据其公允价值减去处置费用后的净额与预计未来现金流量的现值两者之间的较高者确定,在计算资产预计未来现金流量的现值时需要对未来现金流量进行预测,选择适当的折现率,并应当在附注中披露未来现金流量预测所采用的假设及其依据、所选择的折现率的合理性等等。 企业主要应当披露的重要会计政策如下: 1.存货 (1)确定发出存货成本所采用的方法。 (2)可变现净值的确定方法。 (3)存货跌价准备的计提方法。 2.投资性房地产 (1)投资性房地产的计量模式。 (2)采用公允价值模式的,投资性房地产公允价值的确定依据和方法。 3.固定资产 (1)固定资产的确认条件和计量基础。 (2)固定资产的折旧方法。 4.生物资产 (1)各类生产性生物资产的折旧方法 5.无形资产 (1)使用寿命有限的无形资产的使用寿命的估计情况。 (2)使用寿命不确定的无形资产的使用寿命不确定的判断依据。 (3)无形资产的摊销方法。 (4)企业判断无形项目支出满足资本化条件的依据。 6.资产减值 (1)资产或资产组可收回金额的确定方法。

教你怎样看懂财务报表内容

教你如何看明白财务报表01 2009-12-19 19:09 阅读106 评论0 字号:小 一.报表的形成、作用与原则 掀起你的盖头来----报表是什么 报表的雏形是一些由企业自行设计的财务记录和分类帐簿, 它们反映了报表的最初目的——为企业的业主记录和反映每天 的业务活动情况。这些财务记录随意地、偶然地、时断时续地保持着和进步着。当时的银行并不信任这些成堆的,一无标准二无质量操纵的财务记录和分类帐簿。一直到税收的出现,定期公布标准化的才提到了日程上来,随着准则的颁布和政府干预的加强,早期的财务记录和分类帐就演变成了今天广为采纳的几种差不多的报表,依照这些浓缩的信息能够有效地推断一个企业的财务状况。 现在的报表是企业的人员依照一定时期(例如月、季、年)的

记录,按照既定的格式和种类编制的系统的报告文件。随着企业经营活动的扩展,报表的使用者对信息的需求的不断增加,仅仅依靠几张报表提供的信息差不多不能满足或不能直接满足他们的需求,因此需要通过报表以外的附注和讲明提供更多的信息。 我们将这些附有详细附注和财务状况讲明书的报表称为财务报告。在实际工作中,由于需要报告的表外信息越来越多,附注的篇幅就越来越大,导致报表仅仅成为财务报告中的一小部分,但仍然是最重要、最核心的组成部分。 思念你的人是我----什么人需要阅读报表 思念报表的人、关怀报表的人成千成万,但他们关怀的目的和重心各不相同。 ——政府职能部门:统计、监管、税收 ——上级公司:打算、预算、决策 ——本企业:、检讨、调整 ——机构:评估、信贷 ——股东:财务状况、经营业绩、投资回报 ——公众(证券市场的潜在投资者):分析、预 测、投资 ——保险公司:承保、理赔

ETL及kettle介绍

目录 1. ETL知识 (3) 1.1. ETL定义 (3) 1.1.1. 定义 (3) 1.1.2. 前提 (3) 1.1.3. 原则 (3) 1.2. 模式及比较 (4) 1.3. ETL过程 (7) 1.3.1. 总流程 (7) 1.3.2. 数据抽取流程 (8) 1.3.3. 数据清洗流程 (8) 1.3.4. 数据转换流程 (10) 1.3.5. 数据加载流程 (11) 1.4. 问题分析 (12) 1.4.1. 字符集问题 (12) 1.4.2. 缓慢变化维处理 (14) 1.4.3. 增量、实时同步的处理 (14) 1.4.4. 断点续传 (15) 1.5. ETL工具 (15) 2. Kettle简介及使用 (16)

2.1. 什么Kettle? (16) 2.2. 下载及安装Kettle (17) 2.3. Kettle简单例子 (19) 2.3.1. 启动Kettle (19) 2.3.2. 创建transformation过程 (20) 2.3.3. 创建job过程 (41) 2.3.4. 命令行运行ktr和kjb (45)

1.ETL知识 1.1.ETL定义 1.1.1.定义 ●定义: 数据的抽取(Extract)、转换(Transform)、装载(Load)的过程。 ●目标: 数据优化。以最小代价(包括对日常操作的影响和对技能的要求) 将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据。 1.1. 2.前提 ●确定ETL范围 通过对目标表信息的收集,确定ETL的范围 ●选择ETL工具 考虑资金 运行的平台、对源和目标的支持程度、可编程的灵活性、对源数据变化的监测、数据处理时间的控制、管理和调度功能、对异常情况的处理 ●确定解决方案 抽取分析、变化数据的捕获、目标表的刷新策略、数据的转换及数据验证 1.1.3.原则 ●应尽量利用数据中转区对运营数据进行预处理。保证数据的安全性、集 成与加载的高效性。

会计报表附注的主要内容

会计报表附注的主要内容 会计报表附注的主要内容 新准则规定,附注应当按照以下顺序披露有关内容:企业的基本情况;会计报表的编制基础;遵循企业会计准则的声明;重要会计政策和会计估计;会计政策、会计估计变更以及差错更正的说明;重要报表项目的说明;其他需要说明的重要 事项,主要包括或有和承诺事项、资产负债表日后非调整事项、关联方关系及 其交易等,具体的披露要求须遵循相关准则的规定。 如今,有些企业的会计报表附注都会给人以千篇,一律、敷衍了事的印象,为了避免造成视觉疲劳,阅读者可以将这些套话跳过去。以下主要挑选了一些 重要的、颇具信息和技术含量的附注信息加以简评。 (1)重要会计政策的说明 作为现代会计实务的一个主要特点,针对企业经济业务的复杂化和多样化,对于某项经济业务或事项,往往有多种会计计量基础、会计处理原则和方法可 供选择,这些都是令人头疼的会计政策,企业选择不同的会计政策,对丁企业 财务状况、经营成果等的影响也会不同,会计信息的相关性也会产生差异。为 了有助于使用者理解会计报表的信息,企业有必要对一些重要的会计政策进行年。例如,企业需要披露的最要的会计政策包括会计报表项目的计量基础,是 采用历史成本计量属性,还是重置成本、可变现净值、现值、公允价值等计量 属性;会计政策的确定依据,如融资租赁的判定标准,如何界定交易性金融资产和可供出售金融资产,如何确定合并会计报表范围等;重要经济业务的会计处理方法,如存货计价是采用先进先出法,还是加权平均法、个别计价法等,固定 资产折旧是采用平均年限法、工作量法,还是采用双倍余额递减法、年数总和法,长期股权投资是采用成本法,还是权益法,等等。 (2)重要会计估计的说明

pentaho-Kettle安装及使用说明(例子)

Kettle安装及使用说明 1.什么Kettle? Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目,项目名很有意思,水壶。按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。Kettle包括三大块: Spoon——转换/工作(transform/job)设计工具(GUI方式) Kitchen——工作(job)执行器(命令行方式) Span——转换(trasform)执行器(命令行方式) Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高 效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 2.Kettle简单例子 2.1下载及安装Kettle 下载地址:https://www.360docs.net/doc/0514823301.html,/projects/pentaho/files 现在最新的版本是 3.6,为了统一版本,建议下载 3.2,即下载这个文件pdi-ce-3.2.0-stable.zip。 解压下载下来的文件,把它放在D:\下面。在D:\data-integration文件夹里,我们就可以看到Kettle的启动文件Kettle.exe或Spoon.bat。 2.2 启动Kettle 点击D:\data-integration\下面的Kettle.exe或Spoon.bat,过一会儿,就会出现Kettle的欢迎界面:

稍等几秒,就会出现Kettle的主界面: 2.3 创建transformation过程 a.配置数据环境 在做这个例子之前,我们需要先配置一下数据源,这个例子中,我们用到了三个数据库,分别是:Oracle、MySql、SQLServer,以及一个文本文件。而且都放置在不同的主机上。 Oralce:ip地址为192.168.1.103,Oracle的实例名为scgtoa,创建语句为:create table userInfo( id int primary key,

会计报表附注内容提要

会计报表附注内容提要 The pony was revised in January 2021

会计报表附注内容提要 会计报表附注是为了便于会计报表使用者理解会计报表的内容而对会计报表的编制基础、编制依据、编制原则和方法及主要项目等所作的解释。它是对会计报表的补充说明,是财务会计报告的重要组成部分。企业的年度会计报表附注至少应披露如下内容: 一、不符合会计核算前提的说明 二、重要会计政策和会计估计的说明 三、重要会计政策和会计估计变更的说明,以及重大会计差错更正的说明 (一)会计政策变更的内容和理由; (二)会计政策变更的影响数; (三)累积影响数不能合理确定的理由; (四)会计估计变更的内容和理由; (五)会计估计变更的影响数; (六)会计估计变更的影响数不能合理确定的理由; (七)重大会计差错的内容; (八)重大会计差错的更正金额。

四、或有事项的说明 (一)或有负债的类型及其影响,包括: 1.已贴现商业承兑汇票形成的或有负债; 2.未决诉讼、仲裁形成的或有负债; 3.为其他单位提供债务担保形成的或有负债; 4.其他或有负债(不包括极小可能导致经济利益流出企业的或有负债); 5.或有负债预计产生的财务影响(如无法预计,应说明理由); 6.或有负债获得补偿的可能性。 (二)如果或有资产很可能会给企业带来经济利益时,则应说明其形成的原因及其产生的财务影响。 五、资产负债表日后事项的说明 应说明股票和债券的发行、对一个企业的巨额投资、自然灾害导致的资产损失以及外汇汇率发生较大变动等非调整事项的内容,估计对财务状况、经营成果的影响;如无法做出估计,应说明其原因。 六、关联方关系及其交易的说明

Pentaho 开放源码的商业智能平台技术白皮书

Pentaho 开放源码的商业智能平台 技术白皮书 摘要 所有组织都希望在业务过程和总性能中通过改善效率和有效性来提高收入,降低成本,达到改善收益的目的。而商业智能(BI) 软件供应商声称他们有相应技术来满足这种需求。 这些软件供应商销售用于构建这些解决方案(Solution)的产品或工具,但很少关注客户 面临的真正问题。客户为了新需求,而不断去联系新的供应商,买进新的工具,聘请新的顾问。最终,公司的BI initiative 变成了众多相互独立的解决方案(Solution),为了维护和协调它们,需要使用各种昂贵的调度管理程序来整合各个方案。 在现有方案中,每为解决一个特定问题,就设计一个应用平台,这样在实际应用中,一个业务问题被分割成许多单独的任务,如报表,分析,数据挖掘,工作流等等,而没有应用负责初始化,管理,验证或调整结果,最终需要人手动的来弥补这些不足。 这个白皮书描述了Pentaho 商业智能平台:一个面向解决方案(Solution)的BI 平台,其将开放源码组件/公开标准和流程驱动引擎集成在一起。它显示了这个BI 平台如何通过将BI 和工作流/流程管理相结合,并对之进行改善,并以开放源码的形式发布平台来解决BI 问题。 问题描述 传统的商业智能(BI) 工具昂贵、复杂,并且在效率和性能方面具有很大不足,难于让 企业获得真正益处。各个软件供应商均承诺其BI 将提供整合,分析和报表等必要功能, 将数据转换成蕴涵价值的知识,使管理者得到更及时有用的决策信息。不幸的是,这种 BI 系统和报表系统几乎并没有什么太大的差别,仅仅如此是不能满足需求的。 当传送一个报表,或遇到一个特定情形时,需要触发一些特定的应对操作:重新响应决 策,并需要发现引发这些变化的原因,或启动一个特定流程。在这些案例中,信息展示, 分析和传送(BI) 是一个较大流程里的一部分。我们需要这样的流程来解决商业问题。 (译者注:作者强调业务流程是商业问题的关键。BI只是业务流程的一部分。) 为澄清: 通常一个商业问题的解决方案(Solution)是一个包含商业智能(BI) 的流程。

开源商业智能分析工具和报表工具介绍

开源商业智能分析工具和报表工具介绍

在大数据和开放数据的重要性日益增长的经济体中,为了以精确和可读的格式分析和呈现数据,企业应当采用什么工具? 此文涵盖了有助于解决此问题的一些工具,包括顶级的开源商业智能(BI)工具以及报表工具。如有其它同类优秀项目,欢迎回复补充。 01BIRT BIRT 是一个开源技术平台,用于创建可视化数据和报表。它源自开源的Eclipse 项目,于2004 年首次发布。 BIRT 由多个组件组成,主要组件包括报表设计器和BIRT 运行时。另外还提供三个额外的组件:报表引擎、报表设计器和报表阅读器。使用这些组件,可以作为独立解决方案来进行开发和发布报表。 BIRT 是用Java 编写的,根据EPL 许可证授权,最新的版本可在Windows、Linux 和Mac 上运行。

02JasperReport JasperReport 是广为流行的开源报表工具之一,在数十万个生产环境中使用,分社区和商业支持版本。JasperReport 同样由多个组件组成,包括JasperReport Library、JasperReport Studio 和JasperReport Server。ETL、OLAP 和服务器组件为JasperReport 提供了良好的企业环境,使其更容易与现有的IT 体系结构集成。 JasperReport 有优秀的文档、wiki 和一些其他资源的支持,以Java 编写,可运行在Windows、Linux 和Mac 上,根据AGPL 许可证授权。

03Pentaho Pentaho 是一个完整的商业智能套件,涵盖从报告到数据挖掘的各种用例。Pentaho BI 套件包含多个开源项目,Pentaho Reporting 就是其中之一。像其他工具一样,Pentaho Reporting 具有丰富的功能集,可以在企业组织中使用。 Pentaho BI 套件还包含Pentaho BI 服务器。这是一个J2EE 应用程序,通过基于Web 的用户界面提供运行和查看报告的基础架构。

自己总结的Kettle使用方法和成果

KETTLE使用自己总结的Kettle使用方法和成果说明 简介 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 Kettle可以在https://www.360docs.net/doc/0514823301.html,/网站下载到。 注:ETL,是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。 下载和安装 首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20.0。 下载网址:https://www.360docs.net/doc/0514823301.html,/projects/pentaho/files/Data%20Integration/然后,解压下载的软件压缩包:pdi-ce-5.2.0.0-209.zip,解压后会在当前目录下上传一个目录,名为data-integration。 由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。 ?Kettle可以在https://www.360docs.net/doc/0514823301.html,/网站下载 ? 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。运行Kettle 进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat 或Kettle.exe文件。Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令: # chmod +x spoon.sh # nohup ./spoon.sh &后台运行脚本 这样就可以打开配置Kettle脚本的UI界面。

中期财务报表的必备内容

按照上述编制中期财务报表附注的基本要求,企业在中期财务报表附注中至少应当披露以下内容: (1)中期财务报表所采用的会计政策与上年度财务报表相一致的说明。如果发生了会计政策的变更,则应当说明会计政策变更的内容、理由及其影响数;如果会计政策变更的累积影响数不能合理确定,就需要对这种无法进行追溯调整的事项充分说明其理由。 (2)会计估计变更的内容、理由及其影响数;影响数不能确定的,应当说明理由。 (3)前期差错的性质及其更正金额。无法追溯调整的,应当说明原因 (4)企业经营的季节性或者周期性特征。如空调企业三、四月份是销售发货高峰时期,但货款回收则可能集中于七、八月份。 (5)存在控制关系的关联企业发生变化的情况。关联方之间发生交易的.应当披露关联方关系的性质、交易的类型和交易要素。对于关联方交易,企业应当同时提供本中期(或者本中期末)和本年度年初至本中期末的数据,以及上年度可比本中期(或者可比期末)和可比年初至本中期末的比较数据。 (6)合并财务报表的合并范围发生变化的情况。 (7)对性质特别或者金额异常的财务报表项目的说明。 (8)证券发行、回购和偿还情况,包括债务性证券和权益性证券的发行、回购和偿还情况。 (9)向企业所有者分配利润的情况,包括已在中期内实施的利润分配和已提出或者已批准但尚未实施的利润分配情况。 (10)根据《企业会计准则第35号——分部报告》规定应当披露分部报告信息的,应当披露主要报告形式的分部收入与分部利润(亏损)。企业在披露分部收入与分部利润(亏损)信息时,应当同时提供本中期(或者本中期末)和本年度年初至本中期末的数据,以及上年度可比本中期(或者可比期末)和可比年初至本中期末的比较数据。 (11)中期资产负债表日至中期财务报告批准报出日之间发生的非调整事项; (12)上年度资产负债表日以后所发生的或有负债和或有资产的变化情况; (13)企业结构变化情况,包括企业合并,对被投资单位具有重大影响、共同控制关系或者控制关系的长期股权投资的购买或者处置,终止经营等; (14)其他重大交易或者事项,包括重大的长期资产转让及其出售情况、重大的固定资产和无形资产取得情况、重大的研究和开发支出、重大的资产减值损失情况等。

pentaho5.4部署到oralce11g-ok

下载社区版的几个文件: Pe nt a h o5.4 部署到o ra l ce 11g 解压:b i s er v er -c e 进入b i s er v er -c e 目录,运行s t ar t -pen t ah o .ba t 脚本,启动用户端服务器,访问地址:h tt p ://l o c a l h o s t:8080/pen t ah o 访问用户admin/password 访问成功表示系统环境没有问题。 F:\pen t ah o \b i s er v er -c e -5.1.0.0-752\b i s er v er -c e \d a t a \o ra c l e10g 下有O R A C L E 建库脚本,需要自己修改,这里提供已经改好的: 创建oracle 的表空间,用户等:通过oracle 的PL/SQL 执行脚本,记得执行脚本时,登录PL/SQL 需要切换登录用户。 PentahoBIServer 有两个功能性的数据库(除了案例的数据库)——theHibernatedatabaseandtheQuartz d a t aba s e . A 、TheHibernatedatabase 的功能是负责PentahoBIServer 的内容储存和运行; B 、 TheQuartzdatabase 的功能是负责PentahoBI S o l u ti o n 计划任务的调度管理; 1.执行以上脚本。 2. oracle11g 使用ojdbc6.jar ,oracle10用o j d b c 14.j ar 包,放到b i s er v er -c e \t o m c a t \li b 目录下,o ra c l e j d b c 驱动包,并要重启bi 服务器 3. 完成后,修改对应的配置文件指向新的数据库即可:

pentaho 4.5工具使用手册

Pentaho工具 使用手册 目录 BI 介绍 (2)

Pentaho产品介绍 (2) Pentaho产品线设计 (3) Pentaho BI Platform安装 (4) Pentaho Data Integration-------Kettle (8) Pentaho Report Designer (13) Saiku (24) Schema Workbench (28) 附件 (33) BI 介绍 1. BI基础介绍 挖掘技术对客户数据进行系统地储存和管理,并通过各种数据统计分析工具对客户数据进行分析,提供各种分析报告,为企业的各种经营活动提供决策信息。其中的关键点是数据管理,数据分析,支持决策。 根据要解决问题的不同,BI系统的产出一般包括以下三种: 2. BI系统的产出 2.1 固定格式报表 固定格式报表是BI最基本的一种应用,其目的是展示当前业务系统的运行状态。固定格式报表一旦建立,用户就不可以更改报表的结构,只能依据数据库的数据不断刷新报表,以便取得较新的数据。在pentaho产品线中,我们使用pentaho report designer来实现固定格式报表的需求。 2.2 OLAP分析 OLAP分析是指创建一种动态的报表展示结构,用户可以在一个IT预定义的数据集中自由选择自己感兴趣的特性和指标,运用钻取,行列转换等分析手段实现得到知识,或者验证假设的目的。在pentaho产品线中,我们使用Saiku来实现OLAP分析的需求。 2.3 数据挖掘 数据挖掘是BI的一种高级应用。数据挖掘是指从海量数据中通过数据挖掘技术得到有用的知识,并且以通俗易懂的方式表达知识,以便支持业务决策。在pentaho产品线中,我们使用weka来实现数据挖掘的需求。 Pentaho产品介绍 1. 产品介绍

Pentaho产品文档

Pentaho产品文档

1 Pentaho公司介绍 (1) 2 Pentaho产品简介 (1) 2.1 Pentaho mobile BI (1) 2.1.1实时和交互式可视化 (1) 2.1.2功能齐全的移动优化界面 (2) 2.2 Pentaho Business Analytics (2) 2.2.1 功能强大的交互可视化 (2) 2.2.2 用于商业洞察的分析面板 (3) 2.2.3 易于使用的交互式动态报表 (3) 2.2.4 流线型管理 (4) 2.2.5 完整的数据集成 (4) 2.2.6 简单的拖拽可视化设计器 (5) 2.2.7 预测性分析方案 (5) 2.3 Pentaho Big Data Analytics (6) 2.3.1 完整的大数据平台 (6) 2.3.2 交互式的分析方案、报表、可视化功能和面板 (7) 2.3.3 自适应大数据层 (8) 2.3.4 强大的数据挖掘和预测分析方案 (8) 2.4 Pentaho Data Integration (9)

2.4.1 针对拖拽式开发的简单可视化设计器 (9) 2.4.2 零编码要求的大数据集成 (10) 2.4.3 本地灵活支持所有大数据源 (10) 2.4.4 强大的管理 (12) 2.4.5 数据剖析数据质量信息 (12) 2.5 Embedding Pentaho Analytics (12) 2.5.1 提供定制化分析方案 (12) 2.5.2 Pentaho支撑程序 (13) 2.5.3 开放的架构和标准,支持广泛的扩展 (13) 2.5.4 正确的合作伙伴和商业条款 (13) 3 版本介绍 (14) 4 成功案例 (14) 5 Pentaho全球合作伙伴 (15)

ETL之kettle进行二次开发简单demo

demo,利用kettle的api,将一个数据源中的信息导入到另外一个数据源中:[java]view plain copy 1.package https://www.360docs.net/doc/0514823301.html,.saidi.job; 2. 3.import https://www.360docs.net/doc/0514823301.html,mons.io.FileUtils; 4.import org.pentaho.di.core.KettleEnvironment; 5.import org.pentaho.di.core.database.DatabaseMeta; 6.import org.pentaho.di.core.exception.KettleDatabaseException; 7.import org.pentaho.di.core.exception.KettleXMLException; 8.import org.pentaho.di.core.plugins.PluginRegistry; 9.import org.pentaho.di.core.plugins.StepPluginType; 10.import org.pentaho.di.trans.TransHopMeta; 11.import org.pentaho.di.trans.TransMeta; 12.import org.pentaho.di.trans.step.StepMeta; 13.import org.pentaho.di.trans.steps.insertupdate.InsertUpdateMeta; 14.import org.pentaho.di.trans.steps.tableinput.TableInputMeta; 15. 16.import java.io.File; 17. 18./** 19. * Created by 戴桥冰 on 2017/1/16. 20. */ 21.public class TransDemo { 22. 23.public static TransDemo transDemo; 24. 25./** 26. * 两个库中的表名 27. */ 28.public static String bjdt_tablename = "test1"; 29.public static String kettle_tablename = "test2"; 30. 31./** 32. * 数据库连接信息,适用于DatabaseMeta其中一个构造器 DatabaseMeta(String xml) 33. */ 34.public static final String[] databasesXML = { 35. 36."" + 37."" + 38."bjdt" + 39."192.168.1.122" + 40."Mysql" +

相关文档
最新文档