informatica_powercenter资料库元数据查询

informatica_powercenter 资料库元数据查询

——Informatica PowerCenter培训系列

TABLE OF CONTENTS

1 Overview

2 FOLDER

2.1 List folder details

2.2 List of shared folders

2.3 List of Users and Groups having Privileges on Folders

3 SOURCE

3.1 List of source tables

3.2 List and count of tables in each folder by db type

3.3 List and count of tables overall used

3.4 List of source tables used in mappings

3.5 List of Sources tables using as Shortcuts

4 TARGET

4.1 List of Target Tables

4.2 List and count of tables in each folder by db type

4.3 List and count of table overall used

5 TRANSFORMATION

5.1 List of filer transformations

5.2 List of Sequence transformations

5.3 List of tables used as lookups

5.4 List of transformations using sql overrides

5.5 List all transformations

5.6 List all Expression transformations using ‘concat’ function 5.7 List of all port details of an Expression transformations 5.8 List of all Expression transformation port links

5.9 List of LKP transformation port links used in mappings

6 MAPPING

6.1 List mapping names

6.2 List total count of mappings

6.3 List last saved user for a mapping

6.4 List Mapping parameters and variables

6.5 List all Mappings using PARALLEL hints

7 MAPPLET

7.1 List Mapplets in all folders

7.2 List Mapplet parameters and variables

8 SESSION

8.1 List session names

8.2 List save session log count

8.3 List stop on errors count

8.4 List hardcoded paths

8.5 List parameter file paths

8.6 List session log names

8.7 List commit intervals

8.8 List total source partitions

8.9 List total target partitions

8.10 List DTM Buffer Size

8.11 List collect performance data

8.12 List Incremental Aggregation

8.13 List Reinitialize aggregate cache

8.14 List Enable high precision

8.15 List Session retry on deadlock

8.16 List write backward compatible check

8.17 List over ride tracing

8.18 List save session log by

8.19 List load type

8.20 List 'post_session_success_command' in session

8.21 List of all emails with attachment

8.22 List Invalid Sessions and Workflows

9 TASKS

9.1 List command tasks

9.2 List decision tasks

9.3 List Event Wait tasks

10 WORKLET

10.1 List worklet names

10.2 List hierarchies of all workflows and its worklets

11 WORKFLOW

11.1 List workflow names

11.2 List save workflow log count

11.3 List workflow log names

11.4 List write backward compatible check

11.5 List fail_parent_if_task_fails objects

11.6 List fail_parent_if_task_dont_run objects

11.7 List is_task_enabled objects

11.8 List treat_input_links_as objects

11.9 List all workflows whose server is not assigned

11.10 List of workflow run details

12 CONNECTIONS

12.1 List of cnxs using alter in env sql

12.2 List of cnxs used in session levels

12.3 List Lotus connection details

12.4 ODBC / SQL Server Connection details

12.5 List of sessions used by a connection

12.6 List all Connections with User and Privileges

13 REPOSITORY

13.1 Repository Info

13.2 List of objects which are Not Valid

13.3 List of objects which are failed in last 5 days

13.4 List where all a table is used

13.5 List all source and target tables of mapping

13.6 List comments of all object

14 MISLENIOUS

14.1 Query to find list of objects saved by last user

15 GROUPS & USERS

15.1 List User, Groups and status

1OVERVIEW

Below Steps are intended for informatica development team to check if their etl code is as per ETL Standards’, developer team need to have read onl y access to informatica repository tables and Views. Please suffix your respective schema names for all your table / views names in below queries.

2FOLDER

2.1LIST FOLDER DETAILS

SELECT SUBJ_NAME,SUBJ_DESC FROM OPB_SUBJECT ORDER BY1,2

2.2LIST OF SHARED FOLDERS

SELECT SUBJ_NAME,SUBJ_DESC FROM OPB_SUBJECT

WHERE IS_SHARED <>0

ORDER BY1,2

2.3LIST OF USERS AND GROUPS HAVING PRIVILEG ES’ ON FOLDERS

SELECT subj.subj_name folder_name, user_https://www.360docs.net/doc/4513776868.html, user_name,

DECODE (obj_https://www.360docs.net/doc/4513776868.html,er_type,1,'USER',2,'GROUP')TYPE,

CASE WHEN((obj_access.permissions -(obj_https://www.360docs.net/doc/4513776868.html,er_id +1))IN(8,16))THEN'READ'

WHEN((obj_access.permissions -(obj_https://www.360docs.net/doc/4513776868.html,er_id +1))IN(10,20))THEN'READ & EXECUTE' WHEN((obj_access.permissions -(obj_https://www.360docs.net/doc/4513776868.html,er_id +1))IN(12,24))THEN'READ & WRITE'

WHEN((obj_access.permissions -(obj_https://www.360docs.net/doc/4513776868.html,er_id +1))IN(14,28))THEN'READ, WRITE & EXECUTE' ELSE'NO PERMISSIONS'

END permissions

FROM opb_object_access obj_access,opb_subject subj,opb_user_group user_group

WHERE obj_access.object_type =29

AND obj_access.object_id = subj.subj_id

AND obj_https://www.360docs.net/doc/4513776868.html,er_id = user_group.ID

AND obj_https://www.360docs.net/doc/4513776868.html,er_type = user_group.TYPE

-- and user_https://www.360docs.net/doc/4513776868.html, not in ('Admin','READ_ONLY','Administrator','Administrators')

order by1,2,3

3SOURCE

3.1LIST OF SOURCE TABLES

SELECT

B.SUBJ_NAME,

C.DBDNAM,

D.DBTYPE_NAME,

A.SOURCE_NAME AS TABLE_NAME,

A.FILE_NAME SCHEMA_NAME,

A.OWNERNAME

FROM

OPB_SRC A,OPB_SUBJECT B,OPB_DBD C,OPB_MMD_DBTYPE D

WHERE A.SUBJ_ID = B.SUBJ_ID

AND A.DBDID = C.DBDID

AND C.DBTYPE = D.DBTYPE_ID

--AND A.SOURCE_NAME <> A.FILE_NAME

ORDER BY1,2,3,4,5

3.2LIST AND COUNT OF TABLES IN EACH FOLDER BY DB TYPE

SELECT

B.SUBJ_NAME,

D.DBTYPE_NAME,

count(*)

FROM

OPB_SRC A,OPB_SUBJECT B,OPB_DBD C,OPB_MMD_DBTYPE D

WHERE A.SUBJ_ID = B.SUBJ_ID

AND A.DBDID = C.DBDID

AND C.DBTYPE = D.DBTYPE_ID

--AND A.SOURCE_NAME <> A.FILE_NAME

group by B.SUBJ_NAME,D.DBTYPE_NAME

order by1,2,3

3.3LIST AND COUNT OF TABLES OVERALL USED

SELECT SOURCE_NAME, COUNT(SOURCE_NAME)FROM REP_TBL_MAPPING GROUP BY SOURCE_NAME

ORDER BY1,2ASC

3.4LIST OF SOURCE TABLES USED IN MAPPING

SELECT SUBJECT_AREA,SOURCE_NAME,MAPPING_NAME FROM REP_SRC_MAPPING ORDER BY 1,2,3

3.5LIST OF SOURCE TABLES USING AS SHORTCUTS

SELECT DISTINCT

B.SUBJ_NAME,

C.DBDNAM,

D.DBTYPE_NAME,

A.SOURCE_NAME AS TABLE_NAME,

A.FILE_NAME SCHEMA_NAME,

A.OWNERNAME

FROM

OPB_SRC A,OPB_SUBJECT B,OPB_DBD C,OPB_MMD_DBTYPE D

WHERE A.SUBJ_ID = B.SUBJ_ID

AND A.DBDID = C.DBDID

AND C.DBTYPE = D.DBTYPE_ID

--AND A.SOURCE_NAME <> A.FILE_NAME

and A.SOURCE_NAME like'sc_%'

ORDER BY1,2,3,4,5

4TARGET

4.1LIST OF TARGET TABLES

SELECT B.SUBJ_NAME,

A.TARGET_NAME,

DECODE(A.DBTYPE,

0,'VSAM',

1,'IMS',

2,'Sybase',

3,'Oracle',

4,'Informix',

5,'Microsoft SQL Server',

6,'DB2',

7,'Flat File',

8,'ODBC',

9,'SAP BW',

10,'PeopleSoft',

11,'SAP R/3',

12,'XML',

13,'MQSeries',

14,'Siebel',

15,'Teradata')as DB_TYPE

FROM

OPB_TARG A,

OPB_SUBJECT B

WHERE A.SUBJ_ID = B.SUBJ_ID

ORDER BY1,2,3

4.2LIST AND COUNT OF TABLES IN EACH FOLDER BY DB TYPE SELECT B.SUBJ_NAME,

DECODE(A.DBTYPE,

0,'VSAM',

1,'IMS',

2,'Sybase',

3,'Oracle',

4,'Informix',

5,'Microsoft SQL Server',

6,'DB2',

7,'Flat File',

8,'ODBC',

9,'SAP BW',

10,'PeopleSoft',

11,'SAP R/3',

12,'XML',

13,'MQSeries',

14,'Siebel',

15,'Teradata')as DB_TYPE,

count(*)

FROM

OPB_TARG A,

OPB_SUBJECT B

WHERE A.SUBJ_ID = B.SUBJ_ID

GROUP BY B.SUBJ_NAME,A.DBTYPE

ORDER BY1,2

4.3LIST AND COUNT OF TABLE OVERALL USED

SELECT SOURCE_NAME, COUNT(SOURCE_NAME)FROM REP_TBL_MAPPING

GROUP BY SOURCE_NAME

ORDER BY1,2ASC

5TRANSFORMATION

5.1LIST OF FILER TRANSFORMATIONS

SELECT SUBSTR(WIDGET_NAME,1,3), COUNT(WIDGET_NAME)

FROM REP_ALL_TRANSFORMS

WHERE WIDGET_TYPE_NAME ='Filter'

GROUP BY SUBSTR(WIDGET_NAME,1,3)

5.2LIST OF SEQUENCE TRANSFORMATIONS

SELECT DISTINCT SUBJECT_AREA, PARENT_WIDGET_NAME FROM REP_ALL_TRANSFORMS WHERE WIDGET_TYPE _NAME ='Sequence'ORDER BY1,2

5.3LIST OF TABLES USED AS LOOKUPS

SELECT DISTINCT

B.PARENT_SUBJECT_AREA AS FOLDER_NAME,

C.ATTR_VALUE AS TABLE_NAME,A.INSTANCE_NAME AS TRANSFORMATION_NAME, A.WIDGET_TYPE_NAME AS T RANSFORMATION_TYPE,B.MAPPING_NAME

FROM

REP_WIDGET_INST A INNER JOIN REP_ALL_MAPPINGS B ON A.MAPPING_ID = B.MAPPING_ID INNER JOIN

REP_WIDGET_ATTR C ON A.WIDGET_ID = C.WIDGET_ID

WHERE

C.ATTR_DESCRIPTION LIKE'Lookup source table'

ORDER BY1,2,3,4,5

5.4LIST OF TRANSFORMATIONS USING SQL OVERRIDES

SELECT DISTINCT

d.subject_area AS Folder, d.mapping_name, a.widget_type_name AS Transformation_Type,

a.instance_name as Transformation_Name,

b.attr_name, b.attr_value,

c.session_name

FROM

REP_WIDGET_INST a, REP_WIDGET_ATTR b, REP_LOAD_SESSIONS c, REP_ALL_MAPPINGS d

WHERE b.widget_id = a. widget_id

AND b.widget_type = a. widget_type

AND b.widget_type in(3,11)

AND c.mapping_id = a.mapping_id

AND d.mapping_id = a.mapping_id

AND b.attr_id=1

AND b.attr_datatype=2and b.attr_type=3

ORDER BY d.subject_area, d.mapping_name

5.5LIST ALL TRANSFORMATIONS

SELECT DISTINCT version_subject.subject_area "FOLDER_NAME",version_props.object_name "OBJECT_NAME" ,

CASE

WHEN version_props.object_type =1THEN'Source Definition'ELSE CASE

WHEN version_props.object_type =2THEN'Target Definition'ELSE CASE

WHEN version_props.object_type =3THEN'Source Qualifier'ELSE CASE

WHEN version_props.object_type =4THEN'Update Strategy'ELSE CASE

WHEN version_props.object_type =5THEN'Expression'ELSE CASE

WHEN version_props.object_type =6THEN'Stored Procedure'ELSE CASE

WHEN version_props.object_type =7THEN'Sequence'ELSE CASE

WHEN version_props.object_type =8THEN'External Procedure'ELSE CASE

WHEN version_props.object_type =9THEN'Aggregator'ELSE CASE

WHEN version_props.object_type =10THEN'Filter'ELSE CASE

WHEN version_props.object_type =11THEN'Lookup Procedure'ELSE CASE

WHEN version_props.object_type =12THEN'Joiner'ELSE CASE

WHEN version_props.object_type =13THEN'Procedure'ELSE CASE

WHEN version_props.object_type =14THEN'Normalizer'ELSE CASE

WHEN version_props.object_type =16THEN'Merger'ELSE CASE

WHEN version_props.object_type =17THEN'Pivot'ELSE CASE

WHEN version_props.object_type =18THEN'Session Obsolete'ELSE CASE

WHEN version_props.object_type =19THEN'Batch'ELSE CASE

WHEN version_props.object_type =20THEN'Shortcut'ELSE CASE

WHEN version_props.object_type =21THEN'Mapping'ELSE CASE

WHEN version_props.object_type =26THEN'Rank'ELSE CASE

WHEN version_props.object_type =27THEN'Star Schema'ELSE CASE

WHEN version_props.object_type =28THEN'Folder Version'ELSE CASE

WHEN version_props.object_type =29THEN'Folder'ELSE CASE

WHEN version_props.object_type =30THEN'Cube'ELSE CASE

WHEN version_props.object_type =31THEN'Dimension'ELSE CASE

WHEN version_props.object_type =32THEN'Level'ELSE CASE

WHEN version_props.object_type =33THEN'Hierarchy'ELSE CASE

WHEN version_props.object_type =34THEN'Fact Table'ELSE CASE

WHEN version_props.object_type =35THEN'General Object'ELSE CASE

WHEN version_props.object_type =36THEN'FTP Object'ELSE CASE

WHEN version_props.object_type =37THEN'Oracle External Loader Object'ELSE CASE

WHEN version_props.object_type =38THEN'Informix External Loader Object'ELSE CASE

WHEN version_props.object_type =39THEN'Sybase IQ External Loader Object'ELSE CASE

WHEN version_props.object_type =54THEN'Sybase IQ 12 External Loader Object'ELSE CASE WHEN version_props.object_type =53THEN'Tera Data External Loader Object'ELSE CASE

WHEN version_props.object_type =40THEN'File Object'ELSE CASE

WHEN version_props.object_type =41THEN'Server Object'ELSE CASE

WHEN version_props.object_type =42THEN'Database Object'ELSE CASE WHEN version_props.object_type =43THEN'Repository'ELSE CASE

WHEN version_props.object_type =44THEN'Mapplet'ELSE CASE WHEN version_props.object_type =45THEN'Application Source Qualifier' ELSE CASE WHEN version_props.object_type =46THEN'Input Transformation'ELSE CASE WHEN version_props.object_type =47THEN'Output Transformation'ELSE CASE WHEN version_props.object_type =50THEN'Advanced External Procedure'ELSE CASE WHEN version_props.object_type =48THEN'Business Component Framework'ELSE CASE WHEN version_props.object_type =49THEN'Business Component'ELSE CASE WHEN version_props.object_type =51THEN'SAP Structure'ELSE CASE

WHEN version_props.object_type =52THEN'SAP Function'ELSE CASE

WHEN version_props.object_type =15THEN'Router'ELSE CASE WHEN version_props.object_type =55THEN'XML Source Qualifier'ELSE CASE WHEN version_props.object_type =56THEN'MQ Source Qualifier'ELSE CASE WHEN version_props.object_type =57THEN'MQ Connection Object'ELSE CASE WHEN version_props.object_type =58THEN'Command'ELSE CASE

WHEN version_props.object_type =59THEN'Decision'ELSE CASE

WHEN version_props.object_type =60THEN'Event Wait'ELSE CASE

WHEN version_props.object_type =61THEN'Event Raise'ELSE CASE

WHEN version_props.object_type =62THEN'Start'ELSE CASE

WHEN version_props.object_type =63THEN'Abort'ELSE CASE WHEN version_props.object_type =64THEN'Stop'ELSE CASE

WHEN version_props.object_type =65THEN'Email'ELSE CASE WHEN version_props.object_type =66THEN'Timer'ELSE CASE WHEN version_props.object_type =67THEN'Assignment'ELSE CASE

WHEN version_props.object_type =68THEN'Session'ELSE CASE WHEN version_props.object_type =69THEN'Scheduler'ELSE CASE

WHEN version_props.object_type =70THEN'Worklet'ELSE CASE

WHEN version_props.object_type =71THEN'Workflow'ELSE CASE

WHEN version_props.object_type =72THEN'SessionConfig'ELSE CASE

WHEN version_props.object_type =73THEN'Relational'ELSE CASE

WHEN version_props.object_type =74THEN'Application'ELSE CASE

WHEN version_props.object_type =75THEN'FTP'ELSE CASE

WHEN version_props.object_type =76THEN'External Loader'ELSE CASE WHEN version_props.object_type =77THEN'Queue'ELSE CASE WHEN version_props.object_type =78THEN'Reader'ELSE CASE WHEN version_props.object_type =79THEN'Writer'ELSE CASE WHEN version_props.object_type =80THEN'Sorter'ELSE CASE WHEN version_props.object_type =81THEN'Vendor'ELSE CASE WHEN version_props.object_type =84THEN'App Multi-Group Source Qualifier'ELSE CASE WHEN version_props.object_type =91THEN'Control'ELSE CASE WHEN version_props.object_type =92THEN'Transaction Control'ELSE CASE

WHEN version_props.object_type =97THEN'Custom Transformation'ELSE CASE

WHEN version_props.object_type =93THEN'Query'ELSE CASE

WHEN version_props.object_type =94THEN'Deployment Group'ELSE CASE

WHEN version_props.object_type =95THEN'Label'ELSE CASE

WHEN version_props.object_type =96THEN'Deployed Deployment Group'ELSE CASE

WHEN version_props.object_type =98THEN'Server Grid'ELSE CASE

WHEN version_props.object_type =99THEN'Profiling Ruleset'ELSE CASE

WHEN version_props.object_type =100THEN'Template Extension'ELSE CASE

WHEN version_props.object_type =101THEN'Global Profile Resource'ELSE CASE

WHEN version_props.object_type =102THEN'Web Services Hub'ELSE CASE

WHEN version_props.object_type =103THEN'Lookup Extension'ELSE CASE

WHEN version_props.object_type =105THEN'Service Level'ELSE CASE

WHEN version_props.object_type =106THEN'User Defined Function'ELSE'Shortcut'

END END END END END END END END END END EN D END END END END END END END END END END

END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END END E ND END END END END END END END END END END END END END END END END END END END END END END END END END END END

END"OBJECT_TYPE"

FROM rep_users version_users,

rep_version_props version_props,

rep_reposit_info version_reposit_info,

rep_subject version_subject

WHERE(version_https://www.360docs.net/doc/4513776868.html,er_id = version_https://www.360docs.net/doc/4513776868.html,er_id

AND version_props.object_id <> version_reposit_info.repository_id

AND version_props.subject_id = version_subject.subject_id

)

ORDER BY3,1

5.6LIST ALL EXPRESSION TRANSFORMATIONS USIN G ‘CONCAT’ FUNCTION

SELECT DISTINCT REP_ALL_MAPPINGS.SUBJECT_AREA, REP_ALL_MAPPINGS.MAPPING_NAME,REP_ WIDGET_INST.WIDGET_TYPE_NAME AS TRANSFORMATION_TYPE,REP_WIDGET_INST.INSTANCE_NA ME AS TRANSFORMATION_NAME,REP_WIDGET_FIELD.FIELD_NAME AS PORT_NAME,

CASE

WHEN REP_WIDGET_FIELD.PORTTYPE =1THEN'I'

WHEN REP_WIDGET_FIELD.PORTTYPE =2THEN'O'

WHEN REP_WIDGET_FIELD.PORTTYPE =3THEN'IO'

WHEN REP_WIDGET_FIELD.PORTTYPE =32THEN'V'

END AS PORT_TYPE,

REP_WIDGET_FIELD.EXPRESSION

FROM REP_WIDGET_INST, REP_WIDGET_FIELD, REP_ALL_MAPPINGS

WHERE REP_WIDGET_INST.WIDGET_ID = REP_WIDGET_FIELD.WIDGET_ID

AND REP_WIDGET_INST.MAPPING_ID = REP_ALL_MAPPINGS.MAPPING_ID

AND REP_WIDGET_INST.WIDGET_TYPE =5

AND REP_WIDGET_FIELD.EXPRESSION LIKE'%CONCAT%'

ORDER BY1

5.7LIST OF ALL PORT DETAILS OF AN EXPRESSION TRANSFORMATIONS

SELECT S.SUBJ_NAME, W.WIDGET_NAME, F.FIELD_ID,F.FIELD_NAME,E.VERSION_NUMBER, E.EXPRESSION FROM OPB_WIDGET W,OPB_SUBJECT S,OPB_WIDGET_FIELD F,OPB_WIDGET_EXPR R,OPB_EXPRESSION E

WHERE W.SUBJECT_ID=S.SUBJ_ID AND W.WIDGET_ID=F.WIDGET_ID

AND W.WIDGET_ID=R.WIDGET_ID AND F.FIELD_ID=R.OUTPUT_FIELD_ID

AND W.WIDGET_ID=E.WIDGET_ID AND R.EXPR_ID=E.EXPR_ID

AND W.VERSION_NUMBER = F.VERSION_NUMBER

AND F.VERSION_NUMBER = R.VERSION_NUMBER

AND R.VERSION_NUMBER = E.VERSION_NUMBER

AND W.IS_VISIBLE =1

AND W.WIDGET_NAME LIKE'EXP_%'

ORDER BY1,2,3

5.8LIST OF ALL EXPRESSION TRANSFORMATION PORT LINKS

SELECT DISTINCT S.SUBJ_NAME, WF.INSTANCE_NAME ||'.'|| F.FIELD_NAME

FROM_NAME, F.FIELD_ORDER AS EXP_PORT_ORDER,

WT.INSTANCE_NAME ||'.'|| T.FIELD_NAME TO_NAME,T.FIELD_ORDER

FROM OPB_WIDGET Z,OPB_WIDGET_INST WF,OPB_WIDGET_INST WT,

OPB_WIDGET_FIELD F,OPB_WIDGET_FIELD T,OPB_WIDGET_DEP D,OPB_SUBJECT S

WHERE Z.SUBJECT_ID = S.SUBJ_ID

AND Z.IS_VISIBLE =1

AND Z.WIDGET_ID = F.WIDGET_ID

AND Z.WIDGET_ID = WF.WIDGET_ID

AND Z.RU_VERSION_NUMBER = WF.VERSION_NUMBER

AND WF.REF_VERSION_NUMBER = F.VERSION_NUMBER

AND WF.VERSION_NUMBER = D.VERSION_NUMBER

AND WF.MAPPING_ID = D.MAPPING_ID

AND WF.INSTANCE_ID = D.FROM_INSTANCE_ID

AND F.FIELD_ID = D.FROM_FIELD_ID

AND D.TO_INSTANCE_ID = WT.INSTANCE_ID

AND D.TO_FIELD_ID = T.FIELD_ID

AND D.MAPPING_ID = WT.MAPPING_ID

AND D.VERSION_NUMBER = WT.VERSION_NUMBER

AND WT.WIDGET_ID = T.WIDGET_ID

AND WT.REF_VERSION_NUMBER = T.VERSION_NUMBER

--AND Z.WIDGET_NAME LIKE 'EXP_%'

AND S.SUBJ_NAME =:FOLDER_NAME

AND WF.INSTANCE_NAME =:EXP_NAME

ORDER BY1,2,3

5.9LIST OF LKP TRANSFORMATION PORT LINKS USED IN ALL MAPPINGS

SELECT DISTINCT OPB_SUBJECT.SUBJ_NAME,OPB_MAPPING.MAPPING_NAME,

OPB_WIDGET_FIELD.FIELD_NAME FIELD_NAME,

OPB_EXPRESSION.EXPRESSION EXPRESSION

FROM OPB_WIDGET_EXPR,OPB_EXPRESSION,OPB_WIDGET_FIELD,REP_FLD_DATAT YPE,OPB_WIDGET,OPB_SUBJECT,OPB_WIDGET_INST,OPB_MAPPING

WHERE

OPB_WIDGET_FIELD.WIDGET_ID =OPB_WIDGET.WIDGET_ID

AND OPB_WIDGET.SUBJECT_ID =OPB_SUBJECT.SUBJ_ID

AND OPB_WIDGET_INST.WIDGET_ID =OPB_WIDGET.WIDGET_ID

AND OPB_MAPPING.MAPPING_ID =OPB_WIDGET_INST.MAPPING_ID

AND OPB_WIDGET_FIELD.VERSION_NUMBER =OPB_WIDGET.VERSION_NUMBER

AND OPB_WIDGET.IS_VISIBLE =1

AND OPB_WIDGET_FIELD.WIDGET_ID=OPB_WIDGET_EXPR.WIDGET_ID

AND OPB_WIDGET_FIELD.FIELD_ID=OPB_WIDGET_EXPR.OUTPUT_FIELD_ID

AND OPB_WIDGET_EXPR.WIDGET_ID=OPB_EXPRESSION.WIDGET_ID

AND OPB_WIDGET_EXPR.EXPR_ID=OPB_EXPRESSION.EXPR_ID

AND OPB_EXPRESSION.LINE_NO =1

AND OPB_WIDGET_EXPR.VERSION_NUMBER =OPB_EXPRESSION.VERSION_NUMBER AND OPB_WIDGET_EXPR.VERSION_NUMBER =OPB_WIDGET_FIELD.VERSION_NUMBER --AND OPB_SUBJECT.SUBJ_NAME = 'FOLDER_NAME'

--AND OPB_MAPPING.MAPPING_NAME = 'MAPPING_NAME'

AND UPPER(EXPRESSION)LIKE'%LKP_ACCT_B%'

ORDER BY1,2

6MAPPING

6.1LIST MAPPING NAMES

SELECT SUBJECT_AREA, PARENT_MAPPING_NAME

FROM REP_ALL_MAPPINGS

ORDER BY1,2

6.2LIST TOTAL COUNT OF MAPPINGS

SELECT SUBJECT_AREA, COUNT(PARENT_MAPPING_NAME)AS TOTAL_MAPPINGS

FROM REP_ALL_MAPPINGS

GROUP BY SUBJECT_AREA

ORDER BY1,2

6.3LIST LAST SAVED USER FOR A MAPPING

SELECT REP_SUBJECT.SUBJECT_AREA "FOLDER",REP_VERSION_PROPS.OBJECT_NAME"MAPPING",REP_https://www.360docs.net/doc/4513776868.html, ER_NAME,REP_VERSION_https://www.360docs.net/doc/4513776868.html,ST_SAVED

FROM REP_USERS,REP_VERSION_PROPS,REP_SUBJECT

WHERE REP_https://www.360docs.net/doc/4513776868.html,ER_ID=REP_VERSION_https://www.360docs.net/doc/4513776868.html,ER_ID

AND REP_VERSION_PROPS.OBJECT_TYPE IN(21)

--AND REP_SUBJECT.SUBJECT_AREA ='FOLDER_NAME'

AND REP_SUBJECT.SUBJECT_ID = REP_VERSION_PROPS.SUBJECT_ID

ORDER BY1,2,3,4

6.4LIST MAPPING PARAMETERS AND VARIABLES

select distinct rep_reposit_info.repository_name, rep_all_mappings.subject_area

as folder_name, rep_all_mappings.mapping_name as object_name,

case when opb_map_parmvar.pv_flag =2then 'Mapping Parameter' else

case when opb_map_parmvar.pv_flag =3then 'Mapping Variable' end

end as parameter_type,opb_map_parmvar.pv_name as parameter_name,

opb_map_parmvar.pv_default as parameter_value,

opb_map_parmvar.pv_desc as description

from rep_all_mappings,opb_map_parmvar, rep_reposit_info

where rep_all_mappings.mapping_id =opb_map_parmvar.mapping_id

6.5LIST ALL THE MAPPINGS USING PARALLEL HINTS

SELECT S.SUBJ_NAME, M.MAPPING_NAME, W.WIDGET_NAME, A.WIDGET_ID, W.VERSION_NUMBER, SUBSTR(A.ATTR_VALUE,1,60) ATTR_VALUE

FROM OPB_WIDGET_ATTR A, OPB_WIDGET W, OPB_SUBJECT S, OPB_WIDGET_INST I, OPB_MAPPING M WHERE A.WIDGET_ID = W.WIDGET_ID

AND W.IS_VISIBLE =1

AND A.VERSION_NUMBER = W.VERSION_NUMBER

AND A.WIDGET_TYPE IN(2,3,11)--Limit to Src/Tgt/Lkp Transformations

AND W.WIDGET_ID = I.WIDGET_ID

AND W.VERSION_NUMBER = I.VERSION_NUMBER

AND I.MAPPING_ID = M.MAPPING_ID

AND I.VERSION_NUMBER = M.VERSION_NUMBER

AND W.SUBJECT_ID = S.SUBJ_ID

AND UPPER(A.ATTR_VALUE)LIKE'%PARALLEL%'

7MAPPLET

7.1LIST MAPPLETS IN ALL FOLDERS

select subject_area,mapplet_name from rep_all_mapplets

order by 1,2

7.2LIST MAPPLET PARAMETERS AND VARIABLES

select distinct rep_reposit_info.repository_name, rep_all_mapplets.subject_area

as folder_name, rep_all_mapplets.mapplet_name as object_name,

case when opb_map_parmvar.pv_flag =2then'Mapplet Parameter' else

case when opb_map_parmvar.pv_flag =3then'Mapplet Variable' end

end as parameter_type,opb_map_parmvar.pv_name as parameter_name,

opb_map_parmvar.pv_default as parameter_value,

opb_map_parmvar.pv_desc as description

from rep_all_mapplets, rep_widget_inst,opb_mapping,opb_map_parmvar, rep_reposit_info where rep_all_mapplets.mapplet_id=opb_mapping.mapping_id

and rep_widget_inst.widget_id=opb_mapping.ref_widget_id

and opb_mapping.mapping_id=opb_map_parmvar.mapping_id

and rep_widget_inst.widget_type=44

8SESSION

8.1LIST SESSION NAMES

SELECT SUBJECT_AREA, TASK_TYPE_NAME, TASK_NAME FROM REP_ALL_TASKS

WHERE TASK_TYPE IN(68)

--AND SUBJECT_AREA= 'ABC'

ORDER BY1,2,3

8.2LIST SAVE SESSION LOG COUNT

select distinct cc.subject_area,cc.task_name as session_name,bb.attr_value as Savesessionlog from

(select a.session_id,min(a.config_id)as config_id,a.attr_id from rep_sess_config_parm a where a.attr_id ='103' group by a.session_id,a.attr_id) aa,

(select session_id,config_id,attr_value from rep_sess_config_parm

where attr_id ='103') bb,

(select subject_area,task_name,task_id from rep_all_tasks ) cc

where aa.session_id = bb.session_id

and aa.config_id=bb.config_id

and bb.session_id = cc.task_id

and bb.attr_value not in(8,4)

order by1,2,3

8.3LIST STOP ON ERRORS COUNT

SELECT DISTINCT

A.SUBJECT_AREA,

A.TASK_NAME AS SESSION_NAME,

B.ATTR_VALUE AS STOPONERRORS

FROM

REP_ALL_TASKS A ,

REP_SESS_CONFIG_PARM B

A.TASK_ID =

B.SESSION_ID

AND TASK_TYPE_NAME ='Session'AND B.ATTR_ID ='202'

--AND B.ATTR_VALUE NOT IN (1) --AND A.SUBJECT_AREA in ('ABC') ORDER BY1,2

8.4LIST HARD CODED PATHS

SELECT DISTINCT

A.SUBJECT_AREA,

A.TASK_NAME AS SESSION_NAME,

B.FILE_NAME,

DIR_NAME

FROM

REP_ALL_TASKS A ,

OPB_SESS_FILE_VALS B

WHERE

A.TASK_TYPE_NAME ='Session'

AND A.TASK_ID = B.SESSION_ID

--AND A.SUBJECT_AREA IN ('ABC')

ORDER BY1,2

8.5LIST PARAMETER FILE PATHS

SELECT DISTINCT

B.SUBJECT_AREA,

B.TASK_NAME AS SES_WF_NAME,

A.ATTR_VALUE AS PRM_FILE_PATH

FROM

OPB_TASK_ATTR A,

REP_ALL_TASKS B

WHERE

A.ATTR_ID IN(1,4)

AND A.TASK_ID = B.TASK_ID

AND A.ATTR_VALUE LIKE'%.prm%'

ORDER BY1,2ASC

8.6List session log names

SELECT DISTINCT

A.SUBJECT_AREA,

A.WORKFLOW_NAME,

A.SESSION_NAME,

A.SESSION_INSTANCE_NAME,

SUBSTR(A.SESSION_LOG_FILE,25,300)AS EXISTING_SESSLOGNAME FROM

REP_SESS_LOG A

SUBSTR(A.SESSION_LOG_FILE,25,300)!= CONCAT(LOWER(A.SESSION_INSTANCE_NAME),'.log') ORDER BY1,2,3

8.7LIST COMMIT INTERVALS

SELECT

B.SUBJECT_AREA,

B.TASK_NAME AS SESS_NAME,

A.ATTR_VALUE AS COMMITINTERVEL

FROM

OPB_TASK_ATTR A ,

REP_ALL_TASKS B

WHERE

A.ATTR_ID IN(14)

AND A.ATTR_VALUE <>10000

AND A.TASK_ID = B.TASK_ID

AND TASK_TYPE_NAME IN('Session')

ORDER BY1,2ASC

8.8LIST TOTAL SOURCE PARTITIONS

SELECT

B.SUBJECT_AREA,

B.TASK_NAME AS SESS_NAME,

A.ATTR_VALUE AS TOTAL_SOURCE_PARTITIONS

FROM

OPB_TASK_ATTR A ,

REP_ALL_TASKS B

WHERE

A.ATTR_ID IN(12)

AND A.TASK_ID = B.TASK_ID

AND TASK_TYPE_NAME IN('Session')

ORDER BY1,2ASC

8.9LIST TOTAL TARGET PARTITIONS

SELECT

B.SUBJECT_AREA,

B.TASK_NAME AS SESS_NAME,

A.ATTR_VALUE AS TOTAL_TARGET_PARTITIONS

FROM

OPB_TASK_ATTR A ,

REP_ALL_TASKS B

WHERE

A.ATTR_ID IN(11)

AND A.TASK_ID = B.TASK_ID

AND TASK_TYPE_NAME IN('Session')

ORDER BY1,2ASC

8.10List DTM Buffer Size

SELECT

B.SUBJECT_AREA,

B.TASK_NAME AS SESS_NAME,

A.ATTR_VALUE AS DTM_BUFFER_SIZE

FROM

OPB_TASK_ATTR A ,

REP_ALL_TASKS B

WHERE

A.ATTR_ID IN(101)

AND A.TASK_ID = B.TASK_ID

AND TASK_TYPE_NAME IN('Session')

ORDER BY1,2ASC

8.11LIST COLLECT PERFORMANCE DATA

SELECT

B.SUBJECT_AREA,

B.TASK_NAME AS SESS_NAME,

A.ATTR_VALUE AS COLLECT_PERFORMANCE_DATA FROM

OPB_TASK_ATTR A ,

REP_ALL_TASKS B

WHERE

A.ATTR_ID IN(102)

AND A.TASK_ID = B.TASK_ID

AND TASK_TYPE_NAME IN('Session')

ORDER BY1,2ASC

8.12List Incremental Aggregation

SELECT

B.SUBJECT_AREA,

B.TASK_NAME AS SESS_NAME,

A.ATTR_VALUE AS INCREMENTAL_AGGREGATION FROM

OPB_TASK_ATTR A ,

REP_ALL_TASKS B

WHERE

A.ATTR_ID IN(103)

AND A.TASK_ID = B.TASK_ID

AND TASK_TYPE_NAME IN('Session')

ORDER BY1,2ASC

8.13List Reinitialize aggregate cache

SELECT

B.SUBJECT_AREA,

B.TASK_NAME AS SESS_NAME,

A.ATTR_VALUE AS REINITIALIZE_AGGREGATE CACHE FROM

OPB_TASK_ATTR A ,

REP_ALL_TASKS B

WHERE

A.ATTR_ID IN(104)

AND A.TASK_ID = B.TASK_ID

AND TASK_TYPE_NAME IN('Session')

ORDER BY1,2ASC

8.14LIST ENABLE HIGH PRECISION

SELECT

B.SUBJECT_AREA,

B.TASK_NAME AS SESS_NAME,

A.ATTR_VALUE AS ENABLE_HIGH_PRECISION

FROM

OPB_TASK_ATTR A ,

REP_ALL_TASKS B

WHERE

A.ATTR_ID IN(105)

AND A.TASK_ID = B.TASK_ID

AND TASK_TYPE_NAME IN('Session')

ORDER BY1,2ASC

8.15LIST SESSION RETRY ON DEADLOCK

SELECT

B.SUBJECT_AREA,

B.TASK_NAME AS SESS_NAME,

A.ATTR_VALUE AS SESSION_ RETRYON_DEADLOCK FROM

OPB_TASK_ATTR A ,

REP_ALL_TASKS B

WHERE

A.ATTR_ID IN(106)

AND A.TASK_ID = B.TASK_ID

AND TASK_TYPE_NAME IN('Session')

ORDER BY1,2ASC

8.16LIST WRITE BACKWARD COMPATIBLE CHECK

SELECT DISTINCT

A.SUBJECT_AREA,A.TASK_NAME,

DECODE (B.ATTR_VALUE,0,'TO BE CHECKED',1,'CHECKED') WRITEBACKWARDCOMPATIBLE FROM

REP_ALL_TASKS A ,

OPB_TASK_ATTR B

WHERE

A.TASK_ID =

B.TASK_ID

AND B.TASK_TYPE IN68

AND B.ATTR_ID =17

--AND B.ATTR_VALUE <> 1

ORDER BY1,2,3

8.17LIST OVER RIDE TRACING

SELECT REP_REPOSIT_INFO.REPOSITORY_NAME,

REP_ALL_TASKS.SUBJECT_AREA AS FOLDER_NAME,

REP_ALL_TASKS.TASK_NAME AS SESSION_NAME,

CASE

WHEN REP_SESS_CONFIG_PARM.ATTR_VALUE =0THEN'NONE'

WHEN REP_SESS_CONFIG_PARM.ATTR_VALUE =1THEN'TERSE'

WHEN REP_SESS_CONFIG_PARM.ATTR_VALUE =2THEN'NORMAL'

WHEN REP_SESS_CONFIG_PARM.ATTR_VALUE =3THEN'VERBOSE INITIALIZATION'

WHEN REP_SESS_CONFIG_PARM.ATTR_VALUE =4THEN'VERBOSE DATA'

END AS OVERRIDE_TRACING

FROM

REP_REPOSIT_INFO,

REP_ALL_TASKS,

REP_SESS_CONFIG_PARM

WHERE

REP_ALL_TASKS.TASK_ID = REP_SESS_CONFIG_PARM.SESSION_ID

AND REP_SESS_CONFIG_PARM.ATTR_ID =204

--AND REP_SESS_CONFIG_PARM.ATTR_VALUE NOT IN (0,2)

ORDER BY1,2,3

8.18LIST SAVE SESSION LOG BY

SELECT A.SUBJECT_AREA,

A.TASK_NAME AS SESSION_NAME,

B.ATTR_NAME,

DECODE(B.ATTR_VALUE,1,'TIME STAMP','BY RUNS')AS SAVE_SESSION_LOG_BY

中文数字化期刊的dc 元数据标准设计实例情报科学vol1 21no1 6

中文数字化期刊的DC 元数据标准设计实例刘廷元 (西南石油学院图书馆,成都610500) 摘　要　文章将元数据标准的使用作为各种不同的数字化期刊仓储资源共享的一种可行性方法进行了论述。研究集中在三个方面:首先,讨论了数字化期刊采用元数据标准的必要性;其次,讨论了数字化期刊的 DC 元数据定义与限定;最后,提供了一个用DC 111元数据和H TM L 410语法设计的中文数字化期刊元数据标准实例。关键词　元数据　标准　数字化期刊　中文期刊　设计中图分类号　G 35311 文献标识码　A 文章编号　100727634(2003)0620609204 An Exam ple of the DC M etada ta Standard D esign for Ch i nese D ig ita l Journa ls L iu T ingyuan (L ib rary of Sou thw est Petro leum In stitu te ,Chengdu 610500) Abstract T h is article deseribes the u se of m etadata standards as a viab le m ean s fo r shared resou rces among vari ou s differen t digital j ou rnalw arehou ses .O u r study concen trates on th ree con ten ts :F irst ,the article discu ssed under the necessity of u sing the m etadata standard in digital j ou rnals .Second ,the article discu ssed the sem an tic defin iti on and li m itati on of the DC elem en t set fo r digital j ou rnals .F inally ,w e p rovided the m etadata standard of the Ch inese digital j ou rnals and an examp le of the design w ith the DC 1.1m etadata and H TM L 4.0syn tax . Keywords M etadata Standard D igital Jou rnal Ch inese Jou rnal D esign 收稿日期:2002-09-09 数字化信息的结构化存储、有序化组织和高效、准确的检索,是数字化图书馆与商业数据库共同面临的一个问题。由于WWW 空间的无限扩大,使得解决全球信息资源的无组织问题更加迫切。目前,因特网上既有OCL C 、U nCover 那样庞大的数字化期刊服务,也有BaderL ine 、EBSCO ho st 、P roQ uest D irect 、Sp ringer 数字化期刊、CN K I 中国学术期刊网、维普中文科技期刊、万方中国数字化期刊网这样新兴的数字化全文期刊数据库服务,以及不断增加的上千种的网上出版期刊。然而,这样巨大的期刊信息资源仓储却是以异构方式存在的,它们提供各自不同的信息存储、组织、检索与浏览方法,不能实现跨仓储的统一查找利用,造成了极大的信息资源浪费。因特网上分布式的异构数字化期刊仓储如同一个没有索引卡片的传统图书馆。但是,如果我们为这些数字化期刊的信息存储、组织、检索与浏览加上一个无形的统一索引目录——元数据标准,网上数字化期刊就会成为一个单一的、虚拟的、有组织的信息集合体,实现全球期刊信息的资源共享和跨仓储无缝查找,使期刊文献检索的查全率和查准率大大提高,从而极大地方便广大读者和用户。 1　数字化期刊采用DC 元数据标准的必要性大多数数字化期刊(尤其是全文期刊数据库)都习惯采用自己特有的数字信息储存、检索技术,人为地使自己的产品在使用方式、字段、接口设计等方面造成差异和封闭。强调产品的差异性而又不遵守统一的制作标准与规范,谋求利润最大化而又自我封闭,这就是数字化期刊制作与出版过程中普遍存在的二律悖反现象。正是由于这种分布式的异构与封闭,才阻碍了当今信息资源的透明、公开、可扩展、互操作性、组织性和规模化建设,使数字化期刊在当今知识经济时代难以受到人们更多的喜爱。具体地说,数字化期刊采用元数据标准的必要性主要有以下四个方面。 (1)元数据描述能够为数字化期刊建立一种计算机普遍可以理解的框架体系,使数字化期刊资源得以透明、公开。因为元数据描述了数字化信息的内容、权利和外部环境这些基本特征,使得计算机系统可以自动辨识、抽取、分析和整合,进而使得数字化期刊信息简单、有效的被其它信息资源仓储利用。 (2)元数据的描述、标识和语法能够融入因特网通用的语言中,被迅速地装载或转换进各种索引数据库,使数字化期刊资源具有可扩展和互操作性。一方面,建立在通用标记语言(SG M L )和扩展标记语言(X M L )之上的元数据语言,是国际互联网的通用语言,能够非常方便地被相同的元数据语言装载。另一方面,即使是对于各种不同数字化期刊仓储类型的元数据体系,只要我们以W F 和RD F 为基础,通过语第21卷第6期 2003年6月　　情　报　科　学　　V o l 121,N o 16June, 2003

元数据_基础知识

元数据一、定义元数据（Metadata）是关于数据的数据。它是用于描述信息资源的高度结构化数据。元数据在数据生产过程中或完成后建立的。二、功能元数据是数据与数据用户之间的桥梁 1.支持资源发现 2.组织数字信息资源 3.支持资源的互操作 4.支持数字识别 5.支持存档和保存三、分类 1. 按功能分描述性元数据：与事物本质有关的元数据。管理性元数据：与事物处理方式有关的元数据。包括权限管理、防伪管理、存储和使用管理。技术性元数据

保存性元数据使用性元数据 2.按复杂程度分采用简单的记录格式结构化的格式复杂格式 3.按描述的资源类型分网络资源：Dublin Core、IAFA Template、CDF、Web Collections 文献资料：MARC（with 856 Field），Dublic Core 人文科学：TEI Header 社会科学数据集：ICPSR SGML Codebook 博物馆与艺术作品：CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息：GILS 地理空间信息：FGDC/CSDGM 数字图像：MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合：EAD 技术报告：RFC 1807 连续图像：MPEG-7 四、结构 1.内容结构（数据元/字段/数据项）定义元数据的构成元素，可包括描述性元素、技术性元素、管理性元素和结构性元素。这些构成元素要满足元数据的功能要求，因此，往往与元数据的功能相对应。当某个元素来自某个外部标准时，要在内容结构中对此说明。 2.句法结构（元数据实体/数据表/数据结构）定义元数据内元素之间的相互关系（例如，树状结构）。定义元数据的格式及其描述方式。包括：（1）元素的分区分段组织（2）元素选取使用规则（3）元素描述方法（如Dublin Core采用ISO/IEC 11179标准）

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘第一章课后习题一：填空题 1）数据库中存储的都是数据，而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2）数据仓库中的数据分为四个级别：早起细节级、当前细节级、轻度综合级、高度综合级。3）数据源是数据仓库系统的基础，是整个系统的数据源泉，通常包括业务数据和历史数据。4）元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5）数据处理通常分为两大类：联机事务处理和联机事务分析 6）Fayyad过程模型主要有数据准备，数据挖掘和结果分析三个主要部分组成。 7）如果从整体上看数据挖掘技术，可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8）那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9）按照挖掘对象的不同，将Web数据挖掘分为三类：web内容挖掘、web结构挖掘和web 使用挖掘。 10）查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层，它们各自的侧重点不同，因此适用范围和针对的用户也不相同。二：简答题 1）什么是数据仓库？数据仓库的特点主要有哪些？数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支

持管理决策。主要特点：面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2）简述数据挖掘的技术定义。从技术角度看，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3）什么是业务元数据？业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4）简述数据挖掘与传统分析方法的区别。本质区别是：数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5）简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

科学数据规范化分析与管理

科学数据规范化分析与管理
中国科学院计算机网络信息中心胡良霖 2008年05月

提纲
1. 2. 3.
基本概念科学数据的特点科学数据规范化
规范化分析 3.2 规范化管理
3.1
4. 5.
示例模型科学数据规范化工作模式

1. 基本概念
数据（data）对事实、概念或指令的一种形式化表示，适用于以人工或自动方式进行通信、解释或处理。数据集（dataset）可以标识的数据集合。注：数据集可以是一个数据库或一个或多个数据文件。元数据（metadata）
定义和描述其他数据的数据。
数据模型（data model）以反应信息结构的某种方式对数据组织的描述。描述数据、数据关系、数据语义以及一致性约束的概念工具的集合。[《数据库系统概念》（第三版）]
注：以上概念除特殊注明外均摘自GB/T18391.1-2002《信息技术的规范化与标准化第一部分：数据元的规范化与标准化框架》

1. 基本概念
数据元（data element）
用一组属性描述其定义、标识、表示和允许值的数据单元，在一定语境下，通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。
注：数据元也是构建元数据和元数据实体的基本单元。
数据元目录（data element directory）
列出并定义了全部相关数据元的一种信息资源。
注：数据元目录可有不同层级，例如，ISO/IEC委员会级、国际协会级、行业部门级、公司级、应用系统级。
数据元值（data element value）
数据元允许值集合中的一个值。
数据元值的长度（data element value length）
数据元值中字符的数目。
注：按ASCII字符数目计算数据元值的长度，一个汉字相当于2个字符。
注：以上概念释义均出自GB/T18391.1-2002。

元知识

元知识和元方法的意义在科学哲学中，元科学或元理论，是关于科学的科学或关于理论的理论，它是以科学为研究对象，研究科学的性质、特征、形成和发展规律的学科。所谓元知识就是“关于知识的知识”。知识是人们认识客观事物的成果，而知识是具有层次性的。这种层次性反映了不同的认识关系。第一个层次是“事物—知识”关系。这里，客观事物是认识的对象，知识是关于对象的认识成果，这个层次上的知识是“关于事物的知识”。第二个层次是“知识—元知识”关系。当人们获得关于事物的知识之后，将这种知识又作为认识的对象进行研究，获得新的认识成果，这种认识成果是“关于知识的知识”，即元知识。以上两种关系综合起来，就形成“事物→知识→元知识”这样的知识层次关系。元知识是更高层次的知识，它所研究的是知识的客观性、全面性、深刻性、严密性等问题。元知识的意义在于，发现并克服知识的局限性，使其更真实、更全面、更深刻、更严密。如果人的认识只停留在第一个层次上，就难以发现知识的局限性。当人们在运用知识解决问题时，对知识本身的局限性没有自觉的认识，也就不能自觉超越这种局限性，会使人们的思维活动陷入困境，难以有效解决问题。如果人们的认识上升到元知识的层次，就能在更大的知识范围、更高的知识层次上，来分析研究问题，从而有效解决问题。所谓元方法，就是“关于方法的方法”，或者是“如何运用方法的方法”。经过一定的学习和实践过程，人们总是掌握了一定的分析问题、解决问题的方法。这个层次上的方法是针对问题的，所反映的是“问题—方法”关系。如果我们把方法本身作为研究对象，进一步分析研究方法的实质、特点、适用条件、应用原则和程序等问题，形成对方法的系统化认识，这就是元方法。元方法也就是我们通常说的“方法论”。在方法论这个层次上，元方法的对象是“方法”而不是“问题”，所反映的是“方法—元方法”关系。把以上两种关系综合起来，就形成“问题—方法—元方法”这样的层次关系。元方法是更高层次的方法，它能使我们对方法的实质和特征有更深刻的认识，掌握应用方法的原则和要求，了解方法的局限性，使我们能够自觉、理性地应用方法来分析、解决问题。一般来说，在“问题—方法”这个层次上，人们可以解决常规性问题。如果只停留在这个层次上，当人们遇到非常规性的问题，特别是难度较大的问题时，就会陷入困境。这时候，如果从更高层次上来看问题，即从元方法的层次上来分析问题，就能够突破困境，顺利分析、解决问题。关于“元知识”和“元方法”，在我国古代，在日常生活中，人们已有一些朴素的观念。我们都熟悉两句著名的古诗，一句是“不识别庐山真面目，只缘身在此山中”，看不清事物的真相，是因为受到视野的限制，不能从更大的范围来观察事物。“在山中”是一种视野，“在山外”则是一种更大的视野，是“元视野”，从这个更大的视野，才能看到事物的整体。另一句是“欲穷千里目，更上一层楼”，要看得更远更广泛，就要超越原来所处层次的限制，从更高的层次上来进行观察。还有一句民间谚语“磨刀不误砍柴工”，道理也很深刻。这里包含着两个层次的关系。第一个层次是“柴—刀”关系，柴是对象，刀是工具，这个关系相当于“问题—方法”关系。第二个层次是“刀—磨”关系，这里刀成了对象，而“磨”是对刀的作用，是对刀的改进和完善，这个关系相当于“方法—元方法”关系。“砍”是一种方法，而“磨”是一种元方法。如果只顾“砍”，而

浅谈数据仓库中的元数据管理技术

浅谈数据仓库中的元数据管理技术孙力君仇道霞方峻峰宋楠山东省烟草公司信息中心摘要：数据仓库是数据库的发展方向之一，对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念，重点阐述了元数据的概念、作用、CWM标准、来源，并就元数据具体应用进行了初步的研究和探讨。关键词：数据仓库；元数据； 1. 引言随着市场竞争的越来越激烈，烟草行业的信息化建设不断的深入发展，全行业形成了“以信息化带动烟草行业现代化建设”的基本共识，明确了“统一标准、统一平台、统一数据库、统一网络”，逐步实现系统集成、资源整合、信息共享的信息化建设总体要求，走过了“由基础性向应用性、由局部性向全局性、由分散性向集中性建设”的三个转变历程，初步形成了“数字烟草”的行业信息化建设格局，既对行业数据中心的建设提出了迫切的要求，也为行业数据中心建设奠定了坚实的基础。随着数据库技术尤其是数据仓库技术的发展，人类能更容易获得自己需要的数据和信息，由于元数据是数据仓库中非常重要的组成部分，因此讨论和研究元数据在数据仓库中的作用和应用，具有非常重要的意义。元数据管理是山东烟草数据中心建设的重要组成部分，元数据管理平台为用户提供高质量、准确、易于管理的数据，它贯穿数据中心构建、运行和维护的整

个生命周期。同时，在数据中心构建的整个过程中，数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节，均需要通过相应的元数据的进行支撑。元数据管理的生命周期包括元数据获取和建立、元数据的存储、元数据浏览、元数据分析、元数据维护等部分。通过元数据管理，形成整个系统信息数据资的准确视图，通过元数据的统一视图，缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据，梳理业务元数据之间的关系，建立信息数据标准完善对这些数据的解释、定义，形成企业范围内一致、统一的数据定义，并可以对这些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施，通过精确把握经营数据来精确把握瞬息万变的市场竞争形式，使山东烟草在市场竞争中保持优势。总的来说，元数据管理平台集成相关的元数据，形成企业的全局数据视图，提供企业级共享元数据的平台，是烟草业务系统的基础设施，对业务系统的发展、应用和数据质量的提升有着深远影响。 2.数据仓库概述目前有关数据仓库的概念有多种，其中最经典的，引用最为广泛的定义是W.H.Inmon在《Building the Data Warehouse》一书中给出的，他指出：“数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合，用于支持管理层的决策过程”。[1] 之所以要引入数据仓库，是因为随着信息时代的到来，如何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策，许多企业都选择了数据仓库，利用数据仓库可以对各种源数据进行抽取、清理、加工

林业科学数据元数据标准

林业科学数据元数据标准（V3.10版） 1 主题容与适应围本标准规定了用来描述林业科学数据集及提供信息服务所需要的信息，包括林业科学数据共享元数据容框架和林业科学数据共享元数据标准。提供了有关林业科学数据集的标识、容、分发、数据质量、数据表现、参照系和元数据参考信息等容。本标准适用于林业科学数据集元数据整理、建库、汇编、发布及共享服务。本标准的元数据分为两级，即核心元数据和详细元数据。核心元数据规定了描述数据集最关键的信息容。在核心元数据的基础上，考虑林业科学研究的特点，建立满足林业科学数据共享建设的详细元数据。用户可以在核心元数据的基础上，根据具体需求和数据的实际情况选用、扩充详细元数据容，建立相应级别的元数据库。 2 规性引用文件下列规性引用文件通过本部分的引用而成为本标准的条款。凡是注日期的引用文件，其随后所有的修改单（不包括勘误的容）或修订版均不适用于本标准。但是，鼓励根据本标准达成协议的各方，研究是否可使用这些文件的最新版本。但是不注日期的引用文件，其最新版本适用于本标准。ISO和IEC成员维护目前有效国际标准的注册。科学数据共享工程技术标准—科学数据共享元数据标准容1.4 SDS/T 2112—2004 科学数据共享工程技术标准 GB/T 1.1—2000 标准化工作导则 GB/T 7408-1994 数据元和交换格式信息交换日期和时间表示方法 GB/T 4880.2-2000 语种名称代码第2部分：3字母代码 GB/T 2260-2002 中华人民国行政区划代码 GB/T 7156-1987 文献等级代码 SDS/T 2111—2004 元数据标准化原则与方法 SDS/T 2122—2004 科学数据共享工程数据分类编码 ISO 19115 地理信息—元数据(Geographic information—Metadata) 3 术语和定义 3．1 数据集dataset 数据集是可以表示的数据集合，数据集可以是数据库，也可以是数据库中的一个（逻辑组成）部分。本标准所指的数据集是指不可再细分的数据集，即可以用一个数据字典能够唯一描述的数据集合。3．2 数据集系列dataset series 数据集系列是同一主题的多个数据集的组合，都符合相同产品规。 3．3 元数据metadata 元数据是关于数据的数据，用来描述数据的容、覆盖围、质量、管理方式、数据的所有者、数据的提供方式等有关信息。 3．4 元数据元素 metadata element

元数据管理解决方案-2018.3.27

元数据解决方案随着报价系统每年收集和使用的数据飞速增长，数据体量日趋增长，数据形态多样化且不统一，多种数据源之间的采集、传播和共享遇到困难。元数据管理作为大数据治理的核心，是有效管理这些数据的基础和前提，在信息化建设中发挥着重要的作用。如何理解、管理并发挥出元数据的价值，成为迫切的任务。一、什么是元数据元数据（Metadata）是关于数据的数据。元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类：技术元数据（Technical Metadata）和业务元数据（Business Metadata）。 1. 技术元数据技术元数据是存储关于数据仓库系统技术细节的数据，是用于开发和管理数据仓库使用的数据，它主要包括以下信息： 1) 数据仓库结构的描述，包括仓库模式、视图、维、层次结构和导出数据的定义，以及数据集市的位置和内容。 2) 业务系统、数据仓库和数据集市的体系结构和模式。 3) 汇总用的算法，包括度量和维定义算法，数据粒度、主题领域、聚集、汇总、预定义的查询与报告。 4) 由操作环境到数据仓库环境的映射，包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全（用户授权和存取控制）。 2. 业务元数据业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息：

1) 使用者的业务术语所表达的数据模型、对象名和属性名。 2) 访问数据的原则和数据的来源。 3) 系统所提供的分析方法以及公式和报表的信息。 4) 企业概念模型、多维数据模型，业务概念模型与物理数据的依赖，二、元数据的作用元数据可以实现业务模型与数据模型的映射，帮助用户理解数据仓库中的数据；元数据清晰的描述了数据的来龙去脉，描述了数据抽取转换规则，是保证数据质量的关键；元数据管理系统可以把整个业务的工作流、数据流和信息流有效的管理，可以支持需求变化，从而提高系统的可扩展性；打通数据孤岛，统一数据定义，形成企业级知识传承平台，元数据管理使得数据变的更有价值。三、元数据管理在大数据时代的背景下，数据即资产，元数据实现了信息的描述和分类的格式化，从而为机器处理创造了可能，它能帮助企业更好地对数据资产进行管理，理清数据之间的关系。元数据管理是企业提升数据质量的基础，也是企业数据治理中的关键环节。元数据管理不当，信息很容易被丢失，进而不能对业务进行有效支撑，企业内部业务人员要识别相关信息就会变得十分困难，最终用户也将失去对数据的信任。 1. 元数据采集技术元数据的采集，根据现有元数据设计出元模型，然后将数据仓库系统之中的元数据按元模型集中汇总并关联到一起，达到企业对数据统一管理与应用的目的，ETL等产生的元数据，对于元数据管理工具支持的格式可直接进行导入，对于一些自定义的规则，需要进行格式转换并导入。

数据仓库中元数据的管理

数据仓库中元数据的管理M etadata M anagem en t i n a Data W arehouse 同济大学计算机科学与工程系(上海200092) 史金红　吴永明【摘要】　介绍了数据仓库中四种基本类型的元数据,说明了不同类型元数据的收集和维护方法,并着重对分布式元数据的集成和管理进行了详细的阐述。关键词:数据仓库,数据商场,决策支持,元数据【Abstract】　T h is p ap er in troduces fou r typ es of m etadata and the m ethods of co llecting and m ain tain ing them.It focu ses on the m etadata m anagem en t and in tegrity. Key words:　da ta warehouse,da ta mart, dec ision support,m etada ta 1　引言随着社会的发展和计算机技术的进步,人们已不满足于用计算机只作简单的数据处理和事务处理。进一步用现有的数据进行分析和推理,从而为决策提供依据的需求导致了决策支持系统(D SS)的出现。90年代以来计算机技术、网络技术和数据库技术的迅速发展为D SS提供了必要的技术环境, OL T P和办公自动化普遍应用积累的大量数据为D SS提供了必要的数据基础,日趋激烈的市场竞争促进了各级管理和决策人员对D SS的实际需求,因此自从1991年W.H.Inm on提出数据仓库的概念和1993年E.F.Codd提出OLA P概念以来,已有许多商品化的数据仓库管理系统和联机分析处理工具软件面市。以上诸因素的共同作用促成许多公司、机构纷纷为提高自己的竞争能力建立数据仓库系统以进行决策支持。元数据是成功的数据仓库的重要组成部分,它可以帮助数据仓库项目小组明确而全面地理解潜在数据源的物理布局以及所有数据元的业务定义,帮助数据仓库用户有效地使用仓库中的信息,帮助数据库管理员了解某些表的变化将对数据仓库产生怎样的影响以及不同商业过程对应的应用等等。项目小组在开发过程中应当识别元数据并将它收入到元数据商店中,实施适当的过程捕作企业数据结构和应用的变化,从而修改相应的元数据,并向用户提供适当的工具访问元数据。 2　元数据的基本类型元数据按照其用户可以分为技术元数据和商业元数据。技术元数据提供给数据仓库的技术人员,数据仓库技术人员在仓库的开发和维护中使用这类元数据。商业元数据是商业用户在仓库中寻找他们所需商业信息的一个辅助。但是,技术人员可能也需要访问几种类型的商业元数据,如和商业用户讨论信息需求和建立企业的数据模型。同样,商业用户也需要尝试高水平的技术元数据。元数据按其内容可以分为四个基本类型: 1)关于数据仓库潜在数据来源的信息,包括现有的业务系统、可得到的外部数据和目前手工维护的信息。例如,一个组织可以从中识别数据来源的潜在仓库数据源有:几个现有的应用程序,由财务部门保存的基于PC机的电子报表,从某一卖主处购买的销售数据,目前由顾客服务部门在纸上保存的顾客联系记录。 2)关于数据模型的信息,包括业务实体、关系、企业规则和企业数据模型。 3)关于业务数据与仓库数据结构间的映射信息。只要那些来源中的一个数据元与仓库建立了映射关系,就应该记录下这些数据元间的逻辑联系以及发生的任何变换或变动。 4)关于数据仓库中信息的使用情况。了解这类信息对更好地调整仓库性能、更多地利用现有查询以及理解仓库中的信息怎样用于解决企业问题是很重要的。 3　元数据的收集和维护在适当的时间收集适当的元数据是成功实施元数据驱动的数据仓库的基础。为保证较高的准确

智能信息系统模拟试题及答案4

《智能信息系统》模拟试卷四年级：专业：姓名：学号：一、单项选择题 1.（）是人工智能（AI）最早的研究领域之一。 A 模式识别 B 自然语言理解 C 自动定理证明 D 知识获取 2 知识组织呈（）结构。 A 星状 B 环状 C 网状 D 放射状 3 （）是知识检索中最重要、最基本的知识元素。 A 认知 B 本体 C 自然语言 D 概念 4（）用于描述领域知识的表示结构、规则之间的控制约束关系，知识的使用范围等。 A 元规则 B元事实 C 元数据 D 控制单元 5 在智能搜索引擎体系结构中，哪层结构负责接受服务器端的检索结构：（）。 A 数据层 B 表示层 C 应用层 D 逻辑层二、多项选择题 1.人工智能领域中，产生式规则是知识表示表示方法之一，其包括下面哪些规则：（） A 正向规则和逆向规则 B 确定规则和不确定规则 C 元规则 D 特殊和一般性规则 2. 元数据结构包括：（） A 形式结构 B 内容结构 C 句法结构 D 语义结构 3. 根据推理方向的控制策略，知识推理包括一下哪些规则：（） A 正向推理 B 双向推理 C 精确推理 D 单调推理

4.下面哪些是知识检索的智能特征：（） A 支持自然语言理解和检索 B 具有知识推理和学习功能 C 具有可视化、智能化检索功能 D 能够通过非自然语言和知识语言进行人机交互 5. 下面哪个是专家经验知识的主要获取方法：（）。 A 头脑风暴的方法 B 机器归纳学习技术 C 神经网络技术 D 专家访谈的方法三、简答题 1.请简述本体的定义，以及按照本体的应用划分，本体分为哪些类型。 2.请简述可视化知识组织实现的步骤。 3.请简述正向规则推理中解决冲突的策略。 4.请简述概念网络检索方法的基本原理。 5.请简述知识获取的两种基本方法。四、论述题 1.请论述知识组织和信息组织之间的关系。 2.请论述认知理论的基本概念和其在知识检索中的应用和作用。 3.请论述机器学习系统的结构和功能。 4.试述知识发现的主要过程。 5.论述智能信息系统开发的步骤。模拟试卷四答案一、单项选择题

元数据管理方案

元数据管理方案 1.1元数据抽取为了简化元数据生成工作，系统提供自动生成元数据的功能，即元数据抽取。经过元数据自动抽取，用户能够方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象元数据抽取主要针正确对象有以下几种：已有目录：已建业务应用系统中现有的目录资源。数据库：各种数据库资源，包括关系型数据库、XML数据库等。格式化电子文件：电子文件，例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程元数据抽取的流程有4个主要步骤，分别为：数据源信息获取：解决要从哪个数据源获得元数据的问题。内容/结构分析：解决要从数据源中获得哪些元数据的问题。元数据提取：解决如何从数据源中获取元数据的问题。存储入库：解决元数据存储的问题。

1.1.3电子文档的元数据抽取对于电子文档，首先各部门的文档格式不尽相同，另外它们的安全级别也各不相同，同时由于信息化建设水平的不一致，有的部门文档分散在各处，有的部门文档是集中存放的，甚至已经建立了完善的电子系统进行管理。针对以上状况，对于电子文档的元数据抽取需要进行以下的抽取流程： ●整理归档对于分散在各处的电子文档(纸质文档需要先进行电子化处理)，必须由专人进行统一整理，根据公开共享的前提进行集中，这种集中能够是物理上集中的，也能够是逻辑上集中的。但要满足以下原则，第一根据安全级别，便于外界访问；第二便于文档的增量发布；第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下，进行自动化采集才是切实可行的。在整理归档的时候，各部门根据各自情况进行归档，没有必要千篇一律，也没有必要制定繁琐和呆板的规则，只要能够满足以上的原则即可。 ●根据安全级别，建立相应的访问机制由于受到安全级别的限制，因此对于需要共享的数据要进行安全方面的限制，限制的手段能够有：用户名/密码、数字证书、物理隔断等等，根据实际情况建立安全访问机制，做到重要信息不泄露，不丢失。 ●编目处理

数据仓库元数据管理

1.1.1 第一章元数据概论企业的计算机系统每年会产生很多数据，很多企业面临着这样的困境，难以有效的管理大量的、繁杂的、不一致的数据，并方便地访问、利用这些数据进行辅助决策。建立数据仓库提供一个方法，把数据转化为有用的、可信赖的信息，支持商业决策。建立数据仓库一个重要的工作是元数据管理。元数据（Metadata）就是数据的数据，用于建立、管理、维护和使用数据仓库。。元数据管理是企业级数据仓库中的关键组件，贯穿于建立数据仓库的整个过程。元数据使得用户可以掌握数据的历史情况，如数据从哪里来？流通时间有多长？更新频率是多大？数据元素的含义是什么？对它已经进行了哪些计算、转换和筛选等等。在需求不确定情况下，在瞬间万变的商业环境下，元数据可以更好的支持需求的变化，降低项目风险。通常把元数据分为技术元数据（Technical Metadata）和业务元数据（Business Metadata）。技术元数据是描述关于数据仓库技术细节的数据，这些元数据应用于开发、管理和维护数据仓库；业务元数据从商业和业务的角度描述数据仓库的数据，提供了良好的语义层定义，业务元数据使业务人员能够更好的理解数据仓库分析出来的数据。元数据贯彻于建立数据仓库的整个过程，不只是ETL过程需要元数据的支持。图1 元数据的应用在使用元数据的同时，随着数据仓库市场的发展，业界出现许多数据仓库管理和分析的工具，各种工具使用不同的元数据标准来表示和处理，不同系统之间的迁移、数据交换变得困难。于是，我们希望用一种单一的元数据标准，使得各种组织的元数据具有单一的元模型（MetaModel），因此，需要建立一种标准使得不同的数据仓库和商业智能系统之间可以相互交换元数据。 1.1.2 第二章元数据标准 1.1. 2.1 一、元数据标准CWM OMG于2001年颁布元数据标准CWM 1.0（Common Warehouse Metamodel Version 1.0）。CWM定义一个描述数据源、数据目的、转换、分析的元数据框架，以及定义建立和管理数据仓库的过程和操作，提供使用信息的继承。目前宣布支持CWM的厂商包括：IBM、Oracle、Hyperion、Dimension EDI、Genesis IONA、HP、NCR和Unisys等。 CWM基于3个工业标准： UML - Unified Modeling Language，OMG建模标准； MOF - Meta Object Facility，OMG建立元模型和模型库的标准，提供在异构环境下的数据交换的接口； XMI - XML Metadata Interchange，OMG元数据交换标准。 UML在CWM中得到充分的应用，担任3个不同的角色： 1），UML用来做为与MOF对应的meta-metamodel。UML相当于MOF Model,，UML Notation和OCL(Object Constraint Language)，被用来做为建模语言、图形符号、约束语言，

元数据管理

1.前言数据仓库中的数据是从许多业务处理系统中抽取、转换而来，对于这样一个复杂的企业数据环境，如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息，其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等，而且整个数据仓库系统的运行都是基于元数据的，是元数据把数据仓库系统中的各个松散的组件联系起来，组成了一个有机的整体。2.元数据 2.1 元数据的概念按照传统的定义，元数据（Metadata）是关于数据的数据。在数据仓库系统中，元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据；元数据是描述数据仓库内数据的结构和建立方法的数据，可将其按用途的不同分为两类：技术元数据（Technical Metadata）和业务元数据（Business Metadata）。技术元数据是存储关于数据仓库系统技术细节的数据，是用于开发和管理数据仓库使用的数据。

业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息：使用者的业务术语所表达的数据模型、对象名和属性名；访问数据的原则和数据的来源；系统所提供的分析方法以及公式和报表的信息。 2.2 元数据的作用在数据仓库系统中，元数据机制主要支持以下五类系统管理功能：（１）描述哪些数据在数据仓库中；（２）定义要进入数据仓库中的数据和从数据仓库中产生的数据；（３）记录根据业务事件发生而随之进行的数据抽取工作时间安排；（４）记录并检测系统数据一致性的要求和执行情况；（５）衡量数据质量。与其说数据仓库是软件开发项目，还不如说是系统集成项目[1]，因为它的主要工作是把所需的数据仓库工具集成在一起，完成数据的抽取、转换和加载，OLAP分析和数据挖掘等。 3.数据仓库元数据管理现状元数据管理的主要任务有两个方面：一是负责存储和维护元数据库中的元数据；二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递，协调各模

.数据分析篇——空间元数据

空间元数据库知识点一、知识点结构

二、知识点内容知识点（优先级）描述定位 1元数据编辑相关插件(A) 与元数据编辑相关的视图为元数据视图。与元数据编辑相关的插件有元数据编辑插件，加载之后的工具条为： ?元数据库列表框用于选择元数据库，如图所示：元数据库列表框； ?元数据集列表框用于选择元数据集，如图所示：元数据集列表框； ?样式表列表框用于选择样式表，如图所示：元数据显示样式表列表框； ?单击编辑按钮，可以实现对元数据的编辑，如图所示：编辑元数据按钮； ?单击创建按钮，可以实现对元数据的创建，如图所示：创建元数据按钮； ?单击导入按钮，可以导入元数据，如图所示：导入元数据按钮； ?单击导出按钮，可以导出元数据，如图所示：导出元数据按钮； ?单击元数据和空间数据的一致性检查按钮，可以浏览检查元数据和空间数据的一致性，如图所示：元数据和空间数据的一致性检查按钮； ?单击浏览附件按钮，可以浏览元数据附件，如图所示：浏览元数据附件按钮。 MapGIS7.x 数据管理篇.chm 25.2.2

2元数据创建(A)1、创建元数据库和元数据集在“元数据库”文件夹右键选择“创建”功能，输入元数据库的名称，如test。展开元数据库，找到test点击右键选择创建元数据集，输入元数据集名称。图1创建元数据库和元数据集 2、元数据的创建方法有多种，以下逐一介绍。（1）在元数据集上右键点击元数据导入，其具体的操作参见元数据的批量导入。（2）工具条上点击创建元数据按钮，如果当前选中的是“元数据库”，就会在元数据库文件夹下的第一个元数据库中的第一个元数据集中建立元数据；如果选中的是某个元数据库（如test），就会在该元数据库中的最先建的元数据集中建立元数据；如果选中的是某个元数据集（如meta），就会在该元数据集中建立元数据。（3）为地理实体建立元关系，在建立了元关系的元数据集上右键点击，选择同步元数据，则会在元数据列表中新建元数据，其具体的操作请参考创建同步和更新同步。 MapGIS7.x 数据管理篇.chm 25.2.1 3元数据浏览(A)在MapGisCatalog目录树中选中某个元数据集，将视图切换到元数据视图，在元数据视图中的元数据列表中会列出该元数据集下的所有元数据，选择某条元数据，在元数据视图中即会显示该条元数据的信息。可以从下拉列表中，选择已有的显示方式对该条元数据的显示方式进行更改。 MapGIS7.x 数据管理篇.chm 25.2.1

中国科学院科学数据库

项目编号：INF105-SDB-3 文档编号：P/SDBSP-1.1.1 版本：1.0 中国科学院科学数据库通用元数据管理工具用户使用手册中国科学院计算机网络信息中心科学数据库中心 2003 年9 月

目录 1引言 (1) 1.1编写目的 (1) 1.2背景 (1) 1.3技术支持 (1) 2功能 (2) 3运行环境 (3) 3.1硬件环境 (3) 3.2软件环境 (3) 4操作指南 (4) 4.1用户类型 (4) 4.2 用户登录 (5) 4.2.1系统管理员的登录 (5) 4.2.2单位管理员的登录 (7) 4.2.3一般用户的登录 (9) 4.3 用户密码管理 (11) 4.4 界面风格定制 (12) 4.4.1 添加元数据界面的设定 (12) 4.4.2 查询界面的设定 (13) 4.4.3 概要显示的设定 (13) 4.4.4 详细显示界面的设定 (13) 4.5 添加元数据 (15) 4.6 元数据记录修改 (15) 4.7 元数据记录删除 (16) 4.8 元数据查询 (18) 4.8.1 单位内元数据的查询 (18) 4.8.2 针对XML Schema跨单位的查询 (18) 4.8.3 查询方法 (19) 4.8.4查询结果的显示 (19) 4.9 出错处理和恢复 (21)

1引言 1.1编写目的感谢您选用《通用元数据管理工具》管理数据库数据集，为了使各建库单位能够准确、方便的使用《通用元数据管理工具》对科学数据库数据集进行元数据描述和管理，特编写了《通用元数据管理工具》用户手册。该手册适用于各建库单位具体负责元数据管理的数据库系统管理人员以及元数据录入人员。 1.2背景《通用元数据管理工具》是为了配合科学数据库元数据标准规范的推广应用而研发的基于xml schema的元数据管理专用工具，是科学数据库及其应用系统的研究成果之一。科学数据库及其应用系统是中国科学院多个研究所参加、跨学科联合建设的综合型重大项目，是中国科学院知识创新工程信息化建设重大专项之一，目标是在中国科学院全院范围内将研究所多年积累的科学数据资源组织起来，与计算机、数据库和网络等先进技术相结合，促进数据向知识的转化，完善信息化的科学研究环境，并对科研与社会提供科技数据资源共享与服务。科学数据库及其应用系统涉及到资源建设、规范建设和系统平台设计等多方面的技术、资源的发掘、研究、积累与应用。为了实现分布式的跨平台的数据资源共享，在科学数据库及其应用系统的研发和建立中，必须研究制定面向各个学科数据集的元数据标准。为此该项目设立了“标准规范研究子项目”，经过较长时间的研究，标准规范研究小组已经制定了以XML Schema描述的“中国科学院科学数据库核心元数据标准”以及多个面向具体学科数据集的元数据标准，为了更好的推广应用这些元数据标准，中国科学院计算机网络信息中心科学数据库中心研发了《通用元数据管理工具》。目前，该工具已在中国科学院计算机网络信息中心试用近半年，运行稳定。 1.3技术支持科学数据库中心：北京市海淀区中关村南四街4号中国科学院计算机网络信息中心科学数据库中心邮编：100080 电话：（8610）62580066 传真：（8610）62578544 Email: md@https://www.360docs.net/doc/4513776868.html, 网址：https://www.360docs.net/doc/4513776868.html,;https://www.360docs.net/doc/4513776868.html,

元数据管理方案

元数据管理方案 1.1元数据抽取为了简化元数据生成工作，系统提供自动生成元数据的功能，即元数据抽取。通过元数据自动抽取，用户可以方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象元数据抽取主要针对的对象有以下几种：已有目录：已建业务应用系统中现有的目录资源。数据库：各种数据库资源，包括关系型数据库、XML数据库等。格式化电子文件：电子文件，例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程元数据抽取的流程有4个主要步骤，分别为：数据源信息获取：解决要从哪个数据源获得元数据的问题。内容/结构分析：解决要从数据源中获得哪些元数据的问题。元数据提取：解决如何从数据源中获取元数据的问题。存储入库：解决元数据存储的问题。 1.1.3电子文档的元数据抽取对于电子文档，首先各部门的文档格式不尽相同，另外它们的安全级别也各不相同，同时由于信息化建设水平的不一致，有的部门文档分散在各处，有的部门文档是集中存放的，甚至已经建立了完善的电子系统进行管理。针对以上状况，对于电子文档的元数据抽取需要进行以下的抽取流程：整理归档对于分散在各处的电子文档(纸质文档需要先进行电子化处理)，必须由专人进行统

一整理，根据公开共享的前提进行集中，这种集中可以是物理上集中的，也可以是逻辑上集中的。但要满足以下原则，第一根据安全级别，便于外界访问；第二便于文档的增量发布；第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下，进行自动化采集才是切实可行的。在整理归档的时候，各部门根据各自情况进行归档，没有必要千篇一律，也没有必要制定繁琐和呆板的规则，只要能够满足以上的原则即可。 ●根据安全级别，建立相应的访问机制由于受到安全级别的限制，所以对于需要共享的数据要进行安全方面的限制，限制的手段可以有：用户名/密码、数字证书、物理隔断等等，根据实际情况建立安全访问机制，做到重要信息不泄露，不丢失。 ●编目处理现阶段，主流格式的电子文档，主要包含：word、excel、ppt、pdf等。对主流格式的电子文档，要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容，对于其它的元数据内容，要提供手工配置的方式进行辅助。另外，在工具的采集效率上，要提高增量文档发布后的采集效率。对于格式特殊、内容有加密算法的文档，是很难通过抓取工具进行采集的，这些文档主要通过手工编目的方式来处理。对于存在管理库的文档，就需要对数据库来进行编目采集，详见数据库元数据抽取部分。 ●保存元数据采集后的数据要放到数据库或者保存到硬盘上，另外要根据目录体系标准，把数据分解为元数据，然后进行存储 1.1.4数据库元数据抽取数据中心需要抽取的数据库类型主要为Sql server，首先利用ETL工具从源数据库中将所需数据抽取至中心数据库基础业务库中，在利用元数据著录工具对抽取出来的数据进行元数据著录。