正确使用PostgreSQL的数组类型

在Heap中，我们依靠PostgreSQL支撑大多数后端繁重的任务，我们存储每个事件为一个hstore blob，我们为每个跟踪的用户维护一个已完成事件的PostgreSQL数组，并将这些事件按时间排序。

AD：

在Heap中，我们依靠PostgreSQL支撑大多数后端繁重的任务，我们存储每个事件为一个hstoreblob，我们为每个跟踪的用户维护一个已完成事件的PostgreSQL数组，并将这些事件按时间排序。Hstore能够让我们以灵活的方式附加属性到事件中，而且事件数组赋予了我们强大的性能，特别是对于漏斗查询，在这些查询中我们计算不同转化渠道步骤间的输出。

在这篇文章中，我们看看那些意外接受大量输入的PostgreSQL函数，然后以高效，惯用的方式重写它。

你的第一反应可能是将PostgreSQL中的数组看做像C语言中对等的类似物。你之前可能用过变换阵列位置或切片来操纵数据。不过要小心，在PostgreSQL中不要有这样的想法，特别是数组类型是变长的时，比如JSON、文本或是hstore。如果你通过位置来访问PostgreSQL数组，你会进入一个意想不到的性能暴跌的境地。

这种情况几星期前在Heap出现了。我们在Heap为每个跟踪用户维护一个事件数组，在这个数组中我们用一个hstoredatum代表每个事件。我们有一个导入管道来追加新事件到对应的数组。为了使这一导入管道是幂等的，我高山茶 https://www.360docs.net/doc/141063576.html,们给每个事件设定一个event_id，我们通过一个功能函数重复运行我们的事件数组。如果我们要更新附加到事件的属性的话，我们只需使用相同的event_id转储一个新的事件到管道中。

所以，我们需要一个功能函数来处理hstores数组，并且，如果两个事件具有相同的event_id时应该使用数组中最近出现的那个。刚开始尝试这个函数是这样写的：

--Thisisslow,andyoudon'twanttouseit!----Filteranarrayofeventssuchthatthereisonlyoneeventwitheachev ent_id.--Whenmorethanoneeventwiththesameevent_idispresent,takethelatestone.CREATEORREPLA CEFUNCTIONdedupe_events_1(eventsHSTORE[])RETURNSHSTORE[]AS$$SELECTarray_agg(e vent)FROM(--Filterforrank=1,i.e.selectthelatesteventforanycollisionsonevent_id.SELECTeventFROM (--Rankelementswiththesameevent_idbypositioninthearray,descending.SELECTevents[sub]ASevent,s ub,rank()OVER(PARTITIONBY(events[sub]-

'event_id')::BIGINTORDERBYsubDESC)FROMgenerate_subscripts(events,1)ASsub)deduped_event sWHERErank=1ORDERBYsubASC)to_agg;$$LANGUAGESQLIMMUTABLE;

这样奏效，但大输入是性能下降了。这是二次的，在输入数组有100K各元素时它需要大约40秒！

这个查询在拥有 2.4GHz的i7CPU及16GB Ram的macbook pro上测得，运行脚本为：https:https://www.360docs.net/doc/141063576.html,drob9180760。

在这边究竟发生了什么呢? 关键在于PostgreSQL存贮水草玛瑙 https://www.360docs.net/doc/141063576.html,了一个系列的hstores 作为数组的值, 而不是指向值的指针. 一个包含了三个hstores的数组看起来像

{ event_id= 1,data= foo , event_id= 2,data= bar , event_id= 3,data= baz }

相反的是

{[pointer], [pointer], [pointer]}

对于那些长度不一的变量, 举个例子. hstores, json blobs, varchars,或者是text fields, PostgreSQL 必须去找到每一个变量的长度. 对于evaluateevents[2], PostgreSQL 解析从左侧读取的事件直到读取到第二次读取的数据. 然后就是forevents[3], 她再一次的从第一个索引处开始扫描,直到读到第三次的数据! 所以, evaluatingevents[sub]是O(sub), 并且evaluatingevents[sub]对于在数组中的每一个索引都是O(N2), N是数组的长度.

PostgreSQL能得到更加恰当的解析结果, 它可以在这样的情况下分析该数组一次. 真正的答案是可变长度的元素与指针来实现，以数组的值, 以至于,我们总能够处理evaluateevents[i]在不变

的时间内.

即便如此，我们也不应该让PostgreSQL来处理，因为这不是一个地道的查询。除了generate_subscripts我们可以用unnest，它解析数组并返回一组条目。这样一来，我们就不需要在数组中显式加入索引了。

--Filteranarrayofeventssuchthatthereisonlyoneeventwitheachevent_id.--Whenmorethanoneeventwithth esameevent_id,ispresent,takethelatestone.CREATEORREPLACEFUNCTIONdedupe_events_2(event sHSTORE[])RETURNSHSTORE[]AS$$SELECTarray_agg(event)FROM(--Filterforrank=1,i.e.selectt helatesteventforanycollisionsonevent_id.SELECTeventFROM(--Rankelementswiththesameevent_idby positioninthearray,descending.SELECTevent,row_numberASindex,rank()OVER(PARTITIONBY(eve nt-

'event_id')::BIGINTORDERBYrow_numberDESC)FROM(--Useunnestinsteadofgenerate_subscriptst oturnanarrayintoaset.SELECTevent,row_number()OVER(ORDERBYevent-

'time')FROMunnest(events)ASevent)unnested_data)deduped_eventsWHERErank=1ORDERBYindex ASC)to_agg;$$LANGUAGESQLIMMUTABLE;

结果是有效的，它花费的时间跟输入数组的大小呈线性关系。对于100K个元素的输入它需要大约半秒，而之前的实现需要40秒。

这实现了我们的需求：

一次解析数组，不需要unnest。

按event_id划分。

对每个event_id采用最新出现的。

按输入索引排序。

教训：如果你需要访问PostgreSQL数组的特定位置，考虑使用unnest代替。

我们希望能够避免失误。有任何意见或其他PostgreSQL的秘诀请@heap。

[1]特别说明一下，我们使用一个名为Citus Data的贴心工具。更多内容在另一篇博客中！

[2]参考：https:https://www.360docs.net/doc/141063576.html,featuresfunnels。特别说明一下，计算转换程序需要对用户已完成事件的数组进行一次扫描，但不需要任何join。

原文链接：dont-iterate-over-a-postgres-array-with-a-loop

译文链接：translatedont-iterate-over-a-postgres-array-with-a-loop【编辑推荐】有趣的JavaScript 原生数组函数Python之父：为什么Python数组下标从0开始PostgreSQL的最佳特性你用了吗？【责任编辑：陈四芳TEL：（010）68476606】

Java程序设计专家门诊

精选目前国内外最流行的程序设计语言——Java作为本书的选题，并以丰富的内容来解决读者学习该语言时可能遇到的各种问题。以专业

PostgreSQL安装和简单使用

PostgreSQL安装和简单使用 PostgreSQL安装和简单使用作者：小P 来自：https://www.360docs.net/doc/141063576.html, 摘要：PostgreSQL是现在比较流行的数据库之一，这个起源于伯克利（BSD）的数据库研究计划目前已经衍生成一项国际开发项目，并且有非常广泛的用户。据我了解国内四大国产数据库，其中三个都是基于PostgreSQL开发的。并且，因为许可证的灵活，任何人都可以以任何目的免费使用，修改，和分发PostgreSQL，不管是私用，商用，还是学术研究使用。本文只是简单介绍一下postgresql的安装和简单的使用，语法方面涉及的比较少，以方便新手上路为目的。目录1.系统环境及安装方法；1.1 系统环境； 1.2 安装； 2.启动PostgreSQL 数据库服务器；2.1 在流行Linux发行版的启动方法； 2.2 关于PostgreSQL启动和存储目录； 3.创建用户；3.1 添加用户; 3.1.1 不带参数的创建用户; 3.1.2 为指定的主机和端口上创建用户; 3.1.3创建超级用户; 3.2 删除用户：3.2.1 删除本地的Postgres用户;

3.2.2 删除远程Postgres服务器上的用户; 4. 创建和删除数据库；4.1创建数据库 4.2 删除数据库 5.访问数据库5.1 激活数据库 5.2 帮助和退出数据库 6. Postgresql图形化管理工具pgAdmin3 ;6.1 安装;6.1.1 Ubuntu安装; 6.1.2 其它系统的安装;6.2 pgAdmin3的简单使用;6.2.1 pgAdmin3的启动; 6.2.2 连接已创建的数据库mydb ; 7. 创建和删除表;7.1 创建新表; 7.2 数据类型; 7.3 删除表;8. 向表中添加行;8.1 INSERT; 8.2 point类型输入; 8.3 COPY;9. 查询一个表;9.1 SELECT; 9.2 WHERE; 9.3 排序;10. 视图; 11. 更新行; 12. 删除行; 13. 关于本文； 14. 更新日志； 15. 参考文档； 16. 相关文档； +++++++++++++++++++++++++++++++++++++++++++

监视并记录Apache网站服务器的运行

监视并记录Apache网站服务器的运行 LogFormat 指令承诺你告诉Apache你想要记录要求的哪些方面。而你仍需附加的指令来告诉Apache在哪里记录那些信息，这在下一章中将会介绍。下面的例子显示了两种最受欢迎的格式的配置：一般日志格式和整合日志格式。当Apache收到一个要求，他将会用相应的要求属性来替代以%为前缀的每一个域。假如您正在使用一般日志格式，您的日志文件里尽管有附件提供日志格式的详尽索引，下表描述了一些最为重要的域： # %h: 客户端（例如，扫瞄器）向服务器发出连接要求时自己的当时的IP地址或域名(需开启HostNameLookups)。 # %u: 使用方式认证用户时，记录下的用户的编号。 # %t: 服务器同意到连接要求的时刻。 # %r: 客户端发出的原始连接要求中的文本信息，包含所使用的方法。 # %>s: 服务器应答扫瞄器后的返回状态代码，200表示要求成功。. # %b: 服务器应答扫瞄器发出的单个要求的回传对象的内容大小（字节为单位），不统计数据包头部字节。整合日志格式在一般日志格式的基础上扩展出了两个附加的域。定义为： # %{Referer}i: 连接要求数据包包头，包含指向当前页面的文档关联信息。 # %{User-agent}i: 用户代理连接要求数据包包头，包含客户扫瞄器的信息。创建一个自定义日志文件您可能会想创建Apache自带以外的新的日志文件。下面的例子将运用CustomLog来创建一个新的日志文件，并储存由一个之前定义好的日志格式，即前一章提到的common，所定义的信息。您还能够用格式本身的定义来替换昵称。一个附加的，更为简单的指令是Transferlog，它只同意最后一个LogFormat指令提供的定义。

OB开发手册中文版

Contents [hide]1 简介 ? 1 简介 ? 1.1 开发概述 ? 1.2 开发方法 ? 1.3 组织开发工作 ? 1.4 标识符命名标准 ? 1.4.1 数据库元素 ? 1.4.2 MVC目录 ? 1.4.3 存储过程语法 ? 1.5 目录结构 ? 1.6 风格指南 ? 1.6.1 逻辑比较 ? 1.6.2 逗号分隔列表 ? 1.6.3 圆括号中的空格 ? 1.6.4 SELECT INTO和INSERT INTO ? 1.6.5 SQL关键字 ? 1.7 编译程序 ? 1.7.1 命令行编译任务 ? 1.7.2 开发环境 ? 1.7.3 生产环境 ? 1.8 从源代码构建 ? 1.8.1 安装Subversion ? 1.8.2 从Subversion中检出源代码 ? 1.8.3 快速构建指南 ? 1.9 集成开发环境 ? 2 Openbravo数据模型 ? 2.1 存储的数据库对象 ? 2.2 实体-关系(ER)图 ? 2.3 创建存储过程 ? 2.3.1 AD_PInstance和AD_PInstance_Para表 ? 2.3.2 存储过程的输入参数 ? 2.3.2.1 从AD_PInstance表中获取有用的信息 ? 2.3.2.2 AD_Update_PInstance存储过程 ? 2.3.2.3 例外和错误管理 ? 2.4 存储过程语法的建议 ? 2.4.1 通用规则 ? 2.4.1.1 游标 ? 2.4.1.2 数组 ? 2.4.1.3 ROWNUM ? 2.4.1.4 %ROWCOUNT ? 2.4.1.5 %ISOPEN,%NOTFOUND ? 2.4.2 表 ? 2.4.3 函数 ? 2.4.4 存储过程

PostgreSQL数据库使用pg_dump—psql 转储数据库

使用pg_dump/psql转储数据库 pg_dump/psql应用程序在pg安装目录的bin目录下。只要在安装pg数据库的服务器上，且能够连通远程pg数据库，都可以实现数据导出。一、pg_dump导出 pg_dump –h hostname –U name –p port –d database –f “file_name” -h: 数据库服务器地址 -U: 大写的U，用户名 -p: 端口号 -d: 数据库名 -f: 存储的文件路径和名称 pg_dump -h 110.84.129.40 -U postgres -p 3306 -d O2O -f "/home/wsxcde/database_file/O2O_bak_140430.dmp" 回城执行，会要求输入密码，正确，即可导出，没有进度条远程导出300M的文件，大概时间10分钟。以上命令是导出数据的全部对象，包括数据，对象（index，table，sequence，function等），但不包括blob的大对象，如果要导出大对象，要加上“-b”。二、psql数据导入 psql –h localhost –U postgres –d new_db –f "xxx.dmp" -h: 数据库服务器地址，如果导入本机，直接使用localhost -U:大写的U，被导入数据库的用户名 -d: 数据库名，想导入的数据库，导入前请检查此数据库是否存在，不存在会报错 -f: 备份文件dmp的来源 psql–h localhost –U postgres –d O2O –f "/home/wsxcde/database_file/O2O_bak_140430.dmp" 300M的文件，导入时间不大约10多秒。

PostgreSQL学习手册

tgreSQL学习手册(五) 函数和操作符阿里云携手开源中国众包平台发布百万悬赏项目? 一、逻辑操作符：常用的逻辑操作符有：AND、OR和NOT。其语义与其它编程语言中的逻辑操作符完全相同。二、比较操作符：下面是PostgreSQL中提供的比较操作符列表：操作符描述 <小于 >大于 <=小于或等于 >=大于或等于 =等于 !=不等于比较操作符可以用于所有可以比较的数据类型。所有比较操作符都是双目操作符，且返回boolean类型。除了比较操作符以外，我们还可以使用BETWEEN语句，如： a BETWEEN x AND y 等效于 a >= x AND a <= y a NOT BETWEEN x AND y 等效于 a < x OR a > y 三、数学函数和操作符：下面是PostgreSQL中提供的数学操作符列表：操作符描述例子结果 +加 2 + 35 -减 2 - 3-1 *乘 2 * 36 /除 4 / 22 %模 5 % 41 ^幂 2.0 ^ 3.08 |/平方根|/ 25.05 ||/立方根||/ 27.03 !阶乘 5 !120 !!阶乘!! 5120 @绝对值@ -5.05 &按位AND91 & 1511 |按位OR32 | 335

#按位XOR17 # 520 ~按位NOT~1-2 <<按位左移 1 << 416 >>按位右移8 >> 22 按位操作符只能用于整数类型，而其它的操作符可以用于全部数值数据类型。按位操作符还可以用于位串类型bit和bit varying，下面是PostgreSQL中提供的数学函数列表，需要说明的是，这些函数中有许多都存在多种形式，区别只是参数类型不同。除非特别指明，任何特定形式的函数都返回和它的参数相同的数据类型。函数返回类型描述例子结果 abs(x)绝对值abs(-17.4)17.4 cbrt(double)立方根cbrt(27.0)3 ceil(double/numeric)不小于参数的最小的整数 ceil(-42.8)-42 degrees(double) 把弧度转为角度degrees(0.5)28.6478897565412 exp(double/numeric)自然指数exp(1.0) 2.71828182845905 floor(double/numeric)不大于参数的最大整数floor(-42.8)-43 ln(double/numeric)自然对数ln(2.0)0.693147180559945 log(double/numeric)10为底的对数log(100.0)2 log(b numeric,x numeric)numeric指定底数的对数 log(2.0, 64.0) 6.0000000000 mod(y, x)取余数mod(9,4)1 pi() double"π"常量pi() 3.14159265358979 power(a double, b double)double求a的b次幂power(9.0, 3.0)729 power(a numeric, b numeric) numeric求a的b次幂power(9.0, 3.0)729 radians(double)double把角度转为弧度radians(45.0)0.785398163397448 random()double 0.0到1.0之间的随机数值 random() round(double/numeric)圆整为最接近的整数round(42.4)42 round(v numeric, s int)numeric圆整为s位小数数字round(42.438,2)42.44 sign(double/numeric)参数的符号(-1,0,+1) sign(-8.4)-1 sqrt(double/numeric)平方根sqrt(2.0) 1.4142135623731 trunc(double/numeric)截断(向零靠近)trunc(42.8)42 trunc(v numeric, s int)numeric 截断为s小数位置的数字 trunc(42.438,2)42.43 三角函数列表：函数描述 acos(x)反余弦

PostgreSQL+Linux 从入门到精通培训文档 2命令

本章大纲 1. 如何访问命令行 2. 使用命令行下的工具非编辑模式进入编辑模式 3. 正则表达式、管道和I/O 重定向 4. 管理用户账户 5. 文件访问控制 6. 管理进程 1，如何访问命令行 1.1 本地命令行的访问在图形界面中，访问命令行的方法：打开Terminal，Console。或者：Ctrl+Alt+F1 ~ F6 1.2 使用SSH 访问命令行同上 2，使用命令行下的工具 2.1 使用硬链接

硬链接，指在同一个文件系统中，对inode的引用，只要文件上存在至少1个硬链接，就可以找到对应的inode。 [digoal@digoal01 ~]$ echo "abc" > ./a [digoal@digoal01 ~]$ stat a File: `a' Size: 4 Blocks: 8 IO Block: 4096 regular file Device: 803h/2051d Inode: 656374 Links: 1 -- 硬链接数量 Access: (0664/-rw-rw-r--) Uid: ( 500/ digoal) Gid: ( 500/ digoal) Access: 2017-04-11 13:18:14.292848716 +0800 Modify: 2017-04-11 13:18:14.292848716 +0800 Change: 2017-04-11 13:18:14.292848716 +0800 创建硬链接 [digoal@digoal01 ~]$ ln -L ./a ./b [digoal@digoal01 ~]$ stat a File: `a' Size: 4 Blocks: 8 IO Block: 4096 regular file Device: 803h/2051d Inode: 656374 Links: 2 Access: (0664/-rw-rw-r--) Uid: ( 500/ digoal) Gid: ( 500/ digoal) Access: 2017-04-11 13:18:14.292848716 +0800 Modify: 2017-04-11 13:18:14.292848716 +0800 Change: 2017-04-11 13:18:34.631855044 +0800 [digoal@digoal01 ~]$ stat b File: `b' Size: 4 Blocks: 8 IO Block: 4096 regular file Device: 803h/2051d Inode: 656374 Links: 2 Access: (0664/-rw-rw-r--) Uid: ( 500/ digoal) Gid: ( 500/ digoal) Access: 2017-04-11 13:18:14.292848716 +0800 Modify: 2017-04-11 13:18:14.292848716 +0800 Change: 2017-04-11 13:18:34.631855044 +0800 删除一个硬链接，还能通过其他硬链接找到对应的inode。 [digoal@digoal01 ~]$ rm a rm: remove regular file `a'? y [digoal@digoal01 ~]$ cat b abc 2.2 归档和解压常用的归档命令tar 归档-c (常用压缩库-j bz2, -z gzip) [digoal@digoal01 ~]$ tar -jcvf test.tar.bz2 b

PostgreSQL学习手册(PLpgSQL过程语言)

一、概述： PL/pgSQL函数在第一次被调用时，其函数内的源代码(文本)将被解析为二进制指令树，但是函数内的表达式和SQL命令只有在首次用到它们的时候，PL/pgSQL解释器才会为其创建一个准备好的执行规划，随后对该表达式或SQL命令的访问都将使用该规划。如果在一个条件语句中，有部分SQL命令或表达式没有被用到，那么PL/pgSQL解释器在本次调用中将不会为其准备执行规划，这样的好处是可以有效地减少为PL/pgSQL函数里的语句生成分析和执行规划的总时间，然而缺点是某些表达式或SQL命令中的错误只有在其被执行到的时候才能发现。由于PL/pgSQL在函数里为一个命令制定了执行计划，那么在本次会话中该计划将会被反复使用，这样做往往可以得到更好的性能，但是如果你动态修改了相关的数据库对象，那么就有可能产生问题，如： CREATE FUNCTION populate() RETURNS integer AS $$ DECLARE -- 声明段 BEGIN PERFORM my_function(); END; $$ LANGUAGE plpgsql; 在调用以上函数时，PERFORM语句的执行计划将引用my_function对象的OID。在此之后，如果你重建了my_function函数，那么populate函数将无法再找到原有my_function函数的OID。要解决该问题，可以选择重建populate函数，https://www.360docs.net/doc/141063576.html,或者重新登录建立新的会话，以使PostgreSQL重新编译该函数。要想规避此类问题的发生，在重建my_function时可以使用CREATE OR REPLACE FUNCTION命令。鉴于以上规则，在PL/pgSQL里直接出现的SQL命令必须在每次执行时均引用相同的表和字段，换句话说，不能将函数的参数用作SQL命令的表名或字段名。如果想绕开该限制，可以考虑使用PL/pgSQL 中的EXECUTE语句动态地构造命令，由此换来的代价是每次执行时都要构造一个新的命令计划。使用PL/pgSQL函数的一个非常重要的优势是可以提高程序的执行效率，由于原有的SQL调用不得不在客户端与服务器之间反复传递数据，这样不仅增加了进程间通讯所产生的开销，而且也会大大增加网络IO的开销。二、PL/pgSQL的结构： PL/pgSQL是一种块结构语言，函数定义的所有文本都必须在一个块内，其中块中的每个声明和每条语句都是以分号结束，如果某一子块在另外一个块内，那么该子块的END关键字后面必须以分号结束，不过对于函数体的最后一个END关键字，分号可以省略，如： [ <> ] [ DECLARE declarations ] BEGIN statements END [ label ]; 在PL/pgSQL中有两种注释类型，双破折号(--)表示单行注释。/* */表示多行注释，该注释类型的规则等同于C语言中的多行注释。在语句块前面的声明段中定义的变量在每次进入语句块(BEGIN)时都会将声明的变量初始化为它们的

PostgreSQL详解

PostgreSQL数据库一:PostgreSQL介绍 1、PostgreSQL就是以加州大学伯克利分校计算机系开发得 POSTGRES,现在已经更名为POSTGRES,版本 4、2为基础得对象关系型数据库管理系统(ORDBMS)。PostgreSQL支持大部分 SQL标准并且提供了许多其她现代特性:复杂查询、外键、触发器、视图、事务完整性、MVCC。同样,PostgreSQL 可以用许多方法扩展,比如, 通过增加新得数据类型、函数、操作符、聚集函数、索引方法、过程语言。并且,因为许可证得灵活,任何人都可以以任何目得免费使用、修改、与分发PostgreSQL,不管就是私用、商用、还就是学术研究使用。 2、PostgreSQL图标 3.PostgreSQL优点有目前世界上最丰富得数据类型得支持支持,其中有些数据类型可以说连商业数据库都不具备,具体类型下文会说明、 PostgreSQL拥有一支非常活跃得开发队伍,而且在许多黑客得努力下,PostgreSQL 得质量日益提高 PostgreSQL 对接口得支持也就是非常丰富得,几乎支持所有类型得数据库客户端接口。这一点也可以说就是 PostgreSQL 一大优点。 4.PostgreSQL缺点首先,早期得 PostgreSQL 继承了几乎所有 Ingres, Postgres, Postgres95 得问题:过于学院味,因为首先它得目得就是数据库研究,因此不论在稳定性, 性能还就是使用方方面面,长期以来一直没有得到重视,直到 PostgreSQL 项目开始以后,情况才越来越好,PostgreSQL 已经完全可以胜任任何中上规模范围内得应用范围得业务其次,PostgreSQL 得确还欠缺一些比较高端得数据库管理系统需要得特性,比如数据库集群,更优良得管理工具与更加自动化得系统优化功能等提高数据库性能得机制等。 5.目前官方最新版本:9、3、2 二、windows下安装过程 1、开始安装:

PostgreSql 基础知识

PostgreSql 常见数据类型 1.CREATE TYPE命令增加新的数据类型 2.数据类型

3.数值类型 3. 整数类型 smallint, integer, bigint 类型存储各种范围的全部是数字的数，也就是没有小数部分的数字。试图存储超出范围以外的数值将导致一个错误。常用的类型是 integer ，因为它提供了在范围、存储空间、性能之间的最佳平衡。一般只有在磁盘空间紧张的时候才使用 smallint 。而只有在 integer 的范围不够的时候才使用 bigint ，因为前者绝对快得多。 bigint 类型可能不是在所有平台上都运转正确，因为它依赖编译器对八字节整数的支持。在那些没有八字节整数支持的机器上，bigint 的作用和 integer 一样(但是仍然占据八字节存储)。不过，我们目前还没听说过有这样的平台。 SQL 只声明了整数类型 integer(或 int) 和 smallint 。类型 bigint 和类型别名 int2, int4, int8 都是扩展，并且也在许多其它 SQL 数据库系统中使用。 4.任意精度数值 numeric 类型可以存储最多 1000 位精度的数字并且准确地进行计算。特别建议将它用于货币金额和其它要求精确计算的场合。不过，numeric 类型上的算术运算比整数类型要慢很多。术语：一个 numeric 类型的标度(scale)是小数部分的位数，精度(precision)是全部数据位的数目，也就是小数点两边的位数总和。因此数字 23.5141 的精度为 6 而标度为 4 。你可以认为整数的标度为零。 numeric 字段的最大精度和最大标度都是可以配置的。要声明一个字段的类型为 numeric ，你可以用下面的语法： NUMERIC(precision, scale) 精度必须为正数，标度可以为零或者正数。另外， NUMERIC(precision) 选择了标度为 0 。不带任何精度与标度的声明 NUMERIC 则创建一个可以存储一个直到实现精度上限的任意精度和标度的数值，一个这样类型的字段将不会把输

PostgreSQL数据库安装教程

PostgreSQL数据库安装教程（仅供参考）最新更新：2014年08月27日深圳市恩布网络科技有限公司（内部技术文档）

目录 1. Linux安装PostgreSQL数据库 (3) 1.1. 概述 (3) 1.2. 新建postgres用户和目录 (3) 1.3. 配置postgres用户的环境变量： (3) 1.4. yum安装 (3) 1.5. 初始化数据库目录 (3) 1.6. 给postgres赋予权限 (4) 1.7. 配置监听地址、端口 (4) 1.8. 配置支持远程连接 (4) 1.9. 设置开机启动 (4) 1.10. 启动服务 (4) 1.11. 修改postgres帐号密码 (4) 2. Windows安装PostgreSQL数据库 (5) 2.1. 概述 (5) 2.2. 安装 (5) 2.3. 配置监听地址、端口 (5) 2.4. 配置支持远程连接 (5) 3. 注意事项 (6) 4. 附录一：PostgreSQL数据库介绍 (6) 5. 附录二：PostgreSQL与MySQL比较 (6)

1.Linux安装PostgreSQL数据库 1.1.概述以CentOS 6.4（或以上）X64（64位）版本，PostgreSQL8.4为例子说明。本文仅供参考，如果安装不成功，或需要更多PostgreSQL技术资料，请自行上网搜索； 1.2.新建postgres用户和目录 mkdir /var/lib/pgsql groupadd postgres useradd ‐g postgres postgres 1.3.配置postgres用户的环境变量： cat >>/var/lib/pgsql/.bash_profile<

odbc安装文档

Linux/Unix下ODBC的安装方法一：先下载最新的unixODBC源码包（https://www.360docs.net/doc/141063576.html,/unixODBC-2.2.1.tar.gz）放到/usr/local下，然后运行下述命令：安装成功后，unixODBC所需的头文件都被安装到了/usr/inlucde下，编译好的库文件安装到了/usr/lib下，与unixODBC相关的可执行文件安装到了/usr/bin下，配置文件放到了/etc下。方法二：下载rpm包进行安装，我们这里以Red Hat 7.3为例： unixODBC-2.2.0-5 RPM for i386（安装包及源码包）（ftp://https://www.360docs.net/doc/141063576.html,/linux/redhat/7.3/en/os/i386/RedHat/RPMS/unixODBC-2 .2.0-5.i386.rpm、 ftp://https://www.360docs.net/doc/141063576.html,/linux/redhat/7.3/en/os/i386/SRPMS/unixODBC-2.2.0-5.src.rpm）unixODBC-devel-2.2.0-5 RPM for i386 （ftp://https://www.360docs.net/doc/141063576.html,/linux/redhat/7.3/en/os/i386/RedHat/RPMS/unixODBC-d evel-2.2.0-5.i386.rpm）直接将unixODBC-2.2.0-5.i386.rpm和unixODBC-devel-2.2.0-5.i386.rpm装入系统就可以了，命令如下：

Linux/Unix下ODBC的配置运行ODBCConfig程序（在/usr/bin下），如下图：图一：ODBCConfig主窗口和Windows下的ODBC设置窗口是不是很像？我想大家都能看懂吧。第一步：安装数据库的ODBC驱动程序 Drivers这一栏中用来设置数据库的驱动程序，点击Add按钮，会出现下图：

PostgreSQL学习手册：SQL语言函数

PostgreSQL学习手册：SQL语言函数一、基本概念： SQL函数可以包含任意数量的查询，但是函数只返回最后一个查询(必须是SELECT)的结果。在简单情况下，返回最后一条查询结果的第一行。如果最后一个查询不返回任何行，那么该函数将返回NULL值。如果需要该函数返回最后一条SELECT语句的所有行，可以将函数的返回值定义为集合，即SETOF sometype。 SQL函数的函数体应该是用分号分隔的SQL语句列表，其中最后一条语句之后的分号是可选的。除非函数声明为返回void，否则最后一条语句必须是SELECT。事实上，在SQL函数中，不仅可以包含SELECT查询语句，也可以包含INSERT、UPDATE和DELETE等其他标准的SQL 语句，但是和事物相关的语句不能包含其中，如BEGIN、COMMIT、ROLLBACK和SAVEPOINT 等。 CREATE FUNCTION命令的语法要求函数体写成一个字符串文本。通常来说，该文本字符串常量使用美元符($$)围住，如： CREATE FUNCTION clean_emp() RETURNS void AS $$ DELETE FROM emp WHERE salary < 0; $$ LANGUAGE SQL; 最后需要说明的是SQL函数中的参数，PostgreSQL定义$1表示第一个参数，$2为第二个参数并以此类推。如果参数是复合类型，则可以使用点表示法，即$https://www.360docs.net/doc/141063576.html,访问复合类型参数中的name字段。需要注意的是函数参数只能用作数据值，而不能用于标识符，如：INSERT INTO mytable VALUES ($1); --合法 INSERT INTO $1 VALUES (42); --不合法(表名属于标示符之一) 二、基本类型：最简单的SQL函数可能就是没有参数且返回基本类型的函数了，如： CREATE FUNCTION one() RETURNS integer AS $$ SELECT 1 AS result; $$ LANGUAGE SQL; 下面的例子声明了基本类型作为函数的参数。 CREATE FUNCTION add_em(integer, integer) RETURNS integer AS $$ SELECT $1 + $2; $$ LANGUAGE SQL; # 通过select调用函数。 postgres=# SELECT add_em(1,2) AS answer; answer -------- 3 (1 row) 在下面的例子中，函数体内包含多个SQL语句，它们之间是用分号进行分隔的。CREATE FUNCTION tf1 (integer, numeric) RETURNS numeric AS $$ UPDATE bank SET balance = balance - $2 WHERE accountno = $1; SELECT balance FROM bank WHERE accountno = $1; $$ LANGUAGE SQL;

psql常用命令大全

psql常用命令大全 \d [ table ] 列出数据库中的表，或（如果声明了）表table 的列/字段．如果表名是用统配符（“*”）声明的，列出所有表和表的列/字段信息． \da 列出所有可用聚集． \dd object 列出pg_description 里对声明的对象的描述，对象可以是一个表，表中的列/字段，类型，操作符或聚集．小技巧：并非所有对象在pg_description 里有描述．此后期命令在快速获取Postgres 内部特性时很有用． \df 列出函数． \di 只列出索引． \do 只列出操作符． \ds 只列出序列． \dS 列出系统表和索引． \dt 只列出非系统表． \dT 列出类型． \e [ filename ] 编辑当前查询缓冲或文件filename 的内容． \E [ filename ] 编辑当前查询缓冲或文件filename 的内容并且在编辑结束后执行之． \f [ separator ] 设置域分隔符．缺省是单个空白． \g [ { filename | |command } ] 将当前查询输入缓冲送给后端并且（可选的）将输出放到filename 或通过管道将输出送给一个分离的Unix shell 用以执行command． \h [ command ] 给出声明的SQL 命令的语法帮助．如果command 不是一个定义的SQL 命令（或在psql 里没有文档），或没有声明command ，这时psql将列出可获得帮助的所有命令的列表．如果命令command 是一个通配符（“*”），则给出所有SQL 命令的语法帮助． \H 切换HTML3 输出．等效于-H 命令行选项． \i filename 从文件filename 中读取查询到输入缓冲．

MySQL和PostgreSQL两数据库的对决

MySQL和PostgreSQL两数据库的对决在这篇文章中，我们选用MySQL4.0.2-alpha与PostgreSQL7.2进行比较，因为MySQL4.0.2-alpha开始支持事务的概念，因此这样的比较对于MySQL应该较为有利。我们这样的比较不想仅仅成为一份性能测试报告，因为至少从我个人来看，对于一个数据库，稳定性和速度并不能代表一切。对于一个成熟的数据库，稳定性肯定会日益提供。而随着硬件性能的飞速提高，速度也不再是什么太大的问题。一、前言前一段时间，我曾经翻译过一篇将你的网站从MySQL改为PostgreSQL，其实当初我更感兴趣的是一个应用程序的后台数据库从MySQL转为PostgreSQL的具体操作，并没有关心MySQL和PostgreSQL的优劣，没想到反应出乎意料的大，因此我也就觉得有写这篇文章的必要了。在这篇文章中，我们选用MySQL4.0.2-alpha与PostgreSQL7.2进行比较，因为MySQL4.0.2-alpha开始支持事务的概念，因此这样的比较对于MySQL应该较为有利。我们这样的比较不想仅仅成为一份性能测试报告，因为至少从我个人来看，对于一个数据库，稳定性和速度并不能代表一切。对于一个成熟的数据库，稳定性肯定会日益提供。而随着硬件性能的飞速提高，速度也不再是什么太大的问题。二、两者的共同优势这两个产品都属于开放源码的一员，性能和功能都在高速地提高和增强。MySQLAB的人们和PostgreSQL的开发者们都在尽可能地把各自的数据库改得越来越好，所以对于任何商业数据库使用其中的任何一个都不能算是错误的选择。三、两者不同的背景 MySQL的背后是一个成熟的商业公司，而PostgreSQL的背后是一个庞大的志愿开发组。这使得MySQL的开发过程更为慎重，而PostgreSQL的反应更为迅速。这样的两种背景直接导致了各自固有的优点和缺点。四、MySQL的主要优点 1、首先是速度，MySQL通常要比PostgreSQL快得多。MySQL自已也宣称速度是他们追求的主要目标之一，基于这个原因，MySQL在以前的文档中也曾经说过并不准备支持事务和触发器。但是在最新的文档中，我们看到MySQL4.0.2-alpha已经开始支持事务，而且在MySQL的TODO中，对触发器、约束这样的注定会降低速度的功能也列入了日程。但是，我们仍然有理由相信，

GP 常用数据库命令

Greenplum 日常简明维护手册 1.数据库启动：gpstart 常用参数：-a : 直接启动，不提示终端用户输入确认 -m:只启动master 实例，主要在故障处理时使用访问单个数据实例： PGOPTIONS='-c gp_session_role=utility' psql template1 -p 5432 启动某个segment instance ：pg_ctl stop/start -D /datadir/ 取端口号： select * from gp_segment_configuration 启动以后会在/tmp/ 下生成一个.lock 隐藏文件，记录主进程号。

2.数据库停止：gpstop：常用可选参数：-a：直接停止，不提示终端用户输入确认 -m：只停止master 实例，与gpstart –m 对应使用 -f：停止数据库，中断所有数据库连接，回滚正在运行的事务 -u：不停止数据库，只加载pg_hba.conf 和postgresql.conf中运行时参数，当改动参数配置时候使用。连接数，重启 3.查看实例配置和状态 select * from gp_segment_configuration order by content ; select * from pg_filespace_entry ; 主要字段说明： Content：该字段相等的两个实例，是一对Ｐ（primary instance）和Ｍ（mirror Instance) Isprimary：实例是否作为primary instance 运行 Valid：实例是否有效，如处于false 状态，则说明该实例已经down 掉。 Port：实例运行的端口 Datadir:实例对应的数据目录 4.gpstate ：显示Greenplum数据库运行状态，详细配置等信息常用可选参数：-c：primary instance 和mirror instance 的对应关系 -m：只列出mirror 实例的状态和配置信息 -f：显示standby master 的详细信息该命令默认列出数据库运行状态汇总信息，常用于日常巡检。 5.查看用户会话和提交的查询等信息 select * from pg_stat_activity该表能查看到当前数据库连接的IP 地址，用户

Sqoop官方中文手册

Sqoop中文手册 1. 概述本文档主要对SQOOP的使用进行了说明，参考内容主要来自于Cloudera SQOOP的官方文档。为了用中文更清楚明白地描述各参数的使用含义，本文档几乎所有参数使用说明都经过了我的实际验证而得到。 2. codegen 将关系数据库表映射为一个java文件、java class类、以及相关的jar包， 1、将数据库表映射为一个Java文件，在该Java文件中对应有表的各个字段。 2、生成的Jar和class文件在metastore功能使用时会用到。基础语句： sqoop codegen –connect jdbc:mysql://localhost:3306/hive –username root –password 123456 –table TBLS2

3. create-hive-table 生成与关系数据库表的表结构对应的HIVE表基础语句： sqoop create-hive-table –connect jdbc:mysql://localhost:3306/hive -username root -password 123456 –table TBLS –hive-table h_tbls2 4. eval

可以快速地使用SQL语句对关系数据库进行操作，这可以使得在使用import这种工具进行数据导入的时候，可以预先了解相关的SQL语句是否正确，并能将结果显示在控制台。查询示例： sqoop eval –connect jdbc:mysql://localhost:3306/hive -username root -password 123456 -query ―SELECT * FROM tbls LIMIT 10″ 数据插入示例： sqoop eval –connect jdbc:mysql://localhost:3306/hive -username root -password 123456 -e ―INSERT INTO TBLS2 VALUES(100,1375170308,1,0,‘hadoop‘,0,1,‘guest‘,‘MANAGED_TABLE‘,‘abc‘,‘ddd‘)‖ -e、-query这两个参数经过测试，比如后面分别接查询和插入SQL语句，皆可运行无误，如上。 5. export 从hdfs中导数据到关系数据库中 sqoop export –connect jdbc:mysql://localhost:3306/hive –username root –password 123456 –table TBLS2 –export-dir sqoop/test

Postgresql存储过程

用PL/pgSQL写postgreSQL的存储过程一、存储过程结构： Create or replace function 过程名(参数名参数类型,…..) returns 返回值类型as $body$ //声明变量 Declare 变量名变量类型；如： flag Boolean; 变量赋值方式（变量名类型：=值；）如： Str text :=值; / str text; str :=值； Begin 函数体； End; $body$ Language plpgsql; 二、变量类型：除了postgresql内置的变量类型外，常用的还有 RECORD ，表示一条记录三、连接字符： Postgresql存储过程中的连接字符不再是“+”,而是使用“||”。四、控制结构： 1、if 条件（五种形式） IF ... THEN IF ... THEN ... ELSE IF ... THEN ... ELSE IF IF ... THEN ... ELSIF ... THEN ... ELSE IF ... THEN ... ELSEIF ... THEN ... ELSE（注：ELSEIF 是 ELSIF 的别名）

2、循环使用LOOP，EXIT，CONTINUE，WHILE，和 FOR 语句，可以控制PL/pgSQL 函数重复一系列命令。 1）、LOOP [ <> ] LOOP statements END LOOP [ label ]; LOOP 定义一个无条件的循环，无限循环，直到由EXIT或者RETURN语句终止。可选的label可以由 EXIT 和 CONTINUE 语句使用，用于在嵌套循环中声明应该应用于哪一层循环。 2）、EXIT EXIT [ label ] [ WHEN expression ]; 如果没有给出label，那么退出最内层的循环，然后执行跟在 END LOOP 后面的语句。如果给出label，那么它必须是当前或者更高层的嵌套循环块或者语句块的标签。然后该命名块或者循环就会终止，而控制落到对应循环/块的 END 语句后面的语句上。如果声明了WHEN，循环退出只有在expression为真的时候才发生，否则控制会落到 EXIT 后面的语句上。 EXIT 可以用于在所有的循环类型中，它并不仅仅限制于在无条件循环中使用。在和 BEGIN 块一起使用的时候，EXIT 把控制交给块结束后的下一个语句。例如: Loop 循环 If … then 条件判断 Exit ; 条件成立，则退出循环。 End if; End loop;

GP简明使用手册

GP服务启停 su - gpadmin gpstart #正常启动 gpstop #正常关闭 gpstop -M fast #快速关闭 gpstop –r #重启 gpstop –u #重新加载配置文件登陆与退出Greenplum #正常登陆 psql gpdb psql -d gpdb -h gphostm -p 5432 -U gpadmin #使用utility方式 PGOPTIONS="-c gp_session_role=utility" psql -h -d dbname hostname -p port #退出在psql命令行执行\q 参数查询 psql -c 'SHOW ALL;' -d gpdb gpconfig --show max_connections 创建数据库 createdb -h localhost -p 5432 dhdw 创建GP文件系统 # 文件系统名 gpfsdw # 子节点，视segment数创建目录 mkdir -p /gpfsdw/seg1 mkdir -p /gpfsdw/seg2 chown -R gpadmin:gpadmin /gpfsdw # 主节点 mkdir -p /gpfsdw/master chown -R gpadmin:gpadmin /gpfsdw gpfilespace -o gpfilespace_config

gpfilespace -c gpfilespace_config 创建GP表空间 psql gpdb create tablespace TBS_DW_DATA filespace gpfsdw; SET default_tablespace = TBS_DW_DATA; 删除GP数据库 gpdeletesystem -d /gpmaster/gpseg-1 -f 查看segment配置 select * from gp_segment_configuration; 文件系统 select * from pg_filespace_entry; 磁盘、数据库空间 SELECT * FROM gp_toolkit.gp_disk_free ORDER BY dfsegment; SELECT * FROM gp_toolkit.gp_size_of_database ORDER BY sodddatname;日志 SELECT * FROM gp_toolkit.__gp_log_master_ext; SELECT * FROM gp_toolkit.__gp_log_segment_ext; 表描述 /d+ 表分析 VACUUM ANALYZE tablename; 表数据分布 SELECT gp_segment_id, count(*) FROM GROUP BY gp_segment_id; 表占用空间 SELECT relname as name, sotdsize/1024/1024 as size_MB, sotdtoastsize as toast, sotdadditionalsize as other FROM gp_toolkit.gp_size_of_table_disk as sotd, pg_class WHERE sotd.sotdoid = pg_class.oid ORDER BY relname;