海量数据高性能分页新方法X

合集下载

如何在MySQL中实现数据分页与排序

如何在MySQL中实现数据分页与排序在现代数据库应用中，数据分页和排序是非常常见且重要的功能。

无论是在网页应用中的数据展示，还是在后台管理系统中的数据查看，都需要对数据进行分页和排序操作。

而MySQL作为一种常用的关系型数据库管理系统，提供了丰富的功能来满足这些需求。

本文将详细讨论如何在MySQL中实现数据分页与排序的方法和技巧。

一、数据分页1. 使用LIMIT和OFFSET实现简单分页在MySQL中，可以使用LIMIT和OFFSET关键字来实现简单的数据分页。

LIMIT用于指定每页显示的记录数，OFFSET用于指定从第几条记录开始显示。

例如，要获取第1页的10条记录，可以使用以下SQL语句：SELECT * FROM table_name LIMIT 10 OFFSET 0;其中table_name是要查询的表名，0表示第一页。

假设要获取第2页的数据，只需将OFFSET的值设置为10：SELECT * FROM table_name LIMIT 10 OFFSET 10;这样就可以获取第2页的数据了。

2. 使用LIMIT和OFFSET实现动态分页除了上述静态分页的方式，我们还经常需要实现动态分页的功能，即根据用户的需求进行灵活的分页操作。

在这种情况下，可以使用变量来动态计算LIMIT和OFFSET的值。

以下是一个示例：SET @pageNumber = 2;SET @pageSize = 10;SET @offset = (@pageNumber - 1) * @pageSize;SELECT * FROM table_name LIMIT @pageSize OFFSET @offset;在这个示例中，我们首先设置了页码、每页显示的记录数和偏移量的变量。

然后，通过计算偏移量和LIMIT的值，就可以获取对应页码的数据了。

3. 使用ROW_NUMBER函数实现高级分页在MySQL 8.0及以上版本中，可以使用ROW_NUMBER函数来实现更高级的分页功能。

分页算法介绍

分页算法介绍
分页算法通常用于数据库查询中，特别是当处理大量数据时。

通过将数据分成多个“页”，可以有效地减少单个请求返回的数据量，从而提高应用程序的性能。

以下是分页算法的一些常见类型：
1.基础分页：这是最简单的分页算法，它通过指定起始索引和每页的项目数量来获取特定页的数据。

例如，如果你想获取第3页的数据，每页有10个项目，那么你可以从第2 0个项目开始获取（因为第一页是从第0个开始的）。

2.偏移量分页：这种方法与基础分页相似，但使用偏移量而不是索引。

偏移量表示从数据集的开始处跳过的项目数。

例如，如果你想获取第3页的数据，每页有10个项目，那么你可以从第20个项目开始获取（因为第一页是从第0个开始的）。

3.键值分页：这种方法在数据库中存储每个项目的位置或键值。

然后，你可以通过查找这些键值来获取特定页的数据。

这种方法适用于数据库能够高效地执行键值查找的情况。

4.游标分页：这种方法使用游标作为偏移量，游标表示当前位置。

在获取新的一页时，新的游标将被设置在旧游标的下一页的开始处。

这种方法适用于当项目可能被插入或删除时的情况。

5.边界分页：这种方法通过指定两个边界（最小和最大
值）来获取特定页的数据。

然后，数据库会返回在指定范围内的所有数据。

这种方法适用于当你想要对数据进行排序或过滤时的情况。

在选择分页算法时，需要考虑你的特定需求，例如数据的大小、更新的频率、查询的复杂性以及性能要求。

每种分页算法都有其优点和缺点，因此最好根据你的特定需求进行选择。

图书馆海量数据的查询优化及分页算法方案

使用非聚集索引应不应不应不应应应应
应
个或极少不同值
小数目的不同值大数目的不同值频繁更新的列外键列
主键列
是实现 “ 查询优化 ” “ 和高效分页 ” 的最关键因素。１根据需要建立 “ 当” 适的索引索引是除表之外另一重要的、用户定义的存储在物理介质上的数据结构。当根据索引值搜索数据时。引提供了对数据的快速访问。事实上。有索索没引。数据库也能根据Ｓｌｃ语句成功地检索到结果。ｅｔｅ但随着表变得越来越大．用 “ 当” 使适的索引的效果就越来越明显。使用 “ 当 ” 适这个词，是因为。这如果使用索引时不认真考虑其实现过程。索引既可以提高也会破坏数据库的工作性能。
的开头和结尾数据即可：不像非聚集索引。而必须先查到索引中查到每一项数据对应的页码。然后再根据页码查到具体内容。
１索引使用中的常见误区．３虽然前面列出了何时应使用聚集索引或非聚集
实际上，以把索引理解为一种特殊的目录。可微软的ＳＬＳｒｅ提供了两种索引：聚集索引（ｌｓＱｅｖｒＣｕ．ｔｒｄＩｄｘ和非聚集索引（ｏｃｓｒｄＩｄｘ。每ｅｅｅ）ｎＮｎｌｔｅｎｅ）ｕｅ个表只能有一个聚集索引。聚集索引：聚集索引中索引存储的值的顺序和表中数据的物理存储顺序是一致的。建立索引时。系统将对表的物理数据页中的数据按列进行排列．然后再重新存储到磁盘上，即聚集索引与数据是混为体的，的叶节点中存储的是实际的数据。它

大数据量时提高分页的效率

导言如我们在之前的教程里讨论的那样,分页可以通过两种方法来实现:•默认分页–你仅仅只用选中data Web control的智能标签的Enable Paging ;然而,当你浏览页面的时候,虽然你看到的只是一小部分数据,ObjectDataSource还是会每次都读取所有数据•自定义分页–通过只从数据库读取用户需要浏览的那部分数据,提高了性能. 显然这种方法需要你做更多的工作.默认的分页功能非常吸引人,因为你只需要选中一个checkbox就可以完成了.但是它每次都读取所有的数据,这种方式在大数据量或者并发用户多的情况下就不合适.在这样的情况下,我们必须通过自定义分页来使系统达到更好的性能.自定义分页的一个重点是要写一个返回仅仅需要的数据的查询语句.幸运的,Microsoft SQL Server 2005 提供了一个新的keyword,通过它我们可以写出读取需要的数据的查询.在本教程里,我们将学习在GridView里如何使用Microsoft SQL Server 2005 的这个新的keyword 来实现自定义分页.自定义分页和默认分页的界面看起来一样,但是当你从一页转到另一页时,在效率上差了几个数量级.注意:自定义分页带来的性能提升程序取决于数据的总量和数据库的负载.在本教程的最后我们会用数据来说明自定义分页带来的性能方面的好处.第一步: 理解自定义分页的过程给数据分页的时候,页面显示的数据取决于请求的是哪一页和每页显示多少条.比如,想象以下我们给81个product分页,每页显示10条.当我们浏览第一页时,我们需要的是product 1 到product 10.当浏览第二页时,我们需要的是product 11 到product 20,以次类推.对于需要读取什么数据和分页的页面怎么显示,有三个相关的变量:•Start Row Index –页面里显示数据的第一行的索引; 这个值可以通过页的索引乘每页显示的记录的条数加1得到. 例如, 如果一页显示10条数据, 那么对第一页来说(第一页的索引为0), 第一行的索引为0 * 10 + 1, or 1; 对第二页来说(索引为1), 第一行的索引为1 * 10 + 1, 即11.•Maximum Rows –每页显示的最多记录的条数. 之所以称为“maximum” rows 是由于最后一页显示的数据可能会比page size要小. 比如, 当以每页10条记录来显示81条时, 最后一页也就是第九页只包含一条记录. 没有页面显示的记录条数会大于Maximum Rows 的值.•Total Record Count –显示数据的总条数. 不需要知道页面显示什么数据,但是记录总数会影响到分页. 比如, 如果对81条product记录分页,每页10条,那么总页数为9.对默认分页来说,Start Row Index是由页索引和每页的记录数加1得到,Maximum Rows 就是每页的记录数.使用默认分页时,不管是呈现哪页的数据,都是要读取全部的数据,所有每行的索引都是已知的,这样获取Start Row Index变的没有价值.而且,记录的总条数是可以通过DataTable的总条数来获取的.自定义分页只返回从Start Row Index 开始的Maximum Rows条记录.在这里有两个要注意的地方:•我们必须把整个要分页的数据和一个row index关联起来,这样才能从指定的Start Row Index 开始返回需要的数据.•我们需要提供用来分页的数据的总条数.在后面的两步里我们将写出和上面两点相关的SQL.除此之外，我们还将在DAL和BLL里完成相应的方法.第二步: 返回需要分页的记录的总条数在我们学习如何返回显示页面需要的数据之前,我们先来看看怎么获取数据的总条数.因为在配置界面的时候需要用到这个信息.我们使用SQL的COUNT aggregate function来实现这个.比如,返回Products表的总记录条数,我们可以用如下的语句:SELECT COUNT(*)FROM Products我们在DAL里添加一个方法来返回这个信息.这个方法名为TotalNumberOfProducts() ,它会执行上面的SQL语句.打开App_Code/DAL 文件夹里的Northwind.xsd .然后在设计器里右键点ProductsTableAdapter ,选择Add Query.和我们在以前的教程里学习的那样,这样会允许我们添加一个新的DAL方法,这个方法被调用时会执行指定的SQL或存储过程.和前面的TableAdapter 方法一样,为这个添加一个SQL statement.图1: 使用SQL Statement在下一个窗体我们可以指定创建哪种SQL .由于查询只返回一个值–Products表的总记录条数–我们选择“SELECT which returns a singe value”.图2: 使用SELECT Statement that Returns a Single Value来配置SQL 下一步是写SQL语句.图3: 使用SELECT COUNT(*) FROM Products 语句最后给这个方法命名为TotalNumberOfProducts.图4: 将方法命名为TotalNumberOfProducts点击结束后,DAL里添加了一个TotalNumberOfProducts方法.这个方法返回的值可为空,而Count语句总是返回一个非空的值.我们还需要在BLL中加一个方法.打开ProductsBLL类文件,添加一个TotalNumberOfProducts方法,这个方法要做的只是调用DAL的TotalNumberOfProducts 方法.public int TotalNumberOfProducts(){return Adapter.TotalNumberOfProducts().GetValueOrDefault();}DAL的TotalNumberOfProducts方法返回一个可空的整型,而需要ProductsBLL类的TotalNumberOfProducts方法返回一个标准的整型.调用GetValueOrDefault方法,如果可为空的整型为空,则返回默认值,0.第三步: 返回需要的数据记录下一步我们要在DAL和BLL里创建接受Start Row Index 和Maximum Rows 的方法,然后返回合适的记录.我们首先看看需要的SQL语句.我们面临的挑战是需要为整个分页的记录分配索引,用来返回从Start Row Index 开始的Maximum Records number of records条记录.如果在数据库表里已经有一个列作为索引,那么一切会变的很简单.我们首先会想到Products表的ProductID字段可以满足这个条件,第一个Product的ProductID为1,第二个为2,以此类推.然而当一个product被删除后,这个序列会留下间隔来,所以这个方法不行.有两种可以把整个要分页的数据和一个row index关联起来的方法.•使用SQL Server 2005的ROW_NUMBER() Keyword – SQL Server 2005的新特性,它可以将记录根据一定的顺序排列,每条记录和一个等级相关这个等级可以用来作为每条记录的row index.•使用SET ROWCOUNT – SQL Server的SET ROWCOUNT statement可以用来指定有多少记录需要处理; table variables是可以存放表格式的T-SQL 变量,和temporary tables类似. 这个方法在Microsoft SQL Server 2005 和SQLServer 2000都可以用(ROW_NUMBER() 方法只能在SQL Server 2005里用).这个思路是,为要分页的数据创建一个table变量,这个table变量里有一个作为主健的IDENTITY列.这样需要分页的每条记录在table变量里就和一个rowindex(通过IDENTITY列)关联起来了.一旦table变量产生,连接数据库表的SELECT语句就被执行,获取需要的记录.SET ROWCOUNT用来限制放到table变量里的记录的数量.当SET ROWCOUNT的值指定为Start Row Index 加上Maximum Rows时,这个方法的效率取决于被请求的页数.对于比较前面的页来说–比如开始几页的数据–这种方法非常有效. 但是对接近尾部的页来说,这种方法的效率和默认分页时差不多.本教程用ROW_NUMBER()来实现自定义分页.如果需要知道更多的关于table变量和SET ROWCOUNT的技术,请看A More Efficient Method for Paging Through Large Result Sets.以下语句用来使用ROW_NUMBER()将一个等级和返回的每条记录关联:SELECT columnList,ROW_NUMBER() OVER(orderByClause)FROM TableNameROW_NUMBER()返回一个根据指定排序的表示每条记录的等级的值.比如,我们可以用以下居于查看根据价格来排序(降序)的每个product的等级:SELECT ProductName, UnitPrice,ROW_NUMBER() OVER(ORDER BY UnitPrice DESC) AS PriceRankFROM Products图5 是在Visual Studio里运行以上代码的结果. 注意product根据价格排序,每行有一个等级.图5: 返回的记录里每行有一个Price Rank注意: ROW_NUMBER() 只是SQL Server 2005里很多排级的功能中的一种. 想了解更多的ROW_NUMBER()的讨论,包括其它的排级功能,请看Returning Ranked Results with Microsoft SQL Server 2005.当使用OVER从句里的ORDER BY 列名(UnitPrice)来排级时,SQL Server会对结果排序.为了提升大数据量查询时的性能,可以为用来排序的列加上非聚集索引.更多的性能考虑参考Ranking Functions and Performance in SQL Server 2005.ROW_NUMBER()返回的等级信息无法直接在WHERE从句中使用.而在From后面的Select里可以返回ROW_NUMBER(),并在WHERE从句里使用.比如,下面的语句使用一个From后的Select返回ProductName,UnitPrice,和ROW_NUMBER()的结果,然后使用一个WHERE从句来返回price rank在11到20之间的product.SELECT PriceRank, ProductName, UnitPriceFROM(SELECT ProductName, UnitPrice,ROW_NUMBER() OVER(ORDER BY UnitPrice DESC) AS PriceRankFROM Products) AS ProductsWithRowNumberWHERE PriceRank BETWEEN 11 AND 20更进一步,我们可以根据这个方法返回给定Start Row Index 和Maximum Rows 的页的数据.SELECT PriceRank, ProductName, UnitPriceFROM(SELECT ProductName, UnitPrice,ROW_NUMBER() OVER(ORDER BY UnitPrice DESC) AS PriceRankFROM Products) AS ProductsWithRowNumberWHERE PriceRank > StartRowIndex ANDPriceRank <= (StartRowIndex + MaximumRows)注意:我们在本教程的后面会看到, ObjectDataSource 提供的StartRowIndex是从0开始的,而ROW_NUMBER()的值从1开始.因此,WHERE从句返回会严格返回PriceRank大于StartRowIndex而小于StartRowIndex+MaximumRows的那些记录.我们已经知道如何根据给定的Start Row Index 和Maximum Rows 用ROW_NUMBER()返回特定页的数据.现在我们需要在DAL和BLL里实现它.我们首先要决定根据什么排序来分级.我们这里用product名字的字母顺序.这意味着我们还不能同时实现排序的功能.在后面的教程里,我们将学习如何实现这样的功能.在前面我们使用SQL statement创建DAL方法.但是TableAdapter wizard 使用的Visual Stuido里的T-SQL 解析器不能识别带OVER语法的ROW_NUMBER()方法.因此我们要以存储过程来创建这个DAL方法.从view menu里选择server explorer(Ctrl+Alt+S),展开NORTHWND.MDF 的节点.右键点击存储过程,选择增加一个新的存储过程(见图6).图6: 为Products分页增加一个存储过程这个存储过程带两个整型的输入参数- @startRowIndex和@maximumRows- 并用ROW_NUMBER()以ProductName字段排序,返回那些大于@startRowIndex并小于等于@startRowIndex+@maximumRows的记录.将以下代码加到存储过程里,然后保存.CREATE PROCEDURE dbo.GetProductsPaged(@startRowIndex int,@maximumRows int)ASSELECT ProductID, ProductName, SupplierID, CategoryID, QuantityPerUnit, UnitPrice, UnitsInStock, UnitsOnOrder, ReorderLevel, Discontinued,CategoryName, SupplierNameFROM(SELECT ProductID, ProductName, SupplierID, CategoryID, QuantityPerUnit, UnitPrice, UnitsInStock, UnitsOnOrder, ReorderLevel, Discontinued,(SELECT CategoryNameFROM CategoriesWHERE Categories.CategoryID = Products.CategoryID) AS CategoryName,(SELECT CompanyNameFROM SuppliersWHERE Suppliers.SupplierID = Products.SupplierID) AS SupplierName,ROW_NUMBER() OVER (ORDER BY ProductName) AS RowRank FROM Products) AS ProductsWithRowNumbersWHERE RowRank > @startRowIndex AND RowRank <= (@startRowIndex +@maximumRows)创建完存储过程后,花点时间测试一下.右键在Server Explorer 点名为GetProductsPaged 的存储过程,选择执行.Visual Studio 会让你输入参数, @startRowIndex和@maximumRows(见图7).输入不同的值查看一下结果是什么.图7: 为@startRowIndex 和@maximumRows Parameters输入值输入参数的值后,你会看到结果.图8的结果为两个参数的值都为10的结果.图8: 将在第二页里显示的数据完成存储过程后,我们可以创建ProductsTableAdapter 方法了.打开Northwind.xsd ,右键点ProductsTableAdapter,选择Add Query.选择使用已经存在的存储过程.图9: 使用已经存在的存储过程创建DAL Method下一步会要我们选择要调用的存储过程.从下拉列表里选择GetProductsPaged .图10: 选择GetProductsPaged下一步要选择存储过程返回的数据类型:表值,单一值,无值.由于GetProductsPaged 返回多条记录,所以选择表值.图11: 为存储过程指定返回表值最后给方法命名.象前面的方法一样,选择Fill a DataTable 和Return a DataTable,为第一个命名为FillPaged ,第二个为GetProductsPaged.图12: 命名方法为FillPaged 和GetProductsPaged除了创建一个DAL方法返回特定页的products外,我们需要在BLL里也这样做.和DAL方法一样,BLL的GetProductsPaged 方法带两个整型的输入参数,分别为Start Row Index 和Maximum Rows,并返回在指定范围内的记录.在ProductsBLL 创建这个方法,仅仅调用DAL 的GetProductsPaged 就可以了.[ponentModel.DataObjectMethodAttribute(ponentModel.DataO bjectMethodType.Select, false)]public Northwind.ProductsDataTable GetProductsPaged(int startRowIndex, int maximumRows){return Adapter.GetProductsPaged(startRowIndex, maximumRows);}你可以为BLL方法的参数取任何名字.但是我们马上会看到,选择用startRowIndex 和maximumRows 会让我们在配置ObjectDataSource 时方便很多.第四步: 使用自定义分页配置ObjectDataSource创建完BLL和DAL的方法后,我们可以准备创建一个GridView 来使用自定义分页了.打开PagingAndSorting 文件夹里的EfficientPaging.aspx ,添加一个GridView ,然后用ObjectDataSource 来配置它.在我们以前的教程里,我们通常使用ProductsBLL 类的GetProducts 方法来配置ObjectDataSource .然而这一次,我们使用GetProductsPaged 方法.GetProducts 会返回所有的products而GetProductsPaged 只返回特定的记录.图13: 使用ProductsBLL Class类的GetProductsPaged方法来配置ObjectDataSource我们要创建一个只读的GridView,因此在INSERT, UPDATE, 和DELETE 标签下拉列表里选择(None).接下来ObjectDataSource 向导会让我们选择GetProductsPaged 方法的输入参数startRowIndex 和maximumRows 的值.在source里选择none.图14: Sources 里选择None完成ObjectDataSource 向导后,GridView 会为每个product字段创建一个BoundField 或CheckBoxField .可以随意裁减GridView 的外观.我这里选择的是只显示ProductName, CategoryName, SupplierName, QuantityPerUnit, 和UnitPrice BoundFields.在智能标签里选择支持分页,GridView 和ObjectDataSource 的标记看起来应该和下面差不多:<asp:GridView ID="GridView1" runat="server" AutoGenerateColumns="False" DataKeyNames="ProductID"DataSourceID="ObjectDataSource1" AllowPaging="True"><Columns><asp:BoundField DataField="ProductName" HeaderText="Product" SortExpression="ProductName" /><asp:BoundField DataField="CategoryName" HeaderText="Category" ReadOnly="True" SortExpression="CategoryName" /><asp:BoundField DataField="SupplierName" HeaderText="Supplier" SortExpression="SupplierName" /><asp:BoundField DataField="QuantityPerUnit" HeaderText="Qty/Unit" SortExpression="QuantityPerUnit" /><asp:BoundField DataField="UnitPrice" DataFormatString="{0:c}" HeaderText="Price"HtmlEncode="False" SortExpression="UnitPrice" /></Columns></asp:GridView><asp:ObjectDataSource ID="ObjectDataSource1" runat="server" OldValuesParameterFormatString="original_{0}"SelectMethod="GetProductsPaged" TypeName="ProductsBLL"><SelectParameters><asp:Parameter Name="startRowIndex" Type="Int32" /><asp:Parameter Name="maximumRows" Type="Int32" /></SelectParameters></asp:ObjectDataSoure>如果你通过浏览器浏览页面,你会发现看不到GridView .图15: GridView 没有被显示由于在ObjectDataSource 里的GetProductsPaged的startRowIndex和maximumRows 的参数都为0,由SQL没有返回任何的记录因此GridView 看不到了.我们需要将ObjectDataSource 配置成为自定义分页来修补上面的问题.下面的步骤可以完成这个:1. 将ObjectDataSource的EnablePaging 属性设为true –这样表示必须传两个参数给SelectMethod方法: 一个指定Start Row Index(StartRowIndexParameterName), 一个指定Maximum Rows(MaximumRowsParameterName).2. 设置 ObjectDataSource的StartRowIndexParameterName 和MaximumRowsParameterName 属性– StartRowIndexParameterName 和MaximumRowsParameterName 属性是传给SelecMethod用来自定义分页的输入参数. 默认的参数名为startIndexRow and MaximumRows, 这就是在创建BLL里的GetProductsPaged方法时用这些给参数命名的原因 . 如果你使用了其它的参数名字–比如startIndex和maxRows–你将不得不相应的设置ObjectDataSource的StartRowIndexParameterName和MaximumRowsParameterName(startIndex和maxRows).3. 设置 ObjectDataSource的SelectCountMethod Property为返回分页记录总数的方法的名字(TotalNumberOfProducts)–调用ProductsBLL类的TotalNumberOfProducts方法返回总的记录数 . ObjectDataSource 需要这个信息来正确的显示页面.4. 从ObjectDataSource的声明里移除startRowIndex and maximumRows<asp:Parameter> 元素的标记–当通过向导配置ObjectDataSource 时, VisualStudio 自动为GetProductsPaged方法的参数增加了两个<asp:Parameter> 元素. 设置EnablePaging 为true后, 这些参数会被自动传递;如果在声明代码里保留它们,那么ObjectDataSource会试图传递4个参数给GetProductsPaged和2个参数给TotalNumberOfProducts .如果你没有移除<asp:Parameter> ,当浏览页面的时候你会获得一个象这样的错误信息: “ObjectDataSource'ObjectDataSource1' could not find a non-generic method'TotalNumberOfProducts' that has parameters: startRowIndex,maximumRows.”做完这些改动后,ObjectDataSource的声明代码看起来应该和下面差不多:<asp:ObjectDataSource ID="ObjectDataSource1" runat="server"OldValuesParameterFormatString="original_{0}" TypeName="ProductsBLL"SelectMethod="GetProductsPaged" EnablePaging="True"SelectCountMethod="TotalNumberOfProducts"></asp:ObjectDataSource>注意EnablePaging和SelectCountMethod属性已经被设置了,<asp:Parameter>被移除了.图16是属性窗口.图16: 使用自定义分页配置,ObjectDataSource完成这些后,浏览页面.你会看到10条product按照字母排序被列出来了.每次翻一页看看.对用户来说现在还看不出来什么差别,因为自定义分页在大数据量的情况下效率才能显示出来.图17: 根据Product的Name排序的数据的自定义分页注意:自定义分页时,ObjectDataSource的SelectCountMethod方法返回的page count值存在GridView的view state里.其它变量–PageIndex,EditIndex,SelectedIndex,DataKeys集合等–都存在control state里.control state和GridView的EnableViewState属性无关.由于PageCount的值在postback期间存在viewstate里,当你的页面上有链到上一页的link时,你需要开启GridView的view state(如果没有这个link,你可以禁用view state).点上一页link会引起postback,GridView会更新PageIndex属性.GridView会给PageIndex 赋一个小于PageCount的值.如果禁用了view state,PageCount的值在postback时会丢失,PageIndex会被赋一个最大的整型值.然后GridView在根据PageSize乘PageCount来计算starting row index时会发生OverflowException异常.执行自定义分页和排序目前我们自定义分页时使用的排序字段是在创建GetProductsPaged存储过程时写死的.在GridView的智能标签里有一个Enable Sorting的checkbox,不幸的是,在前面的工作里加上排序功能仅仅只能将当前页的记录排序.比如,按照降序查看第一页的数据,第一页的product 的顺序回反转.见图18,Carnarvon Tigers 成为第一条记录,而在它之后的71条记录被忽略了.排序时只排了显示在第一页的数据.图18: 只有当前页的数据被排序了发生这种情况的原因是调用完BLL的GetProductsPaged方法返回数据之后才排序.耳针个方法只返回特定页的记录.为了正确的排序,我们需要将排序表达式传到GetProductsPaged 方法里,在返回特定页的数据前进行排序.我们将在后面的教程里完成这个功能.执行自定义分页和删除如果你开启GridView的删除功能,你会发现删除最后一页的最后一条记录时,GridView消失了,而不是正确的减掉PageIndex的值.在我们上面创建的GridView里开启删除来查看这个bug.到最后一页(第九页),由于我们有81条记录,每页显示10条,所以你会只看到一条记录,删除这条记录.在默认分页时,GridView会自动跳到第八页,这也是我们想要的结果.然而在自定义分页里, GridView却显示.发生这个的原因有点超出了本教程的范围,可以看Deleting the Last Record on the Last Page from a GridView with Custom Paging.简单的说是因为点Delete 时,GridView是按这样的步骤工作的:1. 删除记录.2. 按照给定的PageIndex和PageSize获取记录.3. 检查PageIndex确保没有超过数据源的页的数量.如果是,GridView的PageIndex会自动减.4. 使用第二步获取的记录绑定到GridView适当的页.问题的根源在于第二步,当获取显示的记录时,使用的PageIndex仍然是最后一页的PageIndex.因此没有记录被返回.在第三步里GridView判断出PageIndex属性大于数据源的总页数(因为最后一页的最后一条数据被删除了) 就对PageIndex减1.在第四步里GridView试图将第二步获取的数据作为数据源进行绑定,但是没有任何数据,因此显示的GridView不见了.在默认分页里没有这个问题是因为在第二步还是返回的所有数据.我们可以用两种方法来修改这个.第一是为GridView的RowDeleted事件创建一个event handler来判断在删除页里有多少条记录,如果只有一条,那么这条肯定是最后一条,我们需要为PageIndex减1.当然我们希望只在删除成功后来修改PageIndex的值.我们需要用e.Exception属性是否为空来判断.这个方法之所以起作用是因为它在第一步和第二步之间修改了PageIndex的值.因此在第二步里正确的记录会被返回.见如下代码:protected void GridView1_RowDeleted(object sender, GridViewDeletedEventArgs e) {// If we just deleted the last row in the GridView, decrement the PageIndexif (e.Exception == null && GridView1.Rows.Count == 1)// we just deleted the last rowGridView1.PageIndex = Math.Max(0, GridView1.PageIndex - 1);}另外一种办法是为ObjectDataSource的RowDeleted事件创建一个event handler,设置AffectedRows属性为1.在第一步删除记录后(在第二步之前),如果一行或多行记录被影响,GridView会更新PageIndex的值.然而ObjectDataSource 并没有设置AffectedRows,因此这一步不会执行.我们需要在删除操作成功的情况下手动设置AffectedRows.见下面的代码:protected void ObjectDataSource1_Deleted(object sender, ObjectDataSourceStatusEventArgs e){// If we get back a Boolean value from the DeleteProduct method and it's true,// then we successfully deleted the product. Set AffectedRows to 1if (e.ReturnValue is bool && ((bool)e.ReturnValue) == true)e.AffectedRows = 1;}这些代码都可以在EfficientPaging.aspx的code-behind class里找到比较默认和自定义分页的性能由于自定义分页返回需要的数据,而默认分页返回全部数据,因此自定义分页比默认分页更有效率是非常清楚的.但是性能上的提升究竟有多少?从默认分页换成自定义分页有什么性能上的优势?很不幸,没有一个统一的答案.性能的优势取决于很多因素,其中最重要的是分页记录的数量,数据库的负载和web server和数据库的通信渠道.对一些小的表来说,性能的差异是可以忽略的.对成千上万行数据的表来说,差异是非常明显的.我们的一篇Custom Paging in 2.0 with SQL Server 2005文章包含一些对比这两种分页技术的性能测试,用到的表有大概50,000 条记录.在测试中我分别测试了在SQLServer里（使用SQL Profiler）和页面里（使用’s tracing features）执行查询的时间．注意这是在我的开发环境下单个用户的测试结果，因此没有模仿典型的网站的负载情况，结果也并不科学．如你所见，获取特定页的数据平均少了354 reads，并在恩短的时间完成．而在页面里，自定义分页是默认分页所花费时间的1/100．在my article可以看到更多的测试信息和代码，你可以下载测试数据库在你的环境里重新测试．总结默认分页是非常容易实现的–你仅仅只需要选择控件上的智能标签里的Enable Paging checkbox –但是方便带来的是性能的损失．在默认分页时，用户无论请求哪个页面，所有的数据都会被返回，即使只有一小部分被显示出来．为了提升性能，ObjectDataSource 提供了一个可选择的分页功能–自定义分页．自定义分页通过只获取需要显示的数据来解决默认分页的性能问题，但是使用起来更麻烦．首先，请求特定数据的查询语句必须正确而且有效．这个可以通过很多方法来实现．在本教程里我们使用SQL Server 2005的ROW_NUMBER来实现给结果分级，然后返回等级在特定范围内的数据．其次我们需要增加一个方法来获取需要分页的总记录数．在创建完DAL和BLL方法后，我们还需要配置ObjectDataSource以使它可以获取需要分页的总记录数，并将正确的Row Index 和Maximum Rows 的值传给BLL．虽然使用自定义分页需要一系列的操作，而且远没有默认分页那么简单．但是在大数据量的情况还是必须的．只显示需要的数据，自定义分页可以节省很多时间，减轻数据库的负担．。

海量数据的查询优化及分页算法方案

海量数据的查询优化及分页算法方案很多人不知道SQL语句在SQL SERVER中是如何执行的,他们担心自己所写的SQL语句会被SQL SERVER误解。

比如：select * from table1 where name=’zhangsan’ and tID > 10000和执行:select * from table1 where tID > 10000 and name=’zhangsan’一些人不知道以上两条语句的执行效率是否一样,因为如果简单的从语句先后上看,这两个语句的确是不一样,如果tID是一个聚合索引,那么后一句仅仅从表的10000条以后的记录中查找就行了；而前一句则要先从全表中查找看有几个name=’zhangsan’的,而后再根据限制条件条件tID> 10000来提出查询结果。

事实上,这样的担心是不必要的。

SQL SERVER中有一个“查询分析优化器”,它可以计算出where子句中的搜索条件并确定哪个索引能缩小表扫描的搜索空间,也就是说,它能实现自动优化。

虽然查询优化器可以根据where子句自动的进行查询优化,但大家仍然有必要了解一下“查询优化器”的工作原理,如非这样,有时查询优化器就会不按照您的本意进行快速查询。

在查询分析阶段,查询优化器查看查询的每个阶段并决定限制需要扫描的数据量是否有用。

如果一个阶段可以被用作一个扫描参数(SARG）,那么就称之为可优化的,并且可以利用索引快速获得所需数据。

SARG的定义：用于限制搜索的一个操作,因为它通常是指一个特定的匹配,一个值得范围内的匹配或者两个以上条件的AND连接。

形式如下：列名操作符<常数或变量>或<常数或变量> 操作符列名列名可以出现在操作符的一边,而常数或变量出现在操作符的另一边。

如：Name=’张三’价格>50005000<价格Name=’张三’and 价格>5000如果一个表达式不能满足SARG的形式,那它就无法限制搜索的范围了,也就是SQL SERVER必须对每一行都判断它是否满足WHERE子句中的所有条件。

SQLserver海量数据库查询优化和分页算法

如有你有帮助，请购买下载，谢谢！SQL server 海量数据库查询优化及分页算法在以下的文章中，我将以“办公自动化”系统为例，探讨如何在有着 1000 万条数据的 MS SQL SERVER 数据库中实现快速的数据提取和数据分页。

以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构：CREATE TABLE [dbo].[TGongwen] ( --TGongwen 是红头文件表名 [Gid] [] IDENTITY (1, 1) NULL ,--本表的 id 号，也是主键[title] [varchar] (80) COLLATE Chinese_PRC_CI_AS NULL ,--红头文件的标题[fariqi] [datetime] NULL ,--发布日期[neibuYonghu] [varchar] (70) COLLATE Chinese_PRC_CI_AS NULL ,--发布用户[reader] [varchar] (900) COLLATE Chinese_PRC_CI_AS NULL ,--需要浏览的用户。

每个用户中间用分隔符“,”分开ON [PRIMARY] TEXTIMAGE_ON [PRIMARY] GO下面，我们来往数据库中添加 1000 万条数据：declare @i int set @i=1 while @i<=250000 begininsert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-2-5','通信科','通信科,办公室,王局长,刘局长,张局长,admin, 刑侦支队,特勤支队,交巡警支队,经侦支队, 户政科,治安支队,外事科','这是最先的 25 万条记录')1页如有你有帮助，请购买下载，谢谢！set @i=@i+1 end GO declare @i int set @i=1 while @i<=250000 begininsert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-9-16','办公室','办公室,通信科,王局长,刘局长,张局长,admin, 刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,外事科','这是中间的 25 万条记录')set @i=@i+1 end GO declare @h int set @h=1 while @h<=100 begin declare @i int set @i=2002 while @i<=2003 begin declare @j int set @j=0 while @j<50 begin declare @k int set @k=0 while @k<50 begininsert into Tgongwen(fariqi,neibuyonghu,reader,title) values(cast(@i as varchar(4))+'-8-15 3:'+cast(@j as varchar(2))+':'+cast(@j as varchar(2)),'通信科','办公室,通信科,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,外事科','这是最后的 50 万条记录')set @k=@k+1 end set @j=@j+1 end set @i=@i+12页如有你有帮助，请购买下载，谢谢！end set @h=@h+1 end GO declare @i int set @i=1 while @i<=9000000 begininsert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-5-5','通信科','通信科,办公室,王局长,刘局长,张局长,admin, 刑侦支队,特勤支队,交巡警支队,经侦支队, 户政科,治安支队,外事科','这是最后添加的 900 万条记录')set @i=@i+1000000 end GO通过以上语句，我们创建了 25 万条由通信科于 2004 年 2 月 5 日发布的记录， 25 万条由办公室于 2004 年 9 月 6 日发布的记录，2002 年和 2003 年各 100 个 2500 条相同日期、不同分秒的由通信科发布的记录(共 50 万条)，还有由通信科于 2004 年 5 月 5 日发布的 900 万条记录，合计 1000 万条。

MySQL中的数据分页与排序技巧

MySQL中的数据分页与排序技巧在开发Web应用程序过程中，我们经常需要处理大量的数据，如何高效地进行数据分页和排序是一个关键问题。

MySQL数据库作为最流行和广泛使用的关系型数据库管理系统之一，提供了一些技巧和功能，使我们能够更好地处理数据分页和排序问题。

一、数据分页的基本概念和原理数据分页是指将数据按照一定的规则，划分为多个页面进行展示。

通常情况下，我们需要指定每页显示的记录数量以及当前页码，根据这些参数获取对应的数据块进行展示。

在MySQL中，可以通过LIMIT关键字来实现数据分页。

LIMIT语句用于限制SELECT语句返回的行数，其基本语法如下：SELECT * FROM table_name LIMIT offset, count;其中，offset表示偏移量，表示从第几条记录开始返回，起始值为0；count表示返回的记录数。

举个例子，假设我们有一个users表，其中存储了100条用户记录。

如果我们要获取第一页的10条数据，可以通过如下SQL语句来实现：SELECT * FROM users LIMIT 0, 10;这条语句将返回users表中的前10条数据，即第1条到第10条。

二、数据分页的性能优化数据分页操作对于大数据量的表来说，往往会涉及到大量的数据查询和IO操作，因此性能上可能存在一些问题。

针对这些问题，我们可以采取一些优化措施来提升性能。

1. 使用索引在进行数据分页操作时，我们可以通过为相关的字段创建合适的索引来提高查询性能。

例如，在上述的users表中，如果我们要根据用户姓名进行分页查询，可以为name字段创建一个索引：CREATE INDEX idx_name ON users(name);创建索引后，数据库引擎可以更快地定位到需要查询的记录，从而提高查询性能。

2. 避免使用SELECT *在进行数据分页操作时，尽量避免使用SELECT * 来查询所有字段的数据。

只查询我们实际需要的字段可以减少IO操作的数量，提高查询性能。

海量数据处理的技术与应用

海量数据处理的技术与应用一、引言随着互联网的发展，人们产生和积累的数据量越来越大，这些数据需要进行有效地存储和处理，才能发挥其价值。

海量数据处理成为计算机科学中最重要的问题之一。

本文将介绍海量数据处理的技术和应用。

二、海量数据处理技术1.分布式计算分布式计算是一种利用多台计算机协同工作来完成计算任务的方式。

在海量数据处理中，分布式计算可以将数据分散到多个计算节点上进行计算，避免了单台计算机性能瓶颈的问题，提高了数据处理的速度和效率。

2.并行计算并行计算是指同时使用多个处理器处理同一任务的计算方法。

在海量数据处理中，通过将任务细分成多个子任务，并行计算可以实现数据的快速处理，提高计算速度和效率。

3.数据库技术数据库技术可以对数据进行优化和管理。

在海量数据处理中，数据库技术可以通过分布式架构、索引技术和数据分片等技术来优化和管理海量数据，提高数据查询和处理的速度和效率。

4.机器学习机器学习是一种基于数据的自动学习方法，可以通过数据分析和模式识别来发现数据中的规律和趋势。

在海量数据处理中，机器学习可以实现数据挖掘、信息提取和智能分析等功能，帮助用户更好地理解和利用海量数据。

三、海量数据处理应用1.搜索引擎搜索引擎是一种基于信息检索技术的工具，可以帮助用户快速找到所需的信息。

在海量数据处理中，搜索引擎可以通过对海量数据的索引和检索，帮助用户快速、准确地找到所需的信息。

2.大数据分析大数据分析是一种将大规模数据处理技术和机器学习技术相结合的方法，可以实现数据挖掘、情报分析和智能决策等功能。

在企业和政府机构中，大数据分析已经成为了决策的重要工具。

3.社交媒体分析社交媒体分析是一种通过分析社交媒体上的数据，了解用户的偏好和需求，提高营销效果的方法。

在海量数据处理中，社交媒体分析可以通过分析用户行为和话题趋势，帮助企业更好地了解用户需求，优化产品和服务。

四、结论海量数据处理是计算机科学中的重要问题，需要使用分布式计算、并行计算、数据库技术和机器学习等技术来实现。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

海量数据高性能分页新方法
对于数据库分页的做法，从网上的资料综合来看，大体分为三类：
1。

根据ID分页
2。

使用Top分页
3。

利用Not In分页
这三种方法中，速度最快的是第一种，第二种其次，第三种是最慢的。

第一种方法虽然最快，但是，在实际的应用中，其实并不多。

因为，基本上没有页面会根据ID来排序，通常都是根据某（几）个有意义的字段来排序。

第二种方法是我平常用的最多的，Top的效率还是不错的。

第三种方法，由于会引起全表扫描，所以，一般不怎么推荐使用。

在这里，第二和第三种方法都有一个缺点，就是随着页数的增多，越是靠后的数据，获取越慢。

所以，我在思考，有没有一种比Top更快的方法呢？现知的就只有按照ID分页了，但是，我的数据中没有ID字段，那么我可以做一个变通，把要排序的（一个或多个）字段组合成一个相当于ID功效的东西来看待，然后，对这个组合字段排序。

我的表达可能不是很清楚，那么我们举个例子吧。

现有一表：工厂物料表，数据量60万
TblOrgItem
(
OID nvarchar(40),--自动产生的GRID
OrgCode nvarchar(50),--工厂代码
OrgName nvarchar(50),--工厂名称
ItemNo nvarchar(50),--物料编码
ItemName nvarchar(50),--物料名称
......
)
需求：按照先"工厂代码"升序，再"物料编码"升序的顺序排序显示
那么这个时候我们可以把"工厂代码"+"物料编码"的组合看作是一个主键，然后对它进行分页。

在这里，我们需要这么几个参数：
传入参数：
@PageSize int,
@PageIndex int,
@LastOrgCode nvarchar(50),--上一页最后一条记录的工厂代码
@LastItemNo nvarchar(50),--上一页最后一条记录的物料编码
组合起来的分页SQL应该就是这样的了，我直接写了，实际执行的时候要拼凑成字符串动态执行：select top @PagaSize OrgCode,OrgName,ItemNo,ItemName from TblOrgItem
where OrgCode>=@LastOrgCode and ItemNo>@LastItemNo --如果是第一页，可以不用这一行
Order by OrgCode,ItemNo
注：对于组合字段大于2个及2个以上的，Where 条件的写法是：前面的字段都是用">="判断，只有最后一个字段使用">"判断。

这个分页SQL执行的效率应该比较接近用ID进行分页的效率了，如果，再在这个表的OrgCode,ItemNo字段上加上聚集索引的话，分页的效果又会更上一层楼了！。