如何实现pandas读取csv文件指定的前几行

合集下载

使用CSV模块和Pandas在Python中读取和写入CSV文件

使⽤CSV模块和Pandas在Python中读取和写⼊CSV⽂件什么是CSV⽂件？CSV⽂件是⼀种纯⽂本⽂件，其使⽤特定的结构来排列表格数据。

CSV是⼀种紧凑，简单且通⽤的数据交换通⽤格式。

许多在线服务允许其⽤户将⽹站中的表格数据导出到CSV⽂件中。

CSV⽂件将在Excel中打开，⼏乎所有数据库都具有允许从CSV⽂件导⼊的⼯具。

标准格式由⾏和列数据定义。

此外，每⾏以换⾏符终⽌，以开始下⼀⾏。

同样在⾏内，每列⽤逗号分隔。

CSV样本⽂件。

表格形式的数据也称为CSV（逗号分隔值）-字⾯上是“逗号分隔值”。

这是⼀种⽤于表⽰表格数据的⽂本格式。

⽂件的每⼀⾏都是表的⼀⾏。

各个列的值由分隔符-逗号（，），分号（;）或另⼀个符号分隔。

CSV可以通过Python轻松读取和处理。

考虑以下Tabe表数据程式语⾔由...设计出现了延期python吉多·范·罗苏姆（Guido van Rossum）1991年.pyJAVA詹姆斯·⾼斯林1995年.javaC ++⽐尼亚·斯特鲁斯特鲁普1983年.cpp您可以在csv中表⽰此表，如下所⽰。

CSV数据编程语⾔，设计者，出现，扩展Python，Guido van Rossum，1991，.pyJava，James Gosling，1995，.javaC ++，Bjarne Stroustrup，1983，.cpp如您所见，每⼀⾏都是换⾏符，每⼀列都⽤逗号分隔。

Python CSV模块Python提供了⼀个CSV模块来处理CSV⽂件。

要读取/写⼊数据，您需要遍历CSV⾏。

您需要使⽤split⽅法从指定的列获取数据。

CSV模块功能在CSV模块⽂档中，您可以找到以下功能：csv.field_size_limit –返回最⼤字段⼤⼩csv.get_dialect –获取与名称相关的⽅⾔csv.list_dialects –显⽰所有已注册的⽅⾔csv.reader –从csv⽂件读取数据csv.register_dialect-将⽅⾔与名称相关联csv.writer –将数据写⼊csv⽂件csv.unregister_dialect-删除与⽅⾔注册表名称关联的⽅⾔csv.QUOTE_ALL-引⽤所有内容，⽆论类型如何。

pandas取dataframe特定行列的实现方法

pandas取dataframe特定行列的实现方法在数据分析中，Pandas库是一个非常重要的工具，它提供了DataFrame数据结构，方便我们进行各种数据处理和分析。

在DataFrame中，取特定行列的数据是一个常见的操作。

本文将介绍几种取dataframe特定行列的实现方法。

一、通过行索引取数据Pandas的DataFrame提供了一个非常方便的方法来通过行索引取数据。

只需要将行索引作为列表或者Series传递给DataFrame的iloc方法即可。

例如，如果我们有一个DataFrame如下：```pythonimportpandasaspddf=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]})```我们可以使用iloc方法取第2行第3列的数据，代码如下：```pythonresult=df.iloc[1,2]#取第2行第3列的数据print(result)#输出：8```二、通过列名取数据除了行索引，我们还可以通过列名来取DataFrame的数据。

Pandas的DataFrame提供了通过列名取数据的方法，可以通过列名和行索引组合起来取特定行列的数据。

例如，如果我们想取第2行第3列的数据，并且该列名为'C'，可以使用以下代码：```pythonresult=df.loc[1,'C']#取第2行第3列的数据，列名为'C'print(result)#输出：8```三、通过位置取数据除了通过行索引和列名取数据，Pandas还提供了通过位置取数据的方法。

DataFrame提供了通过位置索引来取数据的方法，例如使用loc方法。

位置索引通常表示为整数序列，从0开始。

例如，如果我们想取第2行第3列的数据，位置索引为2（即第二个元素），可以使用以下代码：```pythonresult=df.loc[1,2]#取第2行第3列的数据，位置索引为2print(result)#输出：8```四、使用布尔索引取数据除了以上三种方法，我们还可以使用布尔索引来取特定行列的数据。

python读取csv文件的方法

python读取csv文件的方法
Python中读取CSV文件有多种方法，其中最常用的是使用内置的csv模块或者pandas库。

下面我将分别介绍这两种方法。

1. 使用csv模块：
首先，你需要导入csv模块，import csv.
然后，使用open函数打开CSV文件，并创建一个csv文件读取器对象：
with open('file.csv', 'r') as file:
reader = csv.reader(file)。

接下来，你可以使用for循环逐行读取CSV文件中的数据：
for row in reader:
print(row)。

这样就可以逐行读取CSV文件中的数据了。

2. 使用pandas库：
首先，你需要安装pandas库（如果尚未安装），pip
install pandas.
然后，导入pandas库：
import pandas as pd.
使用pandas的read_csv函数读取CSV文件，并将数据存储
在一个DataFrame对象中：
df = pd.read_csv('file.csv')。

你可以通过打印DataFrame对象来查看读取的数据：
print(df)。

通过这种方法，你可以轻松地读取和处理CSV文件中的数据。

除了上述两种方法，还可以使用第三方库如numpy、Dask等来读取CSV文件。

每种方法都有其优缺点，具体选择取决于你的需求和偏好。

希望这些信息能够帮助到你。

pandas的使用方法

药物制剂名词解释
药物制剂是指经药学过程加工而成的多种药物的药物组合，通常用于疗病之用。

药物制剂是用含有药物的物质或混合物经过特定的制剂工艺，按照国家药典规定而研制成符合有关法律法规和标准的药物制剂。

药物制剂由多种药物、辅料、添加剂经制剂工艺加工而成。

药物制剂的性质不同，有西药制剂、中成药制剂、中草药制剂、植物中药制剂、农药制剂、农业制剂和原料药制剂等。

药物制剂的特点是经处理、清洗、消毒、加工，把不同药物结合在一起，经过特定工艺制备成精确剂量、丰富形态和稳定性良好的制剂。

药物制剂的应用范围很广，可以采取片剂、胶囊剂、丸剂、液体剂、悬浮剂、注射剂、凝胶剂、膜丸、膜片等。

药物制剂是药物治疗的重要组成部分，可以提高药物的药效，降低药物的毒性，降低患者服药的频率，方便患者服药，提高治疗效果。

使用实现pandas读取csv文件指定的前几行

使⽤实现pandas读取csv⽂件指定的前⼏⾏⽤于存储数据的csv⽂件有时候数据量是⼗分庞⼤的，然⽽我们有时候并不需要全部的数据，我们需要的可能仅仅是前⾯的⼏⾏。

这样就可以通过pandas中read_csv中指定⾏数读取的功能实现。

例如有data.csv⽂件，⽂件的内容如下：GreydeMac-mini:chapter06 greyzhang$ cat data.csv,name_01,coment_01,,,,2,name_02,coment_02,,,,3,name_03,coment_03,,,,4,name_04,coment_04,,,,5,name_05,coment_05,,,,6,name_06,coment_06,,,,7,name_07,coment_07,,,,8,name_08,coment_08,,,,9,name_09,coment_09,,,,10,name_10,coment_10,,,,11,name_11,coment_11,,,,12,name_12,coment_12,,,,13,name_13,coment_13,,,,14,name_14,coment_14,,,,15,name_15,coment_15,,,,16,name_16,coment_16,,,,17,name_17,coment_17,,,,18,name_18,coment_18,,,,19,name_19,coment_19,,,,20,name_20,coment_20,,,,21,name_21,coment_21,,,,如果我们需要的数据仅仅是前5⾏，那么读取⽅式可以通过nrows的⽅式进⾏指定。

编写代码如下：1 #!/usr/bin/python23 import pandasas pd45 data = pd.read_csv('data.csv',nrows =5)6 print(data)7代码的运⾏结果如下：GreydeMac-mini:chapter06 greyzhang$ python row_test.pyUnnamed: 0 name_01 coment_01 Unnamed: 3 Unnamed: 4 Unnamed: 5 \0 2 name_02 coment_02 NaN NaN NaN1 3 name_03 coment_03 NaN NaN NaN2 4 name_04 coment_04 NaN NaN NaN3 5 name_05 coment_05 NaN NaN NaN4 6 name_06 coment_06 NaN NaN NaNUnnamed: 60 NaN1 NaN2 NaN3 NaN4 NaNGreydeMac-mini:chapter06 greyzhang$从上⾯的结果中可以看出，通过指定读取⾏数实现了预期的功能。

使用pandas库实现csv行和列的获取

使⽤pandas库实现csv⾏和列的获取1、读取csvimport pandas as pddf = pd.read_csv('路径/py.csv')2、取⾏号index_num = df.index举个例⼦：import pandas as pddf = pd.read_csv('./IP2LOCATION.csv',encoding= 'utf-8')index_num = df.indexprint(index_num)3、取出⾏import pandas as pddf = pd.read_csv('./IP2LOCATION.csv',encoding= 'utf-8',header=None)# print(type(df))df.columns = ['a','b','c','d','e','f']# 获取⾏数# index_num = df.index# print(index_num)# 取出某⼀⾏# row_data_1 = df.iloc[0]# row_data_2 = df.iloc[[0]]# 取出连续的⾏# row_data_3 = df.iloc[0:2]# row_data_4 = df[0:2]# 取出不连续的⾏# row_data_5 = df.iloc[[0,2]]# print(row_data_5)可以使⽤df.iloc[⾏号],得到的是series也可以使⽤df.iloc[[⾏号]],得到的是dataframerow_data_1 = df.iloc[0] # pandas seriesrow_data_2 = df.iloc[[0]] # dataframeloc是显式的索引，默认第⼀⾏的⾏号为1，⾏号从1计数iloc是隐式的索引，默认第⼀⾏的⾏号为0，⾏号从0计数row_data_1row_data_2可以⽤df.iloc[⾏号:⾏号],也可以⽤df[⾏号:⾏号],得到的都是dataframerow_data_3 = df.iloc[0:2]row_data_3 = df[0:2]row_data_3row_data_4使⽤df.iloc[[⾏号,⾏号]]，特别注意是两个⽅括号，中间是逗号，得到的是dataframe row_data_5 = df.iloc[[0,2]]row_data_54、取出列import pandas as pddf = pd.read_csv('./IP2LOCATION.csv',encoding= 'utf-8',header=None)# print(type(df))df.columns = ['a','b','c','d','e','f']# 只取⼀列# col_data_1 = df['a'] # 单独⼀列是个series# col_data_2 = df.loc[:,'a'] # 同上，但⽐较复杂，⼀般不⽤# col_data_3 = df.iloc[:,0] # 同上，可以在不知道列名的时候⽤## col_data_4 = df[['a']] # 单独⼀列是个df# col_data_5 = df.loc[:,['a']] # 同上，但⽐较复杂，⼀般不⽤# col_data_6 = df.iloc[:,[0]] # 同上，可以在不知道列名的时候⽤# print(col_data_4)# 获取指定的⼏列# cols_data_1 = df[['a','b']] # DataFrame, 指定某⼏列，直接⽤列名# cols_data_2 = df.loc[:,['a','b']] # 同上，但⽐较复杂，⼀般不⽤# cols_data_3 = df.iloc[:,[0,2]] # 同上，可以在不知道列名的时候⽤# print(cols_data_1)# 获取指定的连续列# cols_data_4 = df.loc[:,'a':'d'] # 指定连续列，⽤列名# cols_data_5 = df.iloc[:,0:4] # 指定连续列，⽤数字# print(cols_data_4)col_data_1 = df['a'] # 单独⼀列是个seriescol_data_2 = df.loc[:,'a'] # 同上，但⽐较复杂，⼀般不⽤col_data_3 = df.iloc[:,0] # 同上，可以在不知道列名的时候⽤以上三种均为只取⼀列的操作，并且是等效的，获取的都是series类型下⾯三种也是等效的，但是获取的是dataframe类型col_data_4 = df[['a']] # 单独⼀列是个dfcol_data_5 = df.loc[:,['a']] # 同上，但⽐较复杂，⼀般不⽤col_data_6 = df.iloc[:,[0]] # 同上，可以在不知道列名的时候⽤cols_data_1 = df[['a','b']] # DataFrame, 指定某⼏列，直接⽤列名cols_data_2 = df.loc[:,['a','b']] # 同上，但⽐较复杂，⼀般不⽤cols_data_3 = df.iloc[:,[0,2]] # 同上，可以在不知道列名的时候⽤cols_data_4 = df.loc[:,'a':'d'] # 指定连续列，⽤列名cols_data_5 = df.iloc[:,0:4] # 指定连续列，⽤数字5、取指定⾏和列import pandas as pddf = pd.read_csv('./IP2LOCATION.csv',encoding= 'utf-8',header=None)# print(type(df))df.columns = ['a','b','c','d','e','f']# 获取指定⾏列# 第⼀种，列索引⽤数字表⽰# data_1 = df.iloc[[1,3],[0]]# data_2 = df.iloc[[1,3],0]# data_3 = df.iloc[[1,3],1:3]# data_4 = df.iloc[[1,3],[1,3]]# print(data_4)# 第⼆种，列索引直接引⽤列名# data_5 = df.loc[1,['a','d']]# data_6 = df.loc[[1],['a','d']]# data_7 = df.loc[[1,3],'a':'d']# data_8 = df.loc[[1,3],['a','d']]# print(data_8)第⼀种情况是列索引⽤数字表⽰, df.iloc[⾏索引表达，列索引表达]，规则跟上⾯⾏索引⼀模⼀样。

pythonpandas获取csv指定行列的操作方法

pythonpandas获取csv指定⾏列的操作⽅法pandas获取csv指定⾏，列house_info = pd.read_csv('house_info.csv')1：取⾏的操作：house_info.loc[3:6]类似于python的切⽚操作2：取列操作：house_info['price'] 这是读取csv⽂件时默认的第⼀⾏索引3：取两列house_info[['price',tradetypename']] 取多个列也是同理的，注意⾥⾯是⼀个list的列表，不然会报错误；4:增加列：house_Info['adress_new']=list([.....]) 跟字典的操作有点类似；5：对某⼀列除以他的最⼤值，这样可以得到⼀个0，1的数值范围，也就是⼀个简易的归⼀化操作；house_info['price']/house_info['price'].max()6:对列进⾏排序操作：house_info.sorted_values('price',inplace=True,ascending=True)这⾥的inplace表⽰再排序的时候是否⽣成⼀个新的dataframe 结构，ascending=true表⽰升序，默认也是升序；还有⼀点应该注意的是：对于缺省值，（Nan）排序的时候会把他排在末尾；7：如何获取缺省值，：column_null = pd.isnull(column)column_is_null_true = column[column_null]总结以上所述是⼩编给⼤家介绍的python pandas获取csv指定⾏列的操作⽅法 ,希望对⼤家有所帮助，如果⼤家有任何疑问请给我留⾔，⼩编会及时回复⼤家的。

在此也⾮常感谢⼤家对⽹站的⽀持！如果你觉得本⽂对你有帮助，欢迎转载，烦请注明出处，谢谢！。

pythonpandas中文件的读写——read_csv（）读取文件

pythonpandas中⽂件的读写——read_csv（）读取⽂件read_csv()读取⽂件1.python读取⽂件的⼏种⽅式read_csv 从⽂件，url，⽂件型对象中加载带分隔符的数据。

默认分隔符为逗号read_table 从⽂件，url，⽂件型对象中加载带分隔符的数据。

默认分隔符为制表符（“\t”）read_fwf 读取定宽列格式数据（也就是没有分隔符）read_cliboard 读取剪切板中的数据，可以看做read_table的剪切板。

在将⽹页转换为表格时很有⽤2.读取⽂件的简单实现程序代码：df=pd.read_csv('D:/project/python_instruct/test_data1.csv')print('⽤read_csv读取的csv⽂件：', df)df=pd.read_table('D:/project/python_instruct/test_data1.csv', sep=',')print('⽤read_table读取csv⽂件：', df)df=pd.read_csv('D:/project/python_instruct/test_data2.csv', header=None)print('⽤read_csv读取⽆标题⾏的csv⽂件：', df)df=pd.read_csv('D:/project/python_instruct/test_data2.csv', names=['a', 'b', 'c', 'd', 'message'])print('⽤read_csv读取⾃定义标题⾏的csv⽂件：', df)names=['a', 'b', 'c', 'd', 'message']df=pd.read_csv('D:/project/python_instruct/test_data2.csv', names=names, index_col='message')print('read_csv读取时指定索引：', df)parsed=pd.read_csv('D:/project/python_instruct/test_data3.csv', index_col=['key1', 'key2'])print('read_csv将多个列做成⼀个层次化索引：')print(parsed)print(list(open('D:/project/python_instruct/test_data1.txt')))result=pd.read_table('D:/project/python_instruct/test_data1.txt', sep='\s+')print('read_table利⽤正则表达式处理⽂件读取：')print(result)输出结果：⽤read_csv读取的csv⽂件：a b c d message0 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 foo⽤read_table读取csv⽂件：a b c d message0 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 foo⽤read_csv读取⽆标题⾏的csv⽂件：0 1 2 3 40 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 foo⽤read_csv读取⾃定义标题⾏的csv⽂件：a b c d message0 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 fooread_csv读取时指定索引：a b c dmessagehello 1 2 3 4world 5 6 7 8foo 9 10 11 12read_csv将多个列做成⼀个层次化索引：value1 value2key1 key2one a 1 2b 3 4c 5 6d 7 8two a 9 10b 11 12c 13 14d 15 16[' A B C \n', 'aaa -0.26 -0.1 -0.4\n', 'bbb -0.92 -0.4 -0.7\n', 'ccc -0.34 -0.5 -0.8\n', 'ddd -0.78 -0.3 -0.2'] read_table利⽤正则表达式处理⽂件读取：A B Caaa -0.26 -0.1 -0.4bbb -0.92 -0.4 -0.7ccc -0.34 -0.5 -0.8ddd -0.78 -0.3 -0.23分块读取⼤型数据集先看代码：reslt=pd.read_csv('D:\project\python_instruct\weibo_network.txt')print('原始⽂件：', result)输出：Traceback (most recent call last):File "<ipython-input-5-6eb71b2a5e94>", line 1, in <module>runfile('D:/project/python_instruct/Test.py', wdir='D:/project/python_instruct')File "D:\Anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py", line 866, in runfileexecfile(filename, namespace)File "D:\Anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py", line 102, in execfileexec(compile(f.read(), filename, 'exec'), namespace)File "D:/project/python_instruct/Test.py", line 75, in <module>reslt=pd.read_csv('D:\project\python_instruct\weibo_network.txt')File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 562, in parser_freturn _read(filepath_or_buffer, kwds)File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 325, in _readreturn parser.read()File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 815, in readret = self._engine.read(nrows)File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1314, in readdata = self._reader.read(nrows)File "pandas\parser.pyx", line 805, in pandas.parser.TextReader.read (pandas\parser.c:8748)File "pandas\parser.pyx", line 827, in pandas.parser.TextReader._read_low_memory (pandas\parser.c:9003) File "pandas\parser.pyx", line 881, in pandas.parser.TextReader._read_rows (pandas\parser.c:9731)File "pandas\parser.pyx", line 868, in pandas.parser.TextReader._tokenize_rows (pandas\parser.c:9602)File "pandas\parser.pyx", line 1865, in pandas.parser.raise_parser_error (pandas\parser.c:23325) CParserError: Error tokenizing data. C error: out of memory发现数据集⼤得已经超出内存。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

如何实现pandas读取csv文件指定的前几行
今天小编给大家分享一篇Python技术开发方面的文章，如何实现pandas读取csv文件指定的前几行，喜欢Python开发的小伙伴下面就随小编一起来了解一下吧。

用于存储数据的csv文件有时候数据量是十分庞大的，然而我们有时候并不需要全部的数据，我们需要的可能仅仅是前面的几行。

这样就可以通过pandas中read_csv中指定行数读取的功能实现。

例如有data.csv文件，文件的内容如下：
GreydeMac-mini:chapter06 greyzhang$ cat data.csv
,name_01,coment_01,,,,
2,name_02,coment_02,,,,
3,name_03,coment_03,,,,
4,name_04,coment_04,,,,
5,name_05,coment_05,,,,
6,name_06,coment_06,,,,
7,name_07,coment_07,,,,
8,name_08,coment_08,,,,
9,name_09,coment_09,,,,
10,name_10,coment_10,,,,
11,name_11,coment_11,,,,
12,name_12,coment_12,,,,
13,name_13,coment_13,,,,
14,name_14,coment_14,,,,
15,name_15,coment_15,,,,
16,name_16,coment_16,,,,
17,name_17,coment_17,,,,
18,name_18,coment_18,,,,
19,name_19,coment_19,,,,
20,name_20,coment_20,,,,
21,name_21,coment_21,,,,
如果我们需要的数据仅仅是前5行，那么读取方式可以通过nrows的方式进行指定。

编写代码如下：
1 #!/usr/bin/python
2
3 import pandasas pd
4
5 data = pd.read_csv('data.csv',nrows =5)
6 print(data)
7
代码的运行结果如下：
GreydeMac-mini:chapter06 greyzhang$ python row_test.py
Unnamed: 0 name_01 coment_01 Unnamed: 3 Unnamed: 4 Unnamed: 5 \
0 2 name_02 coment_02 NaN NaN NaN
1 3 name_03 coment_03 NaN NaN NaN
2 4 name_04 coment_04 NaN NaN NaN
3 5 name_05 coment_05 NaN NaN NaN
4 6 name_06 coment_06 NaN NaN NaN
Unnamed: 6
0 NaN
1 NaN
2 NaN
3 NaN
4 NaN
GreydeMac-mini:chapter06 greyzhang$
从上面的结果中可以看出，通过指定读取行数实现了预期的功能。