生物信息学 本科生版 期末考试试题(机考)
大学生生物信息学考试模拟题及解析

大学生生物信息学考试模拟题及解析一、单选题(每题 3 分,共 30 分)1、生物信息学中,用于分析 DNA 序列的常见软件是()A BLASTB ClustalWC Primer PremierD MEGA2、以下哪种数据库主要存储蛋白质结构信息()A GenBankB PDBC UniProtD SWISSPROT3、在基因预测中,开放阅读框(ORF)是指()A 从起始密码子到终止密码子的一段序列B 具有特定功能的一段基因序列C 编码蛋白质的基因序列D 以上都不对4、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是5、以下哪种算法常用于序列比对()A 动态规划算法B 贪心算法C 分治法D 回溯算法6、生物信息学中,用于分析基因表达数据的常用方法是()A 聚类分析B 回归分析C 方差分析D 以上都是7、以下哪个不是常见的生物信息学文件格式()A FASTAB GenBankC PDBD CSV8、在蛋白质序列分析中,用于预测蛋白质二级结构的方法是()A 同源建模B 从头预测C 基于机器学习的方法D 以上都是9、进行基因功能注释时,常用的数据库是()A GOB KEGGC ReactomeD 以上都是10、以下哪种技术可以用于大规模测序()A Sanger 测序B 二代测序C 三代测序D 以上都是答案及解析:1、答案:A解析:BLAST(Basic Local Alignment Search Tool)是用于比较生物序列相似性的工具,常用于分析 DNA 序列。
ClustalW 主要用于多序列比对;Primer Premier 常用于设计引物;MEGA 用于构建进化树。
2、答案:B解析:PDB(Protein Data Bank)是主要存储蛋白质结构信息的数据库。
GenBank 主要存储核酸序列;UniProt 和 SWISSPROT 主要存储蛋白质序列信息。
生物信息考试题及答案

生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科,它利用计算机技术来分析和解释生物数据。
以下是一份生物信息学考试题及答案的示例。
生物信息学考试题一、选择题(每题2分,共20分)1. 生物信息学中,用于存储DNA序列的文件格式是:A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤?A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中,BLAST工具用于:A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的?A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的?A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题(每题10分,共30分)6. 简述生物信息学在现代生物学研究中的重要性。
7. 解释什么是基因组学,并说明其在医学研究中的应用。
8. 描述序列比对的基本原理及其在生物信息学中的作用。
三、计算题(每题15分,共30分)9. 假设你有一个DNA序列,其组成为:ATCGTA。
请计算其互补序列。
10. 给定两个蛋白质序列,序列A:A-B-C-D-E,序列B:A-C-E-B-D。
请使用Needleman-Wunsch算法计算它们的全局比对得分。
四、论述题(每题20分,共20分)11. 论述生物信息学在新药开发中的作用及其面临的挑战。
答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据,如基因组序列、蛋白质结构等,帮助科学家快速发现生物现象的规律,推动生物学的发展。
7. 基因组学是研究生物基因组的结构、功能和演化的科学。
在医学研究中,基因组学可以帮助我们了解疾病的遗传基础,为个性化医疗提供理论基础。
《生物工程与Bioinformatics基础》2020-2021期末试题及答案

《生物工程与Bioinformatics基础》2020-2021期末试题及答案一、选择题 (每题2分,共20分)1. 以下哪项是生物信息学的核心内容?A. 分子生物学B. 计算机科学C. 统计学D. 生物统计学答案:B. 计算机科学2. 以下哪个数据库是存储基因组序列的数据库?A. PubMedB. GenBankC. PDBD. SwissDock答案:B. GenBank3. 生物信息学中的数据分析方法不包括以下哪项?A. 机器学习B. 聚类分析C. 数据挖掘D. 量子化学计算答案:D. 量子化学计算4. 在生物信息学中,以下哪个工具用于序列比对?A. BLASTB. Clustal OmegaC. FASTAD. R答案:A. BLAST5. 以下哪个是生物信息学中的常用编程语言?A. PythonB. RC. MATLABD. C++答案:A. PythonB. R二、填空题 (每题2分,共20分)1. 生物信息学是运用计算机科学与生物学的交叉领域,旨在开发和应用计算机技术来理解生物数据。
2. 基因组学是研究生物体的全部基因及其表达和调控的学科。
3. 蛋白质组学是研究生物体内所有蛋白质的组成、结构、功能和相互作用的科学。
4. BLAST是一种常用的生物信息学工具,用于核酸或蛋白质序列的相似性搜索。
5. bioinformatics是一个跨学科领域,它结合了计算机科学、信息工程、分子生物学和统计学,以理解生物数据。
三、简答题 (每题10分,共30分)1. 请简要解释生物信息学的应用领域。
生物信息学的应用领域包括基因组学、蛋白质组学、系统生物学、药物设计和疾病建模等。
它被广泛应用于医学、生物学、农业和环境科学等领域,以推动科学发现和技术创新。
2. 请简要介绍生物信息学中的序列比对工具。
生物信息学中的序列比对工具用于比较两个或多个生物序列(如DNA、RNA或蛋白质序列)之间的相似性。
常用的序列比对工具包括BLAST(Basic Local Alignment Search Tool)、FASTA (FAST Allignment Search Tool for Proteins and Nucleotides)和Clustal Omega等。
生物信息技术考试试题

生物信息技术考试试题一、选择题(每题 3 分,共 30 分)1、以下哪个不是生物信息学的主要研究内容?()A 基因组学B 蛋白质组学C 细胞学D 代谢组学2、生物信息学中用于序列比对的常用算法是()A 动态规划算法B 贪心算法C 分治算法D 回溯算法3、在基因表达数据分析中,常用的标准化方法是()A RPKMB TPMC FPKMD 以上都是4、以下哪种数据库主要用于存储蛋白质结构信息?()A GenBankB PDBC UniProtD Ensembl5、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是6、以下哪个软件不是用于基因序列分析的?()A Primer PremierB SPSSC DNAStarD Vector NTI7、生物信息学中,预测蛋白质二级结构的方法不包括()A 基于同源建模B 基于机器学习C 基于物理化学原理D 基于经验规则8、在生物信息学中,BLAST 程序主要用于()A 序列比对B 进化分析C 基因预测D 蛋白质结构预测9、以下哪种编程语言在生物信息学中应用较为广泛?()A JavaB PythonC C++D Fortran10、用于分析基因芯片数据的软件包是()A R 语言中的 BioconductorB MATLABC StataD SAS二、填空题(每题 3 分,共 30 分)1、生物信息学中的三大核心数据库是_____、_____、_____。
2、基因序列的相似性搜索常用的工具是_____。
3、蛋白质的一级结构是指_____。
4、常见的基因注释数据库有_____、_____等。
5、系统发育树的构建基于_____的原理。
6、生物信息学中常用的数据格式有_____、_____等。
7、预测蛋白质三级结构的方法主要有_____、_____。
8、基因表达数据的差异分析常用的方法有_____、_____。
9、用于分析高通量测序数据的软件有_____、_____。
生物大数据期末考试练习题及答案

一、单选题1、Bioinformatics的含义是()A.表观遗传学B.基因组学C.蛋白质组学D.生物信息学正确答案:D2、利用PubMed文献数据查找论文“Transgenic plants of Petunia hybrida harboring the CYP2E1 gene efficiently remove benzene and toluene pollutants and improve resistance to formaldehyde”的第一作者是A.Xiang TB.Zhang DC.Bao LD.Li P正确答案:B3、被誉为“生物信息学之父”的科学家是()A.吴瑞B.SangerC.林华安D.Dulbecco正确答案:C4、Proteomics的含义是()A.基因组学B.生物信息学C.表观遗传学D.蛋白质组学正确答案:D5、生物信息学主要是利用哪种工具实现对生命科学研究中生物信息的存储、检索和分析的?()A.人造卫星B.iPhoneC.手机D.计算机正确答案:D6、HGP是()A.人类基因组计划B.国家核酸数据库C.在线人类孟德尔遗传数据D.水稻基因组计划正确答案:A7、下列哪些方法不能用于遗传育种()A.基因编辑B.化学诱导突变C.自然选择D.辐射诱导突变正确答案:C8、Genbank数据库中,mRNA的获取号可以以()字母开头A.NM_B.NP_C.XM_D.NC_正确答案:A9、下列那个数据库不属于NCBI()A.ArrayExpressB.NCBI GEOC.PubMedD.Genbank正确答案:A10、大数据处理遇到的瓶颈不包括()A.新算法B.熟悉数据处理的专业人士C.新的构架D.数据量正确答案:D11、可以用来做数据库搜索的比对算法是()A.Smith-WatermanB.Needelma-WunschC.Dynamic programmingD.BLAST正确答案:D12、下列哪个方法最可能在基因组组装过程中留下空缺()A.Mate pair建库B.C.Pair end测序C.长读段测序D.鸟枪法建库正确答案:D13、“一旦空位,永远空位”描述的是()A.渐进比对算法B.迭代比对算法C.分而治之比对算法D.动态规划比对算法正确答案:A14、下列不属于分子生物学数据库的特点的是()A.版本不更新B.数据间关系复杂C.数据库种类繁多D.数据存在冗余和偏差正确答案:A15、GenBank中具有唯一性的字段是()A.AccessionanismC.AuthorsD.Source正确答案:A16、哪个基因组序列还完全未被破解()A.菠萝B.恐龙C.猛犸象D.人类正确答案:B17、下面哪个工具可以用来检验原始读段的质量?()A.BWAB.blastnC.FastqcD.Samtools正确答案:C18、基于边合成边测序的测序方法是()A.Illumina/SolexaB.454/RocheC.NanoPoreD.SOLiD/ABI正确答案:A19、比较成熟的三代测序技术是()A.PacBioB.HelicosC.NanoPoreD.Illumina HiSeq正确答案:A20、不采用荧光标记核苷酸的测序技术是()A.Roche 454B.SangerC.ABI SOLiDD.NanoPore正确答案:D21、靶向测序使用的测序文库是()A.AmpliconB.PEC.Mate pairD.Shotgun正确答案:A22、RNA-seq从头组装的常用工具是()A.TrinityB.CufflinksC.ScriptureD.BWA正确答案:A23、RNA-Seq技术用途不包括()A.基因组测序B.基因定量C.基因融合研究D.基因可变剪切研究正确答案:A24、重测序数据分析的最后一步是()A.SNP分析B.比对C.功能注释D.质控正确答案:C25、影响基因组组装效果的因素不包括()A.读段长度B.测序深度C.测序时间D.测序准确度正确答案:C26、组装基因组时,由重复序列导致的错误类型不包括()A.基因融合B.基因剪切C.基因重排D.重复缺失正确答案:A27、重复序列是在基因组中出现次数大于1的DNA片段,不包括()A.旁系同源基因B.调控序列C.微卫星序列D.转坐子正确答案:B28、研究蛋白质与DNA相互作用的是()A.酵母三杂交B.免疫共沉淀C.酵母双杂交D.ChIP-seq正确答案:D29、在线的染色体可视化工具是()A.Genome browserB.DDBJC.EBID.NCBI正确答案:A30、下列属于最不易突变的氨基酸()A.半胱氨酸B.谷氨酸C.丝氨酸D.天冬氨酸正确答案:A二、多选题1、影响基因组组装效果的因素包括A.测序深度B.测序时间C.读段长度D.测序准确度正确答案:A、C、D2、常用的2个全基因组测序策略是A.鸟枪法B.逐步克隆法C.EST测序法D.重要区域优先测序法正确答案:A、B3、20世纪70年代,出现的2种DNA测序方法是A.化学降解测序法B.焦磷酸测序法C.单分子测序法D.链终止测序法正确答案:A、D4、关于C值悖论的描述正确的有哪些A.进化程度低的生物C值反而更高B.物种的C值和它进化的复杂性之间存在严格的对应关系C.亲缘关系相近的物种间C值差异很大D.C值远远超过了遗传信息量的需要正确答案:A、C、D5、基因组重测序技术可被用于哪些检测领域A.食品掺假检测B.中草药的产区检测C.皮草的真伪检测D.宠物疾病检测正确答案:A、B、C、D三、判断题1、配对测序方式可以用来解决重复序列长度超过read长度,无法拼接易形成断点的问题正确答案:√2、配对测序是一种特殊的双端测序方式正确答案:√3、读段文件除了文本格式之外,还可以用图象表示正确答案:×4、测序深度即测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一正确答案:√5、二代测序数据文件的后缀是.fa或.fastq正确答案:√6、fastaq文件中,Q值越小,测序质量越高()正确答案:×7、基因组从头组装的本质是寻找重叠区域()正确答案:√8、读段长于重复序列的长度才可能填补空缺()正确答案:√9、Contig越长基因组拼接效果越好()正确答案:√10、N50可以作为评估基因组组装效果的一个指标()正确答案:√11、RNA-seq基因对应的读段数量和基因长度及测序深度有关()正确答案:√12、进行有参考基因组的二代测序数据比对时,只需要基因组序列文件即可()正确答案:×13、FPKM是单端RNA-seq基因表达量的表示方法()正确答案:×14、对于复杂基因组,一般一种测序文库就足够了()正确答案:×15、测序文库构建很大程度决定了测序数据的好坏()正确答案:√16、二代测序的核心技术是循环芯片测序法()正确答案:√17、测序深度越高,测序数据量越大()正确答案:√18、二代测序数据文件的后缀是.fa或.fastq()正确答案:√19、基于焦磷酸合成测序的方法是SOLiD/ABI()正确答案:×20、Sanger测序发现时间早于K.Mullis的PCR()正确答案:√21、DNA测序和蛋白质测序相关技术都获得过诺贝尔奖()正确答案:√22、大规模基因组测序主要有逐步克隆和鸟枪法2种策略()正确答案:√23、传统的生物学研究方法是从表型出发()正确答案:√24、多数遗传性状是由单个基因决定的()正确答案:×25、人类基因组计划是中国人主持的第一个国际项目()正确答案:×26、相同长度序列,蛋白质组的复杂度低于基因的复杂度()正确答案:×27、大数据必然会造福人类正确答案:×28、大数据已经成为我国国家战略正确答案:√29、蛋白质发挥生物学功能依赖于其三维结构正确答案:√30、双端测序与单端测序的区别在于,前者需要在DNA片段的两端分别加上引物和连接子正确答案:√三、填空题1、常见的三大核酸数据库中,位于欧洲的是_________。
生物信息学期末复习题与答案

一、单选题1、总的来说,位于染色体内超过( )个碱基的DNA,构成了人类基因组。
A.30000000000B.3000000000C.300000000D.30000000正确答案:B2、人类镰刀型红细胞贫血症是由于血红蛋白β链N端第6个氨基酸由谷氨酸突变为( )造成的。
A.苏氨酸B.缬氨酸C.赖氨酸D.谷氨酸正确答案:B3、RefSeq数据库是由哪个组织开发和维护的?( )A.NIGB.NCBIC.EMBLD.SIB正确答案:B4、Long non-coding RNA长链非编码RNA是长度大于( )个核苷酸的非编码RNA。
A.150B.250C.300D.200正确答案:D5、tBLASTx分析是用核酸序列检索核酸序列数据库,下列说法正确的是?()A.核酸序列和核酸序列数据库都不需要翻译成蛋白质序列B.只有核酸序列数据库需要翻译成蛋白质序列C.只有核酸序列需要翻译成蛋白质序列D.核酸序列和核酸序列数据库都需要翻译成蛋白质序列正确答案:D6、要搜索编码蛋白质序列的核酸序列,适宜的分析方法是?()A.BLASTxB.BLASTnC.tBLASTnD.BLASTp正确答案:A7、下列对于PCR引物修饰的说法正确的是?()A.PCR引物的5’末端和3’末端均能进行修饰B.PCR引物的5’末端和3’末端均不能进行修饰C.只有PCR引物的5’末端能进行修饰D.只有PCR引物的3’末端能进行修饰正确答案:C8、下列哪个在线分析工具可以预测DNA的外显子-内含子?()A.AugustusB.PLACEC.ORFfinderD.Entrez正确答案:A9、Smith-Waterman动态规划算法矩阵中的每个单元格有几条路径?()A.1B.2C.3D.4正确答案:D10、下列关于Needleman-Wunsch算法和Smith-Waterman算法提出早晚的论述正确的是?()A.Needleman-Wunsch算法提出时间较早B.不确定C.Smith-Waterman算法提出时间较早D.二者提出时间相当正确答案:A11、当分类单元至少为3时,下列对“有根树与无根树的数目”判断正确的是?()A.有根树的数目要少于无根树的数目B.有根树的数目与无根树的数目一样多C.有根树的数目要多于无根树的数目D.二者数目无法判断正确答案:C12、下列哪种算法建树时,选择代价最小或者枝长最短的树?A.最大似然值法B.最大简约法C.邻接法D.UPGMA法正确答案:B二、多选题1、生物信息学是由( )等学科相互交叉而形成的一门新兴学科。
生物信息学考试试题

生物信息学考试试题一、选择题(每题 3 分,共 30 分)1、以下哪种不是常见的生物信息学数据库?()A GenBankB SWISSPROTC PubMedD Baidu2、在 DNA 序列分析中,以下哪个不是用于序列比对的算法?()A NeedlemanWunsch 算法B SmithWaterman 算法C BLAST 算法D Fourier 变换算法3、蛋白质结构预测的方法不包括()A 同源建模B 从头预测C 折叠识别D 随机模拟4、以下哪种不是基因表达数据分析的常用方法?()A 聚类分析B 主成分分析C 判别分析D 回归分析5、生物信息学中,用于预测蛋白质功能的方法有()A 基于序列相似性B 基于结构相似性C 基于基因共表达D 以上都是6、在基因组学中,以下哪个不是测序技术?()A Sanger 测序B 二代测序C 三代测序D 四代测序7、系统发生树构建的方法不包括()A 距离法B 最大简约法C 最大似然法D 最小二乘法8、以下哪种不是生物信息学中常用的编程语言?()A PythonB JavaC C++D Visual Basic9、以下哪个不是生物信息学在医学领域的应用?()A 疾病诊断B 药物研发C 医疗美容D 个性化医疗10、生物信息学中,处理大规模数据常用的工具是()A ExcelB R 语言C SPSSD Word二、填空题(每题 2 分,共 20 分)1、生物信息学是一门融合了生物学、计算机科学和()的交叉学科。
2、常见的核酸序列格式有 FASTA 和()。
3、蛋白质的二级结构包括α螺旋、β折叠和()等。
4、基因芯片技术是一种()分析技术。
5、序列比对的目的是寻找两个或多个序列之间的()。
6、人类基因组计划的主要目标是测定人类基因组的()序列。
7、生物信息学中的隐马尔可夫模型主要用于()。
8、系统发生分析中,外群的作用是()。
9、蛋白质相互作用网络分析有助于理解()。
10、生物信息学数据库可以分为一级数据库和()数据库。
生物信息学期末期末复习

■一、选择题:1.以下哪一个是mRNA条目序列号:A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗?■可能B.不可能4.下面哪种数据库源于mRNA信息:■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建:A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J:A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A.因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B.搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变:A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变:A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A.全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B.全局比对允许间隙,而局部比对不允许C.全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
暨南大学考试试卷
注意:
1. 本考试只有相对正确的答案,无论你如何作答,只要写出足够强的论证的理由和过程来
支撑你的观点,并且不违反课程内讲授的基本原理,即算正确。
2. 考试形式为机考,请自备电脑。
回答可直接写在本文件里,要写出过程和明确的结论。
最终答卷以PDF形式现场提交以避免乱码和篡改,文件名请统一命名为“学号-姓名.pdf”,例如2013042213-张三.pdf。
不按此格式命名文件名者将一律没有成绩!
3. 考试完毕,请用U盘将写好的报告PDF文档拷到监考老师的电脑上,或于考试结束后
15分钟内发邮件至zhanggong@,注明主题“期末考试”。
4. 本试卷分为4小题,各题分数分别为20、30、30、20 分,满分100分。
人卵细胞受精到胚胎发育极早期,经历如下阶段:
-卵细胞(oocyte)
-前核(pronuclei)
-受精卵(zygote)
-2-细胞期
-4-细胞期
-8-细胞期
-桑椹胚(morula)
为研究在发育过程中的转录调控,研究者对以上时期的细胞进行了单细胞测序。
测序仪使用Illumina HiSeq-2000,采用双端100nt测序方式。
测序数据的第一端用FANSe2算法云分析平台进行一键式定量分析,得到28个基因表达定量文件(*_SVmerge.txt)。
请通过推理和分析,回答以下问题:
1.真核生物中,同一个基因往往可以通过可变剪切的方式,生成若干个不同的
剪切变体。
请问云平台分析的这批数据,是如何处理同一基因的不同剪切变体的?这种测序方式有没有可能定量不同的剪切变体?为什么?
暨南大学《生物信息学(本科生版)》试卷考生姓名、学号:
2.Oocyte, zygote, pronuclei, morula阶段都做了生物学重复,请问其重复性好不
好?如果不好,有哪些因素会造成重复性不好?会不会影响结论?
3.发育生物学课本上就已经说道,2-细胞期、4-细胞期、8-细胞期的每一个细胞
都不一样。
受精卵已有植物极和动物极之分,在第一次卵裂的2-细胞期中,植物极和动物极被分开;然后继续进行两次纵向卵裂,形成上部4个动物极细胞和下部8个植物极细胞。
将来动物极细胞发育成外胚层,植物极细胞发育成内胚层。
也就是说,一个胚胎的若干个细胞之间就有不同,其转录组应该有不同。
那么,同期的细胞之间差异大,还是不同期之间差异大?这些差异是由发育阶段所致,还是由于单细胞测序的随机性误差所致?
4.哪些基因是“管家基因”(housekeeping gene),哪些基因是只在未受精卵细胞中
有表达的?这两部分基因的mRNA长度分布有没有统计学意义上的差别?
(RefSeq-RNA数据库里面所有的mRNA序列都在Human_hg19_refMrna20150317.fa文件中)。