Oracle数据库运维案例介绍
数据库运维面试题

数据库运维面试题1. 介绍数据库运维的重要性和职责 (200字左右)数据库运维是确保企业数据库系统正常运作的关键任务之一。
作为数据库运维人员,我们负责维护和管理数据库系统,以保证数据的完整性、可靠性和安全性。
我们需要监控数据库性能,优化查询和存储过程,处理数据库故障和备份恢复,以及制定和实施数据库安全策略和灾难恢复计划。
数据库运维的目标是提供高效稳定的数据库服务,确保企业的数据在任何情况下都能得到保护和可靠使用。
2. 数据库运维面试常见问题及回答 (800字左右)2.1 数据库性能监控和优化面试官可能会问到如何监控和优化数据库性能的问题。
我会回答说,我们可以使用性能监控工具,如Oracle Enterprise Manager或MySQL Performance Schema来监控数据库的性能参数,如CPU利用率、内存利用率、磁盘I/O等,并根据监控结果进行性能调优,如优化查询语句、创建索引、调整数据库参数等。
2.2 数据库备份和恢复备份和恢复是数据库运维的重要任务之一。
面试官可能会问到如何备份和恢复数据库的问题。
我会回答说,我们可以使用数据库自带的备份工具,如Oracle的RMAN或MySQL的mysqldump来进行数据库备份,同时保证备份的完整性和一致性。
在恢复数据库时,我们可以使用备份文件进行完全恢复或部分恢复,以确保数据的可靠性和可用性。
2.3 数据库安全和灾难恢复数据库安全和灾难恢复是数据库运维的重要任务。
面试官可能会问到如何保护数据库安全和进行灾难恢复的问题。
我会回答说,我们可以通过实施访问控制、加密传输、审计日志等措施来保护数据库安全;同时,我们还应该定期制定和测试数据库的灾难恢复计划,以应对自然灾害、硬件故障等情况下的数据丢失恢复。
2.4 数据库版本升级和迁移面试官可能会问到如何进行数据库版本升级和迁移的问题。
我会回答说,我们需要先制定版本升级或迁移的计划,然后备份原有数据库,在测试环境中进行版本升级或迁移的测试。
面向企业级数据库的故障分析及运维研究:以Oracle数据库为例

2017年软 件2017, V ol. 38, No. 10作者简介: 金鑫(1985-),女,国家电网公司信息通信分公司职员,工程师,主要从事信息运维工作;闫龙川(1979-),男,国家电网公司信息通信分公司处长,高级工程师,主要从事信息运维工作;刘军(1970-),男,国家电网公司信息通信分公司主任,高级工程师,主要从事信息通信运维管理工作;耿亮(1985-),男,全球能源互联网集团有限公司职员,工程师,主要从事能源研究工作。
面向企业级数据库的故障分析及运维研究:以Oracle 数据库为例金 鑫1,闫龙川1,刘 军1,耿 亮2(1. 国家电网公司信息通信分公司,北京 100761;2. 全球能源互联网集团有限公司,北京 100031)摘 要: 数据库是信息系统的核心组件,数据库故障是信息系统故障的主要因素,数据库运维是信息系统运行维护工作的重点。
基于Oracle 数据库的架构分析和故障机理深层次研究,创新性提出故障原因分类体系,提出实用运维操作方法,给出数据库故障典型案例,为信息系统运维工作人员做好数据库运维工作的提供系统方法论。
关键词: Oracle ;数据库故障;诊断分析中图分类号: TP319 文献标识码: A DOI :10.3969/j.issn.1003-6970.2017.10.035本文著录格式:金鑫,闫龙川,刘军,等. 面向企业级数据库的故障分析及运维研究:以Oracle 数据库为例[J]. 软件,2017,38(10):178-181Research on Failure Analysis and Operational Maintenance focused onEnterprise Databases: an Example on OracleJIN Xin 1, YAN Long-chuan 1, LIU Jun 1, GENG Liang 2(1. State Grid Information & Telecommunication Branch, Beijing 100761, China ; 2. Global Energy Interconnection Group Co., Ltd., Beijing 100031, China )【Abstract 】: Database is the core component of information system, database failure is the main factor of informa-tion system failure, database operation and maintenance is the focus of information system operation and mainte-nance work. Based on the Oracle database architecture analysis and deep research on failure mechanism, innova-tively proposed fault classification system, put forward the practical operation and maintenance operation method, given the typical case of database failure, and provided system methodology for the information system operation and maintenance staff to do the work of database operation and maintenance. 【Key words 】: Oracle; Database failures; Diagnosis and analysis;0 引言数据库承担数据的存储、读取等功能,是信息系统重要组成部分,数据库故障可能导致信息系统瘫痪,对企业运营和安全生产的威胁极大,数据丢失可能会对企业造成不可挽回的影响。
(完整版)Oracle数据库规划设计和运行维护方案

Oracle数据库规划设计和运行维护方案(V1。
0)目录1。
前言 (6)1。
1. 编写目的 (6)1。
2。
方案说明 (6)1.3. 预期读者 (7)2。
数据库部署模式 (7)2.1. 单机模式 (7)2.2. 双机热备模式(HA模式) (8)2.3。
集群模式(RAC) (9)2。
4. 主从模式(DataGuard) (10)2.5。
混合模式(DataGrard+RAC) (10)2。
6。
数据库运行模式选择 (11)3。
系统特点和数据库类型 (11)3。
1。
业务系统的特点 (11)3。
1.1。
OLTP特点 (12)3.1.2。
OLAP特点 (13)3。
2。
数据库的规模 (13)3.3。
数据库版本建议 (13)4. 数据库运行环境规划 (14)4.1。
主机规划 (14)4。
2. 网络规划 (15)4.3. 存储规划 (17)5。
数据库安装部署规划 (19)5.1。
软件安装路径 (19)5。
2. 表空间设计 (19)5.2.1. 业务数据量估算 (19)5。
2。
2。
表空间使用规则 (21)5.2.3。
表空间的概念和分配原则 (25)5。
2.4。
表空间的参数配置 (26)5.2。
5. Undo/temp表空间的估算 (30)5.2。
6. 表的参数设置 (30)5.2。
7. 索引的使用原则 (31)5。
3. 文件设计 (32)5.3。
1. RAC配置文件 (32)5.3。
2. 参数文件 (33)5。
3。
3. 控制文件 (34)5。
3.4。
重做日志文件 (35)6。
数据库应用规划 (37)6。
1。
数据库用户设计 (37)6。
1。
1。
用户权限规划 (37)6.1.2。
用户安全实现 (39)6。
1。
3. 用户类型及角色命名规范 (41)6.2. 数据库分区 (44)6.2。
1. 数据库分区介绍 (44)6。
2.3. 物理分割 (45)6。
2。
4. 数据分区的优点 (45)6.2.5. 数据分区的不足 (45)6.2。
系统运维常见案例分析

故障修复过程
重启应用系统,检查是否 恢复正常
增加系统资源,如增加内 存、CPU等
检查应用程序日志,定位 问题代码并进行修复
检查网络连接,确保稳定 可靠
06
案例五:安全漏洞修补与加固
安全漏洞描述
某大型企业网站遭受黑客攻击,导致 网站数据泄露和服务器瘫痪。
黑客利用网站的安全漏洞,获取了网 站管理员的账号和密码,进而控制了 整个网站系统。
背景
随着信息技术的快速发展,企业对于系统的稳定性和可用性要求越来越高。系 统运维作为保障系统稳定运行的关键环节,需要不断总结经验,提高运维水平 。
汇报范围
01
本次汇报将涵盖常见的系统运维 案例,包括硬件故障、软件故障 、网络故障、数据恢复等方面。
02
通过案例分析,总结出相应的经 验教训和解决方案,为今后的系 统运维工作提供参考和借鉴。
故障恢复过程
软件冲突解决
重新安装或更新应 用程序,修复系统 漏洞。
数据备份与恢复
对重要数据进行备 份,使用备份数据 进行恢复。
硬件故障排查
检查硬件设备是否 正常工作,如更换 内存条、硬盘等。
网络问题解决
检查网络连接是否 正常,重新配置网 络参数。
系统优化
对系统进行优化, 提高服务器性能和 稳定性。
安全漏洞原因分析
网站系统存在多个安全漏洞,包括但不限于SQL注入、跨站脚本攻击、文件上传 漏洞等。
管理员对安全问题的重视程度不够,没有及时更新系统和补丁,也没有对网站进 行定期的安全检查。
安全漏洞修补与加固过程
发现安全漏洞后,立即采取措施隔离 网站服务器,防止黑客进一步攻击。
对网站系统进行全面检查,找出所有 可能存在的安全漏洞,并进行分类和
系统运维常见案例分析

资源调整
增加数据库内存或调整CPU使 用率,提高数据库性能。
网络检查
检查网络连接是否正常,确保 网络通信畅通无阻。
ቤተ መጻሕፍቲ ባይዱ
04
案例四:软件升级引起的 兼容性问题
现象描述
某公司在进行软件系统升级后,发现 新版本软件与旧系统存在兼容性问题 ,导致系统运行缓慢、频繁崩溃或某 些功能无法正常使用。
用户投诉数量大幅增加,严重影响业 务正常运行。
在升级前,对可能涉及到的所有软硬件环境进行充分的兼 容性测试,包括不同版本间的接口、数据格式和外部依赖 项的验证。
回滚计划
为避免升级失败导致业务中断,应预先制定回滚计划,确 保系统能在升级失败时快速恢复到旧版本。
制定详细的升级计划
明确升级过程中的风险点,制定应急预案,并按照计划执 行升级操作。
监控与日志
出现崩溃或异常退出的情况。
服务器在高负载情况下,可能会 引发其他问题,如网络连接不稳
定、磁盘I/O瓶颈等。
问题分析
不合理的应用设计
应用程序存在性能瓶颈或代码 不良设计,导致服务器负载过 高。
不良的网络环境
网络带宽不足或网络延迟高等 问题,影响服务器性能。
服务器硬件资源不足
服务器硬件配置不足以支持当 前运行的应用程序和业务需求 。
系统运维常见案例分析
汇报人: 日期:
目录
• 案例一:服务器负载过高 • 案例二:网络连接异常 • 案例三:数据库故障 • 案例四:软件升级引起的兼容性问题 • 案例五:病毒攻击
01
案例一:服务器负载过高
现象描述
服务器的CPU或内存使用率持续 高于80%或90%,甚至达到 100%。
由于负载过高,服务器响应变慢 ,导致应用程序性能下降,甚至
系统运维常见案例分析

案例十七:如何做FS扩容、缩容
Aix:jfs2
# chfs …
Linux:ext3、reiserfs
先扩展lv,再扩展fs,ext3为例如下: # lvextend -L+3G /dev/appvg/lvol0 # e2fsck -f /dev/appvg/lvol0 # resize2fs /dev/appvg/lvol0 缩容必须离线做,先缩fs,再缩lv # umount /test # e2fsck -f /dev/appvg/lvol0 # resize2fs /dev/appvg/lvol0 2G # lvreduce -L-Leabharlann G /dev/appvg/lvol0
一、一般主机IP地址的解析顺序依次是host,DNS 1、Aix相关配置文件主要如下: /etc/netsvc.conf、/etc/resolv.conf /etc/netsvc.conf文件中设置如下行: hosts=local,bind 这样主机IP地址就先从本地档案(/etc/hosts)开始搜索,2、 其次再去找DNS server /etc/resolv.conf 设置domain 、dns地址 2、Linux配置文件是怎么样的呢?如果解析顺序为 DNS,host,会有什么问题么?
迁移命令例: migratelp hd2/$lpartnum/2 hdisk5
案例十:rm 清理文件失败,参数过长
rm 清理文件时遭遇无法删除,提示:"ksh: /usr/bin/rm 0403-027 The parameter list is too long.“
# ls –l |awk ‘{print “rm “ $9 }’ |sh # find . -name \*.FDC |xargs rm
Oracle数据库性能优化与案例分析

Oracle数据库性能优化与案例分析
性能优化探讨
• 原因:为什么? • 慢(响应时间) • 慢(吞吐量)
性能优化探讨
• 目的:为了什么? • 快(响应时间) • 快(吞吐量)
性能优化之案例分析
• 案例之方法论 • 案例之登录访问 • 案例之资源 • 案例之锁
性能优化方法论发展
• 登录输入指标测量 • Logons:= EndSnap. logons cumulative– StartSnap. logons
cumulative。 • Logons Per Second:= Logons / TimeInterval
案例之登录访问
登录输出指标测量:
Logon Response Time:= Network Response Time * 10 + Native TCP Logon :=Network Response Time * 10 + Listener Response Time + Native IPC Logon Time 。
案例之登录访问
• 例:
•
某医院HIS业务系统的账户登录操作异常缓慢,部分情况下
甚至会出现长时间的卡壳情况,业务影响主要发生在每天早上
的上班时刻。
案例之登录访问
优化过程: • 账户登录过程一般涉及到在账户表格以及对应日志表格上的冲
突,比如Buffer busy waits或者TX lock。AWR未体现该特征。 • AWR报告显示connection management call elapsed time时间偏长
成功率:98% 高 失败率:2% 低
失败人数:500*2%=10
十三起惨痛宕机案例

十三起惨痛宕机案例01Oracle系统参数过小导致数据库宕机数据库双机安装完成后,数据库实例能够正常启动,但当启动全部应用软件后约10分钟,主机数据库出现自动切换至备机,再运行约10分钟备机数据库自动宕机。
原因分析:启动应用软件前,数据库双机运行正常且能正常切换。
当启动全部应用软件后,数据库发生异常切换。
查看双机状态发现,网卡、磁盘等资源均正常,数据库应用资源状态异常。
从上述情况初步分析为数据库问题导致双机异常。
进一步分析/var/adm/message日志消息,发现引起数据库异常的原因为会话数达到最大值,新的应用连接无法获取会话资源,导致数据库管理软件判断运行系统异常后自动停止数据库。
处理过程:1、使用sys用户以sysdba权限登陆数据库sqlplus ‘/as sysdba’2、查看数据库当前最大进程数show parameter processes;NAME TYPE VALUEaq_tm_processes integer 1db_writer_processes integer 1job_queue_processes integer 10log_archive_max_processes integer 1processes integer 150其中processes=150为oracle数据库安装后的默认值3、根据实际情况修改数据库最大进程数alter system set processes=800 scopo=spfile;oracle的最大会话数与系统参数processes有关,其关系为sessions=1.1×processes+5。
根据实际情况将processes参数修改为800。
4、重启oracle数据库,再使用show parameter processes检查参数修改情况。
由社区会员“hp_hp”分享02P720异常宕机故障一例主机:P720 8202-E4B现象:运行正常的某一天,在未出现任何告警的情况下,系统突然访问不了。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
29740, 00000, "evicted by member %s, group incarnation %s"
// *Cause: This member was evicted from the group by another member of the
//
cluster database for one of several reasons, which may
//
include a communications error in the cluster, failure to issue
//
a heartbeat to the control file, etc.
// *Action: Check the trace files of other active instances in the cluster
xxdb1_netstat_16.10.08.1600.dat:zzz ***Sat Oct 8 16:10:09 CST 2016 xxdb1_netstat_16.10.08.1600.dat: 19535 packet reassembles failed xxdb1_netstat_16.10.08.1600.dat:zzz ***Sat Oct 8 16:11:09 CST 2016 xxdb1_netstat_16.10.08.1600.dat: 25890 packet reassembles failed xxdb1_netstat_16.10.08.1600.dat:zzz ***Sat Oct 8 16:12:09 CST 2016 xxdb1_netstat_16.10.08.1600.dat: 33085 packet reassembles failed xxdb1_netstat_16.10.08.1600.dat:zzz ***Sat Oct 8 16:13:09 CST 2016 xxdb1_netstat_16.10.08.1600.dat: 41839 packet reassembles failed xxdb1_netstat_16.10.08.1600.dat:zzz ***Sat Oct 8 16:14:09 CST 2016 …... xxdb1_netstat_16.10.08.1600.dat: 62215 packet reassembles failed xxdb1_netstat_16.10.08.1600.dat:zzz ***Sat Oct 8 16:17:09 CST 2016 xxdb1_netstat_16.10.08.1600.dat: 63082 packet reassembles failed xxdb1_netstat_16.10.08.1600.dat:zzz ***Sat Oct 8 16:18:09 CST 2016 xxdb1_netstat_16.10.08.1600.dat: 64273 packet reassembles failed xxdb1_netstat_16.10.08.1600.dat:zzz ***Sat Oct 8 16:19:09 CST 2016 xxdb1_netstat_16.10.08.1600.dat: 65436 packet reassembles failed
我们能够得到什么信息?
LMS进程的作用是什么 ? LMD进程的作用是什么? Oracle Rac 脑裂机制的判断方式?
数据库节点1的情况如何
Sat Oct 08 16:14:59 2016
?
Detected an inconsistent instance membership by instance 2
Errors in file /u01/../xxxx1_lmon_11382.trc (incident=363695):
ORA-29740: evicted by instance number 2, group incarnation 12
Incident details in: /u01/../xxxx1_lmon_11382_i363695.trc
Oracle数据库运维案例介绍
技术创新 变革未来
Sat Oct 08 16:14:10 2016 IPC Send timeout detected. Sender: ospid 11292 [oracle@xxxx (LMS3)] Receiver: inst 1 binc 429417348 ospid 11405 …… IPC Send timeout detected. Sender: ospid 11278 [oracle@xxxx (LMD0)] Receiver: inst 1 binc 429417294 ospid 11388 IPC Send timeout to 1.0 inc 10 for msg type 65518 from opid 12 Sat Oct 08 16:14:51 2016 IPC Send timeout detected. Sender: ospid 11270 [oracle@xxxx (PING)] Receiver: inst 1 binc 429417288 ospid 11376 Sat Oct 08 16:14:59 2016 Detected an inconsistent instance membership by instance 2 Evicting instance 1 from cluster
……
Errors in file /u01/../xxxx1_lmon_11382.trc:
ORA-29740: evicted by instance number 2, group incarnation 12
LMON (ospid: 11382): terminating the instance due to error 29740
//
group for indications of errors that caused a reconfiguration.PC Send timeout
网络问题造成丢包或通讯异常 主机资源(CPU、内存、I/O等)问题导致进程无法响应 Oracle BUG(例如Oracle DRM的一些bug)