请教相老师,新接手一个双节点rac后,日常维护时要注意的地方

spectre

本帖最后由 spectre 于 2011-4-11 10:15 编辑

相老师，我是您的学生，我想请教一下，我入职后接手的是一个双节点的rac集群，数据库的数据量不大，是关于土地交易方面的，强调稳定性，我想了解一下：目前这个情况下我急需熟练掌握的有哪几个方面的知识？接手时要了解这个数据库集群的哪些状况？日常维护时除了每天检查告警日志，还需要经常检查什么？维护时一般要注意的地方有哪些？谢谢老师~

P4 · 发表于 2011-4-12 15:32:34

老师，以下是我找到的资料，请问还有需要补充的地方吗？
在Oracle数据库运行期间，DBA应该对数据库的运行日志及表空间的使用情况进行监控，及早发现数据库中存在的问题。

一、Oracle警告日志文件监控

Oracle在运行过程中，会在警告日志文件(alert_SID.log)中记录数据库的一些运行情况:

●数据库的启动、关闭，启动时的非缺省参数;

●数据库的重做日志切换情况，记录每次切换的时间，及如果因为检查点(checkpoint)操作没有执行完成造成不能切换，会记录不能

切换的原因;

●对数据库进行的某些操作，如创建或删除表空间、增加数据文件;

●数据库发生的错误，如表空间不够、出现坏块、数据库内部错误(ORA-600)

DBA应该定期检查日志文件，根据日志中发现的问题及时进行处理

问题处理

启动参数不对检查初始化参数文件

因为检查点操作或归档操作没有完成造成重做日志不能切换如果经常发生这样的情况，可以考虑增加重做日志文件组;想办法提高检

查点或归档操作的效率;

有人未经授权删除了表空间检查数据库的安全问题，是否密码太简单;如有必要，撤消某些用户的系统权限

出现坏块检查是否是硬件问题(如磁盘本生有坏块)，如果不是，检查是那个数据库对象出现了坏块，对这个对象进行重建

表空间不够增加数据文件到相应的表空间

出现ORA-600根据日志文件的内容查看相应的TRC文件，如果是Oracle的bug，要及时打上相应的补丁

二、数据库表空间使用情况监控(字典管理表空间)

数据库运行了一段时间后，由于不断的在表空间上创建和删除对象，会在表空间上产生大量的碎片，DBA应该及时了解表空间的碎片

和可用空间情况，以决定是否要对碎片进行整理或为表空间增加数据文件。

select tablespace_name,
count(*) chunks ,
max(bytes/1024/1024) max_chunk
from dba_free_space
group by tablespace_name;

上面的SQL列出了数据库中每个表空间的空闲块情况,如下所示:

TABLESPACE_NAME CHUNKS MAX_CHUNK
-------------------- ---------- ----------
INDX 1 57.9921875
RBS 3 490.992188
RMAN_TS 1 16.515625
SYSTEM 1 207.296875
TEMP 20 70.8046875
TOOLS 1 11.8359375
USERS 67 71.3671875

其中，CHUNKS列表示表空间中有多少可用的空闲块(每个空闲块是由一些连续的Oracle数据块组成)，如果这样的空闲块过多，比如平

均到每个数据文件上超过了100个，那么该表空间的碎片状况就比较严重了，可以尝试用以下的SQL命令进行表空间相邻碎片的接合:

alter tablespace 表空间名 coalesce;

然后再执行查看表空间碎片的SQL语句，看表空间的碎片有没有减少。如果没有效果，并且表空间的碎片已经严重影响到了数据库的

运行，则考虑对该表空间进行重建。

MAX_CHUNK列的结果是表空间上最大的可用块大小，如果该表空间上的对象所需分配的空间(NEXT值)大于可用块的大小的话，就会提

示ORA-1652、ORA-1653、ORA-1654的错误信息，DBA应该及时对表空间的空间进行扩充，以避免这些错误发生。

对表空间的扩充对表空间的数据文件大小进行扩展，或向表空间增加数据文件，具体操作见“存储管理”部份。

三、查看数据库的连接情况

DBA要定时对数据库的连接情况进行检查，看与数据库建立的会话数目是不是正常，如果建立了过多的连接，会消耗数据库的资源。

同时，对一些“挂死”的连接，可能会需要DBA手工进行清理。

以下的SQL语句列出当前数据库建立的会话情况:

select sid,serial#,username,program,machine,status
from v$session;

输出结果为:

SID SERIAL# USERNAME PROGRAM MACHINE STATUS
---- ------- ---------- ----------- --------------- --------
1 1 ORACLE.EXE WORK3 ACTIVE
2 1 ORACLE.EXE WORK3 ACTIVE
3 1 ORACLE.EXE WORK3 ACTIVE
4 1 ORACLE.EXE WORK3 ACTIVE
5 3 ORACLE.EXE WORK3 ACTIVE
6 1 ORACLE.EXE WORK3 ACTIVE
7 1 ORACLE.EXE WORK3 ACTIVE
8 27 SYS SQLPLUS.EXE WORKGROUP\WORK3 ACTIVE
11 5 DBSNMP dbsnmp.exe WORKGROUP\WORK3 INACTIVE
其中，

SID 会话(session)的ID号;

SERIAL# 会话的序列号，和SID一起用来唯一标识一个会话;

USERNAME 建立该会话的用户名;

PROGRAM 这个会话是用什么工具连接到数据库的;

STATUS 当前这个会话的状态，ACTIVE表示会话正在执行某些任务，INACTIVE表示当前会话没有执行任何操作;

如果DBA要手工断开某个会话，则执行:

alter system kill session 'SID,SERIAL#';

注意，上例中SID为1到7(USERNAME列为空)的会话，是Oracle的后台进程，不要对这些会话进行任何操作。

四、控制文件的备份

在数据库结构发生变化时，如增加了表空间，增加了数据文件或重做日志文件这些操作，都会造成Oracle数据库控制文件的变化，

DBA应及进行控制文件的备份，备份方法是:

执行SQL语句:

alter database
backup controlfile to '/home/backup/control.bak';
或:

alter database
backup controlfile to trace;
这样，会在USER_DUMP_DEST(初始化参数文件中指定)目录下生成创建控制文件的SQL命令。

五、检查数据库文件的状态

DBA要及时查看数据库中数据文件的状态(如被误删除)，根据实际情况决定如何进行处理，检查数据文件的状态的SQL如下:

select file_name,status
from dba_data_files;

如果数据文件的STATUS列不是AVAILABLE，那么就要采取相应的措施，如对该数据文件进行恢复操作，或重建该数据文件所在的表空

间。

六、检查数据库定时作业的完成情况

如果数据库使用了Oracle的JOB来完成一些定时作业，要对这些JOB的运行情况进行检查:

select job,log_user,last_date,failures
from dba_jobs;

如果FAILURES列是一个大于0的数的话，说明JOB运行失败，要进一步的检查。

七、数据库坏块的处理

当Oracle数据库出现坏块时，Oracle会在警告日志文件(alert_SID.log)中记录坏块的信息:

ORA-01578: ORACLE data block corrupted (file # 7, block #)

ORA-01110: data file: '/oracle1/oradata/V920/oradata/V816/users01.dbf'

其中，代表坏块所在数据文件的绝对文件号，代表坏块是数据文件上的第几个数据块

出现这种情况时，应该首先检查是否是硬件及操作系统上的故障导致Oracle数据库出现坏块。在排除了数据库以外的原因后，再对发

生坏块的数据库对象进行处理。

1.确定发生坏块的数据库对象

SELECT tablespace_name,
segment_type,
owner,
segment_name
FROM dba_extents
WHERE file_id =
AND
between block_id AND block_id+blocks-1;

2.决定修复方法

如果发生坏块的对象是一个索引，那么可以直接把索引DROP掉后，再根据表里的记录进行重建;

如果发生坏块的表的记录可以根据其它表的记录生成的话，那么可以直接把这个表DROP掉后重建;

如果有数据库的备份，则恢复数据库的方法来进行修复;

如果表里的记录没有其它办法恢复，那么坏块上的记录就丢失了，只能把表中其它数据块上的记录取出来，然后对这个表进行重建。

3.用Oracle提供的DBMS_REPAIR包标记出坏块

exec DBMS_REPAIR.SKIP_CORRUPT_BLOCKS('','');

4.使用Create table as select命令将表中其它块上的记录保存到另一张表上

create table corrupt_table_bak
as
select * from corrupt_table;

5.用DROP TABLE命令删除有坏块的表

drop table corrup_tatble;

6.用alter table rename命令恢复原来的表

alter table corrupt_table_bak
rename to corrupt_table;

7.如果表上存在索引，则要重建表上的索引

八、操作系统相关维护

DBA要注意对操作系统的监控:

●文件系统的空间使用情况(df -k)，必要时对Oracle的警告日志及TRC文件进行清理

●如果Oracle提供网络服务，检查网络连接是否正常

●检查操作系统的资源使用情况是否正常

●检查数据库服务器有没有硬件故障，如磁盘、内存报错

常用命令
crs
最常用命令:
crs_stat –t       以缩略形式查看crs状态
crs_start –all       启动crs所有资源
crs_stop –all       停止crs所有资源
crsctl start resources  启动crs所有资源(比crs_start层次深)
crsctl stop resources  停止crs所有资源(比crs_start层次深)
crsctl start crs    启动crs
crsctl start crs    停止crs
查看当前数据库状态
select instance_number, instance_name ,host_name, version, status from v$instance;
查看表空间使用情况
select a.tablespace_name,nvl(sum(a.bytes),0)/1024/1024 total_space,
nvl(sum(b.bytes),0)/1024/1024 free_space
from dba_data_files a,dba_free_space b
where a.tablespace_name=b.tablespace_name
group by a.tablespace_name;

每天维护工作
1.检查crs状态
  命令使用示例: 主机名：db1/db2  State为online为正常
# /opt/oracle/product/10.2/crs/bin/crs_stat -t
Name          Type          Target State    Host
------------------------------------------------------------
ora....SM1.asm application ONLINE ONLINE db1
ora....B1.lsnr application ONLINE ONLINE db1
ora.db1.gsd application ONLINE ONLINE db1
ora.db1.ons application ONLINE ONLINE db1
ora.db1.vip application ONLINE ONLINE db1
ora....SM2.asm application ONLINE ONLINE db2
ora....B2.lsnr application ONLINE ONLINE db2
ora.db2.gsd application ONLINE ONLINE db2
ora.db2.ons application ONLINE ONLINE db2
ora.db2.vip application ONLINE ONLINE db2
ora.orcl.db application ONLINE ONLINE db1
ora....l1.inst application ONLINE ONLINE db1
ora....l2.inst application ONLINE ONLINE db2
2.检查数据库状态  sid=orcl1  status为open是正常

SQL> select instance_number, instance_name ,host_name, version, status from v$instance;
INSTANCE_NUMBER INSTANCE_NAME HOST_NAME                                                       VERSION

STATUS


--------------- ---------------- ---------------------------------------------------------------- -----------------

------------


            1 orcl1          db1                                                       10.2.0.1.0       OPEN


3.检查监听程序状态
$ lsnrctl status
LSNRCTL for IBM/AIX RISC System/6000: Version 10.2.0.3.0 - Production on 27-AUG-2007 11:06:50
Copyright (c) 1991, 2006, Oracle.  All rights reserved.
Connecting to (ADDRESS=(PROTOCOL=tcp)(HOST=)(PORT=1521))
STATUS of the LISTENER
------------------------
Alias                   LISTENER
Version                TNSLSNR for IBM/AIX RISC System/6000: Version 10.2.0.3.0 - Production
Start Date             15-JUN-2007 16:13:58
Uptime                   72 days 18 hr. 52 min. 52 sec
Trace Level             off
Security                ON: Local OS Authentication
SNMP                   ON
Listener Parameter File /opt/oracle/product/10.2/db_1/network/admin/listener.ora
Listener Log File       /opt/oracle/product/10.2/db_1/network/log/listener.log
Listening Endpoints Summary...
  (DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=hldzjdb01)(PORT=1521)))
Services Summary...
Service "+ASM" has 1 instance(s).
  Instance "+ASM1", status BLOCKED, has 1 handler(s) for this service...
Service "+ASM_XPT" has 1 instance(s).
  Instance "+ASM1", status BLOCKED, has 1 handler(s) for this service...
Service "hljdb" has 1 instance(s).
  Instance "hljdb1", status READY, has 1 handler(s) for this service...
Service "hljdb1XDB" has 1 instance(s).
  Instance "hljdb1", status READY, has 1 handler(s) for this service...
Service "hljdb_XPT" has 1 instance(s).
  Instance "hljdb1", status READY, has 1 handler(s) for this service...
The command completed successfully
4.检查oracle 警告日志(在ORACLE_BASE/ADMIN/SID/BDUMP/ALTER_SID.LOG)中是否有报错,如果有报错进行检查,并且进行处理
操作

以下以orcl1为sid作例)
su – oracle
$ cd $ORACLE_BASE/admin/orcl1/bdump
$ ls al*
alert_db1.log
$ more alert_orcl1.log
然后对显示内容进行查看即可,按空格翻页
5.检查监听日志(在ORACLE_HOME/NETWORK/LOG/)检查是否有报错
操作:
$ cd $ORACLE_HOME/network/log
$ ls
listener.log listener_db1.log sqlnet.log
$ more listener.log
然后对显示内容进行查看即可,按空格翻页
6.数据库运行过程中是否有异常的数据库启动停止
操作

以下以orcl1为sid作例)
su – oracle
$ cd $ORACLE_BASE/admin/hljdb/bdump
$ ls al*
alert_orcl1.log
$ more alert_hljdb1.log
查看日志中是否有
ALTER DATABASE OPEN
This instance was first to open
内容显示,确认显示的时间确实是数据库手工启动的时间
查看日志中是否有
Completed: ALTER DATABASE CLOSE NORMAL
内容显示,确认显示的时间是否是数据库手工关闭的时间

P4 · 发表于 2012-11-9 14:02:50

已很全面

P4 · 发表于 2013-3-16 17:01:51

是啊，可以很好的学习一下了

图文精华

请教相老师,新接手一个双节点rac后,日常维护时要注意的地方