2009年1月10日星期六

集群管理记录

集群管理记录

2008.11.30
在集群服务器的控制台上直接操作集群,学习了节点的切换方法,通过scroll lock,打开窗口,切换当前显示的节点。服务器上的信号灯的颜色,亮暗,显示cu01风扇工作不正常,cu12网络失去连接。
对节点逐个重启,但没有把管理节点先重启,导致普通帐号权限不够,用root帐号逐个更改不方便,需要先重启管理节点,再逐个重启计算节点。
2008.12.5
集群是2000年买的机器,对新版本的redhat有些不兼容,因此需要重新安装老版本的操作系统。

在database节点中,安装的还是老版本的稳定的操作系统,因此通过查看database的内核版本,来确定需要下载的redhat版本。
[root@database root]# uname -a
Linux database 2.4.18-e.12smp #1 SMP Thu Oct 17 15:13:01 EDT 2002 ia64 unknown
内核版本为2.4.18-e.12.
查看database操作系统版本:
[root@database root]# head -n 1 /etc/issue
Red Hat Linux Advanced Server release 2.1AS (Derry)

管理节点admin当前操作系统版本:
[root@admin ~]# head -n 1 /etc/issue
Red Hat Enterprise Linux AS release 4 (Nahant Update 4)
2.1版本,下载地址
Redhat Linux advance Server 2.1
linux各个发行版下载(志愿服务,有时候连不上)
http://219.139.108.138
ftp://219.139.108.138

这些地址用firefox无法下载,需要用迅雷,估计是迅雷的流氓式多线程下载,链接到其他资源上去了。
ftp://ftp2.neweasier.com/pub/RedhatAS2.1/rorhadv1.iso
ftp://ftp2.neweasier.com/pub/RedhatAS2.1/rorhadv2.iso
ftp://ftp2.neweasier.com/pub/RedhatAS2.1/rorhadv3.iso
ftp://ftp2.neweasier.com/pub/RedhatAS2.1/rorhadv4.iso
ftp://ftp2.neweasier.com/pub/RedhatAS2.1/rorhadv5.iso



ftp://166.111.121.3/Linux/RedHat/AdvSvr2.1/rorhadv1.iso
ftp://166.111.121.3/Linux/RedHat/AdvSvr2.1/rorhadv2.iso
ftp://166.111.121.3/Linux/RedHat/AdvSvr2.1/rorhadv3.iso
ftp://166.111.121.3/Linux/RedHat/AdvSvr2.1/rorhadv4.iso
ftp://166.111.121.3/Linux/RedHat/AdvSvr2.1/rorhadv5.iso



http://www.ne5532.com/ISO/Redhat%20Advanced%20Server/rorhadv1.iso
http://www.ne5532.com/ISO/Redhat%20Advanced%20Server/rorhadv2.iso
http://www.ne5532.com/ISO/Redhat%20Advanced%20Server/rorhadv3.iso
http://www.ne5532.com/ISO/Redhat%20Advanced%20Server/rorhadv4.iso
http://www.ne5532.com/ISO/Redhat%20Advanced%20Server/rorhadv5.iso

md5:
c7d4a6552cc31b4c6d35ed8b0ca3b8d3 rorhadv1.iso
e195f84c6385ab98c327d42c22fe132c rorhadv2.iso
962cf197581b4720fb732c76c061bbd5 rorhadv3.iso
ff64bfa3f5af2a1359e1d3e5e156c1cb rorhadv4.iso
2cf55e66428d78e3e5bbd3e88572b60a rorhadv5.iso
官方网站下载地址:
http://www.puschitz.com/LinuxDownload.shtml
各个发行版下载集合:
http://iso.linuxquestions.org/
相近版本,只能支持16个CPU!
Red Hat Enterprise Linux 3 AS (i386)》ISO 下载
http://www.verycd.com/topics/9337/

2008.12.6
集群的admin节点再次出现挂载节点失去挂载的情况,raid1,raid2失去挂载,与昨天出现的全部子节点失去挂载的情况一样,使用rc.local无法重新挂载,重启admin后,正常挂载。在重启后,查看子节点的程序运行情况,发现没有中断。
2008.12.9 重装集群操作系统
尝试重新安装老板本的red hat AS 2.1, 但安装过程中出错,提示大意为:
can't find the device,please check the hardware!
浪潮公司的技术人员说,是缺少SCSI驱动,在随机光盘里有。查看随机光盘,只有.exe文件,无法在linux下安装。网上列出两种解决方法:
1.安装时 在boot:下用 text expert.模式。试过了,无效。
2. 在软盘上,拷贝驱动程序,通过linux dd命令,安装系统时加载SCSI驱动,需要保证软驱的正常工作。
SCSI驱动下载地址:
http://driver.zol.com.cn/link/5/42001.shtml
http://www.scsi-planet.com/scsi-linux/
3.用3.0版本安装.可能自带了SCSI驱动。
2008.12.10 重装集群操作系统
没有找到SCSI驱动,且安装时需要确保每个节点软驱正常,因此下载了redhat AS 3.4版本的iso文件,刻录到CD上,能成功安装,说明3.4版本自带了SCSI驱动。
首先在cu17节点上安装,配置方法参照“售后支持文档/网络安装操作系统指南.doc”,安装DHCP,tftp服务,nis服务,修改网络安装设置文件,配置好网络安装环境,上传iso文件到tftpboot目录中。
在cu01,cu02,cu03,admin节点上,通过网络安装方式,安装redhat AS3.4版。设置BIOS启动顺序,从网络启动。reboot重启节点,节点查找DHCP服务器,配置IP,加载iso文件,开始自动安装。
无人值守,自动完成,系统自动重启,运行到boot:状态下,这时候若是按下回车,就会重新从网络安装,应该ctrl+alt+del重启系统,修改BIOS启动顺序为硬盘优先。
2008.12.11-12 设置新系统,安装SCSI驱动,尝试安装AS2.1版本
参照“售后支持文档”,设置各项服务,删除不必要的服务。在安装IB驱动时,出现错误,gcc,tcl需要更高的版本,gcc>=3.3.3,tcl>=8.4。
为了避免后面还会出现类似情况,继续寻找SCSI的linux驱动,(在网上看到一篇文章,可以通过U盘加载SCSI驱动,http://blog.donews.com/ybzhy01/archive/2008/05/27/1298088.aspx),网络上下载的SCSI驱动都是exe文件,在windows下运行,发现这些驱动是要把安装文件写到软盘里去!原来在浪潮原装的光盘里就有驱动,但没发现有AS2.1的驱动,只有redhat7.2,7.3,8.0版本的驱动,用这些驱动试了,读完驱动后,没有报bad header的错,但到了格式化磁盘的步骤后,就报错出现error的提示。
安装方法:
1. 设置BIOS启动顺序,默认从CDROM启动.
2. 放入安装盘,重启。
3. 在boot:下输入linux dd命令,插入装好SCSI驱动的软盘,回车开始安装。
4. 按提示完成安装。

2008.12.13 安装redhat7.2版本
在database中,安装的是AS2.1版本,可能在计算节点中,并不是安装AS2.1版本的,而浪潮原装盘自带了7.2版本的SCSI驱动,7.2版本是一个稳定的版本,因此,尝试安装redhat7.2版本。
用原装光盘上的SCSI驱动仍然无法安装,在格式化分区时,出现error,报错。浪潮公司的员工建议,在浪潮公司官网上,下载驱动,试试。
下载rh7.2的SCSI驱动后(速度很慢),redhat 7.2安装成功,但启动系统出错,报错如下:
mount : error 19 mounting ext3
pivotroot : pivot_root( /sysroot,/sysroot/initrd ) failed : 2
unmount /initrd/proc failed : 2
Freeing unused kernel memory 340k freed
Kernel panic : No init found, Try passing init = option to kernal
2008.12.15 安装redhat7.2版本
在网上查找资料,发现出错是因为没有找到系统所在的分区。使用光盘引导启动修复模式,boot:linux rescue,回车,在挂载系统到/mnt/sysimage时,报错,
you don't have any linux partitions
是分区问题,选择skip,进入shell命令模式,使用rescuept device_name重新载入分区,报错,没有这个命令。Chroot /mnt/sysimage,也不行。
于是采用最直接的方法,重装系统,手动修改分区设置,发现默认的分区方案,有7个分区,实际上只需要分3个区,根目录/,/root,swap。/home与管理节点共享,我在分区时,错把/root设为/home了,可以在Disk Druid或fdisk分区软件中修改回来,还可以进救援模式使用parted命令。
2008.12.22 尝试修复分区
用fdisk -l查看硬盘和分区信息,没有任何显示。可能是分区表损坏了,用fdisk /mbr无法修复分区表,恢复MBR的命令:
dd if=/root/mbr of=/dev/sda/ bs=512 count=1
无效
dd if=/root/mbr of=/dev/sda/ bs=512 skip=446 count=66
无效
查看分区信息:parted /dev/sdc 无效
用lvm解决(带图,一模一样的情况):
http://www.chinaunix.net/jh/4/641512.html
lvm,找不到命令,看来只有重装了,上次重装/root 设成了/home,可能是这个问题。

2008.12.29 完成安装

在浪潮集群附带的光盘中,有安装步骤,在安装时,要注意一下几点:
一、在第10步,选择安装类型时,一定要选择custom:
安装类型选择“Installation Type”,并根据需要,从以下四中安装类型中选择:
Install on system(安装新的系统)
Personal desktop
Workstation
Server
Custom
Upgrade Exiting system(升级现有的系统)

只有custom模式下,才有后面22步的选择加载kernel develepoment 和sofeware develepoment 软件包,
如果不选这两个包,会造成后面安装网卡驱动找不到内核源码。

二、scsi,update,网卡驱动要到浪潮公司的官方网站下,集群自带的驱动没用。

三、在选择服务是,要选择nfs,ftp服务。

光盘附带的安装方法如下:

RedHat Linux 7.2 的安装

本安装过程为Red Hat 7.2的基本安装步骤,可以作为安装参考,具体如何设置有关选项,需要用户根据自己的实际情况而定。如果系统配置了RAID卡,操作系统的安装请参照RAID卡手册中的相应内容。

>>>>>>>>>>安装前的准备:

· Red Hat 7.2安装光盘(2张)

· 网络驱动 for Red Hat 7.2软盘(通过蓝海豚导航软件光盘制作)

· Ultra 320 SCSI Driver For Red Hat 7.2(通过蓝海豚导航软件光盘制作)

· Ultra 320 SCSI Driver For Red Hat 7.2 UPDATE(通过蓝海豚导航软件光盘制作)

>>>>>>>>>>安装步骤:

1.加电启动系统。将安装光盘放入光驱,选择从光盘引导。

2. 出现欢迎界面, 在BOOT:后输入Linux dd updates 回车(因为需要加载驱动程序),继续安装。

3、屏幕显示:“Do you have a driver disk?”,选择”Yes”,回车,继续安装。

4、系统提示:“Insert your driver disk and press ‘OK’ to continue”,插入在安装准备阶段做好的“Ultra 320 SCSI Driver For Red Hat 7.2”驱动软盘,回车,继续安装。

5、开始加载驱动程序。系统提示:insert your updates disk an press ok to continue ,此时插入制作好的“Ultra 320 SCSI Driver For Red Hat 7.2 UPDATE”软盘,回车继续;系统拷贝文件。

6.安装程序出现“Wellcom to redhat linux”,选择“Next”,继续安装。

7.选择安装操作系统的语言版本,可以根据用户的需要进行选择,本例以 “English”为准安装。

8. 配置键盘(keyboard configuration):
U.S.English
按下 “Next”按钮继续安装。

9. 配置鼠标(mouse configuration)
选择鼠标的类型为: 2 Button mouse(PS/2)。
按下 “Next”按钮继续安装。

10. 安装类型选择“Installation Type”,并根据需要,从以下四中安装类型中选择:
Install on system(安装新的系统)
Personal desktop
Workstation
Server
Custom
Upgrade Exiting system(升级现有的系统)

本安装以Custom为准进行安装指导,按“Next”按钮继续。

11.以下是进行分区类型的选择
Disk partitioning setup
有三种类型供选择:
automatically partition(自动分区)
Manually partition with disk druid(手动分区)
Manually partition with fdisk (experts)(专家模式)
可以根据安装者的实际情况进行安装,本安装以手动分区为准,选择“Next”,继续安装。

12.进入手动分区界面,(如果硬盘上已经有分区,会显示已有的分区情况),用鼠标点击“NEW”,创建新分区。
在Mount point中选中根分区:/, 在Size(MB)中输入分区的大小,选择“OK”,完成根分区的创建。
以同样的方法创建引导分区:/boot
创建交换分区(Swap), 用鼠标点击“NEW”,创建新分区。点击“Ext3”在下拉菜单中选中“Swap”,在Size(MB)中输入交换分区的大小(根据内存的大小,如果内存在512MB以下,按照内存的2倍进行设置,如果内存超过512MB,可以把交换分区设置成1GB)。
创建好分区后,选择“Next”,继续安装。

13.安装程序进入到“Boot loader configuration”安装界面,如果硬盘装有其他操作系统,选择“Use LILO as the boot loader”,如果只有RedHat的话,选择默认的“Use GRUB as the boot loader”,其他选项采用默认值,这里选择“Use GRUB as the boot loader”,单击“Next”,继续安装。

14. 安装程序进入到“GRUB password”安装界面,根据实际情况需要是否输入密码,选择“Next”,继续安装。

15.进行防火墙设置(Firewall configuration)
根据实际需要选择
High
Medium
None firewall
选择“Next”,继续安装。

16.进入语言支持选择安装界面(Language support selection),根据实际需要可以选择多种支持语言,选择“Next”,继续安装。

17.进入时区选择“Time Zone Selection”安装界面,选择“Asia/shanghai” ,选择“Next”,继续安装。

18.进入账号口令安装程序“Account configuration”,根据用户的需要设置,至少6位,选择“Next”,继续安装。

19.安装程序进入到“Authentication configuration”, 选择“Next”,继续安装。

20. 进入安装程序包的“selection package Group”的选择。根据用户的实际需要进行选择,确认选中要安装的软件包后,选择“Next”,继续安装。

21.安装程序进入到“Video Configuration”窗口,选择显卡类型为:ATI Rage XL, 选择“Next”,继续安装。

22.安装程序进入“About to install”,选择加载kernel develepoment 和sofeware develepoment 软件包,单击按钮,安装程序开始安装拷贝文件。

23.在安装拷贝文件的过程中,会提示插入第二张安装盘,按照提示进行操作。

24. 拷贝完文件后,安装向导进入‘Bootdisk Creation’,如果需要,请准备一张空软盘,按照提示制作引导软盘。

25.安装程序进入到显示器的配置界面“Monitor configuration”,选择显示器类型,使用默认值。

26.安装程序进入到“customize Graphics configuration”,根据实际需要进行分辨率的选择。

27.进入‘Congratulations’界面,表示系统安装成功。单击‘Exit’按钮,取出安装光盘。安装结束。

28.网络配置:
登录到系统,将“网络驱动 for Red Hat 7.2软盘”插入软驱,进入模拟命令行界面,输入下列命令行:
#mount /dev/fd0 /mnt
#cd /mnt
#cd /e1000
#cp e1000-4.3.15.tar.gz /tmp
#cd /tmp
#gzip –d e1000-4.3.15.tar.gz
#tar –xvf e1000-4.3.15.tar
#cd e1000-4.3.15
#cd src
#make install
#insmod e1000.o
#cd /
#umount /mnt
#reboot
29. 重新启动后,系统会进入Hardware Discovery Utility.
点击“Configure”->Yes->配置网络IP地址,即可完成网络配置。
2008.12.31 设置网卡,修改认证系统
在重装好系统的cu16上,可以ping通本机,无法ping通其他主节点等其他节点。把网线换一个口,发现就可以ping通了,由此判断是默认选用的网卡不对。用emacs编辑/etc/sysconfig/network-scripts/ifcfg-eth1 ,把onBoot=yes改为no,再service network restart,把网线换到原始位置,就好了,问题解决。
用ssh登陆cu16,出现warning,无法登陆,是因为重装系统后,需要重新生成认证,把原来的认证去掉,系统会自动生成。
mv /root/.ssh/known_hosts /tmp
第一次登陆,需要输入yes,就可以生成认证了。
在网络安装设置中,DHCP服务没有启动,需要手动设置。
# service dhcpd start
dhcpd: unrecognized service
解决:/etc/inid./下无dhcpd脚本文件,或者该文件不可执行,重新添加文件或增加执行权限
vi /etc/init.d/dhcpd
#!/bin/sh
#
# dhcpd This shell script takes care of starting and stopping dhcpd.
#
# chkconfig: - 65 35
# description: dhcpd provide access to Dynamic Host Control Protocol.

# Source function library.
. /etc/rc.d/init.d/functions

# Source networking configuration.
. /etc/sysconfig/network

# Check that networking is up.
[ ${NETWORKING} = "no" ] && exit 0

[ -f /usr/sbin/dhcpd ] || exit 0
[ -f /etc/dhcpd.conf ] || exit 0

RETVAL=0

# See how we were called.
case "$1" in
start)
# Start daemons.
echo -n "Starting dhcpd: "
daemon /usr/sbin/dhcpd eth0
RETVAL=$?
echo
[ $RETVAL -eq 0 ] && touch /var/lock/subsys/dhcpd
;;
stop)
# Stop daemons.
echo -n "Shutting down dhcpd: "
killproc dhcpd
RETVAL=$?
echo
[ $RETVAL -eq 0 ] && rm -f /var/lock/subsys/dhcpd
;;
restart|reload)
$0 stop
$0 start
RETVAL=$?
;;
status)
status dhcpd
RETVAL=$?
;;
*)
echo "Usage: dhcpd {start|stop|restart|status}"
exit 1
esac

exit $RETVAL

启动服务测试一下是否正常:

#service dhcpd start
#ps -aux|grep dhcpd
资料来自下面网址:http://blog.chinaunix.net/u/2937/showart_91807.html
注意:
vmlinuz和initrd.img在 /mnt/cdrom/dosutils/autoboot 目录下.
在配置tftp服务时,发现
把/usr/lib/syslinux/pxelinux.0 复制到/tftp下。
/usr/lib 中没有syslinux文件夹,无法进行网络安装,因此想通过硬盘拷贝的方法,直接拷贝已安装好的硬盘。
在ghost时,源硬盘和目标硬盘设置反了,把安装好的硬盘覆盖了。
2009.1.2 在cu10以后节点安装redhat
为了测试高版本是否稳定,保留一些节点为高版本系统。准备只在cu11,14,15,16节点安装7.2版本(cu17已经配置好网络安装的模式,不要覆盖)。
在cu11,cu16上用光盘安装,并配置好网络。
2009.1.3 在cu10以后节点安装redhat
完成了在cu11,cu14,cu15,cu16上安装redhat7.2,并配置好网络,nfs,NIS服务,完成了免输入密码的keygen设置。
通过shell脚本实现了在所有节点上,对admin上nfs共享的文件夹一次性自动mount。
脚本如下(要配置所有节点,需要修改节点范围):
#!/usr/bin/expect -f
#by:Leif Updated:2008-10-07 PM E-mail:liangliwen # gmail.com
#edited by wujingpeng
#2009-1-4

for {set x 2} {$x<10} {incr x} {
spawn ssh -l root cu0$x
expect "*#"
send "mount -t nfs admin:/home /home\r"
expect "*#"
send "mount -t nfs admin:/opt /opt\r"
expect "*#"
send "exit"
}
使用这种expect结构,可以实现很多自动配置!
2009.1.7
redhat AS2.1自带了SCSI驱动,只是不能在子节点上安装,在admin上面可以正常安装。但管理节点的三个网卡有个独立网卡无法识别,应该是驱动没有。
2009.1.10
在管理节点装redhat 7.2,只能找到一块网卡,按照文档记录来做也无效。
配置千兆网卡的方法(适用于集成的千兆网卡)
1.在文本界面中输入:
insmod e1000
2.命令完成后,点击MAIN MENU->PROGRAMS->SYSTEM->NETWORK CONFIGURATINON。
3.在弹出的菜单中,选择子菜单HARDWARE->ADD->ETHERNET->OK,然后选择DEVICE号,将ADAPTER设置为“Intel EtherExpress/1000 gigabit”。
4.选择子菜单DEVICES->ADD->ETHERNET->OK,输入DEVICE号,在PROTOCOLS中选择协议,配置IP,保存设置后,网卡配置完成。

没有评论:

发表评论