2024年5月

昨天下午,同事抛过来一个截图,说有个容器内部请求,一开始是404,后来就正常了。

打开DCOS集群,找到了容器服务,然后看到应该是2个实例,但是有第三个实例出现了killing状态。然后,登录这个异常容器所在宿主机,使用docker ps命令卡住了。然后,果断重启该宿主机节点。

后来查看,本来之前将容器云中的所有服务器由2C16GB升级到4C32GB,而这一台因故没有升级,但是升级到了4C16GB。而容器大多是JAVA程序,十分消耗内存。因此,推断,容器云宿主机的配置中的cpu与内存比应该是1:8的关系。

接到哥们消息,之前搭建的12台超融合节点一直稳定运行,后来扩容了5台(与之前年份不同,CPU架构相同),而后又新建了一个集群由10台服务器组成(与之前年份也不同,CPU架构也不同)。问题是,5+10台服务器在硬盘故障后,会出现服务器重启。超融合厂商与硬件服务器厂商互相之间推来推去,问题始终得不到解决。

我们俩查找了相关资料:
https://www.cnblogs.com/bingxinguoke/p/16731846.html
https://support.huawei.com/enterprise/zh/knowledge/EKB1100049474

以及分析了日志:
2024-05-31T03:40:09.png
2024-05-31T03:40:17.png
2024-05-31T03:40:01.png
2024-05-31T03:40:30.png

超融合底层系统基于CentOS7.9制作,而系统自带的驱动与官网给出的驱动在大小上有出入,可能是RAID驱动兼容性不好导致。

目前,等待进一步分析中。

问题

为啥设置浪潮服务器BMC异常?

可以新增用户以及设置密码,但是无法设置信道和权限。

2024-05-27T01:31:07.png

为啥无法激活华为usg6000e-S02

正确的激活方式应该是:

  • 安装华为坤灵app之后,按照下图所示,点击下拉,勾选“数通网络安全”
  • 选择“服务”-“全部工具”
  • 在“数通网络安全”的地方,选择“扫码激活”

[album]
2024-05-27T01:25:59.png
2024-05-27T01:24:08.png
2024-05-27T01:25:07.png
[/album]

一、背景

八年了,这个DCOS集群还在运行。随着业务量的增长,目前只是在做scale up,比如把4C32GB升级成8C64GB。但是,某些情况下,直接升级还是会高一些,比如在长连接集群里面,冬季业务旺季的时候,把6台4C32GB升级成8C64GB,在夏季业务淡季的时候再降配下来,可是呢,每年还是会有部分业务量增长,不全部增加的话业务是平均分配的,所以增加节点成为了不错的方案。

二、事件描述

这套DCOS刚刚经历了因为DCOS官方调整Auth0导致无法登录事件。大家都没有办法登录。后来调整oauth_enable false后可以登录了。这不,又来了这问题。

其实,早先长连接集群是有7台机器的,可是某一台好像总是有些问题。

[ERROR] 2024-05-13 10:47:00.101 [DiscoveryClient-HeartbeatExecutor-1] com.netflix.discovery.DiscoveryClient - DiscoveryClient_XCLOUD-NCS/9.0.26.130:6778 - was unable to send heartbeat!

com.sun.jersey.api.client.ClientHandlerException: org.apache.http.conn.ConnectTimeoutException: Connect to xcloud-discoveryserver-peer1.marathon.mesos:2000 timed out

[ERROR] 2024-05-13 10:47:00.100 [DiscoveryClient-HeartbeatExecutor-1] com.netflix.discovery.shared.transport.decorator.RedirectingEurekaHttpClient - Request execution error com.sun.jersey.api.client.ClientHandlerException: org.apache.http.conn.ConnectTimeoutException: Connect to xcloud-discoveryserver-peer2.marathon.mesos:2000 timed out

最近一周一直在尝试新增节点做测试。遇到一个问题,总是不能正常运行,或者看起来正常运行,而且还没有overlay网络路由。经过一些排查,终于找到了原因。

现在的虚拟机已经无法使用过去的dcos slave节点镜像制作了,因为物理机架构不一样,ucloud官方不让用了。那就重建吧,重建后,内核有变化,如果用当前的内核版本,会出现内核相关的错误。
2024-05-23T09:38:05.png

通过手动安装内核可以安装成功。

而无法生成overlay 网络路由的原因,想了一圈,而且在本地测试也没有问题。看了一下master节点发现,三个master节点的dcos-navstar服务全都飘红。一个一个节点的重启后,恢复了。

下面记录下,如果以后再安装dcos 1.9.1的slave节点使用如下方法。

三、安装slave节点

(1)更换内核

# 更换内核
cd /tmp
wget https://d2.sddts.cn/d/download/dcos/kernel-3.10.0-862.9.1.el7.x86_64.rpm
wget https://d2.sddts.cn/d/download/dcos/linux-firmware-20180220-62.2.git6d51311.el7_5.noarch.rpm
yum install -y kernel-3.10.0-862.9.1.el7.x86_64.rpm linux-firmware-20180220-62.2.git6d51311.el7_5.noarch.rpm

(2)安装必要软件

# 删除无用的软件
yum remove -y firewalld

# 安装docker
mdkir -p /opt/software/ ; cd /opt/software/ ; wget https://d2.sddts.cn/d/download/dcos/docker.tar.gz
tar xzvf docker.tar.gz

(3)安装slave节点

# 安装slave节点
# @bootstrap
ssh root@10.9.28.18 "mkdir -p /opt/software/docker"
cd /opt/software/docker && scp -r * root@10.9.28.18:/opt/software/docker/

ssh root@10.9.28.18 "mkdir /opt/dcos_install_tmp"
cd /opt/genconf/serve && scp -r packages root@10.9.28.18:/opt/dcos_install_tmp/
cd /opt/genconf/serve && scp -r bootstrap root@10.9.28.18:/opt/dcos_install_tmp/

# @slave
cat  <<'EOF'>> /etc/group
docker:x:993:
nogroup:x:1000:
EOF

cd /opt/software/docker
yum install *.rpm --skip-broken
yum install docker*

cd /opt/
curl -O 10.9.127.126:80/dcos_install.sh
bash dcos_install.sh slave

# 配置hosts
10.42.255.5 umon.api.service.ucloud.cn
10.42.255.5 umon.api.service.ucloud.cn
10.10.172.209 inner.ha.balance

(4)节点修复

# 节点修复的方法
mount -o remount,rw '/sys/fs/cgroup'
ln -s /sys/fs/cgroup/cpu,cpuacct /sys/fs/cgroup/cpuacct,cpu

部署categraf

# 部署categraf
cd /opt && wget https://d2.sddts.cn/d/download/dcos/dcos.slave.categraf.tar.gz && tar xzvf dcos.slave.categraf.tar.gz
cat <<'EOF'>/etc/systemd/system/categraf.service
[Unit]
Description="Categraf"
After=network.target
[Service]
Type=simple
ExecStart=/opt/categraf/categraf
WorkingDirectory=/opt/categraf
Restart=on-failure
SuccessExitStatus=0
LimitNOFILE=65536
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=categraf
[Install]
WantedBy=multi-user.target
EOF

systemctl daemon-relaod
systemctl restart categraf

(5)部署data目录

# 部署dcos服务用到的目录
mkdir -p /data ; wget https://d2.sddts.cn/d/download/dcos/dcos.slave.data.tar.gz ; tar xzvf dcos.slave.data.tar.gz
cd /data ; wget https://d2.sddts.cn/d/download/dcos/dcos.data.machtalk.tar.gz ; tar xzvf dcos.data.machtalk.tar.gz

# 部署openfalcon
cd /data/work/ && ./open-falcon start agent
# 修改/data/work/agent/config/cfg.json

存储通信协议

存储通信协议定义了如何在存储设备和计算机系统之间进行数据传输和控制命令传递。这些协议确保了不同厂商的设备能够互相兼容,并有效地对存储进行访问和操作。以下是一些常见的存储通信协议的详细信息:

1. SCSI (Small Computer System Interface)

  • 全称:小型计算机系统接口
  • 简介:SCSI是一种用于连接和传输数据的标准接口,广泛应用于硬盘驱动器、扫描仪和其它外设设备。它支持并行和串行传输。
  • 版本

    • 并行SCSI (Parallel SCSI):使用多通道传输。
    • 串行SCSI (SAS):采用串行传输,提高了速度和可靠性。
  • 应用:广泛应用于服务器和高级存储系统。

2. ATA (AT Attachment)

  • 全称:AT连接
  • 简介:ATA是连接硬盘和其他存储设备的标准接口。包括并行ATA (PATA)和串行ATA (SATA)两种类型。
  • 版本

    • PATA:早期使用的并行传输方式,速率相对较低。
    • SATA:现代使用的串行传输方式,速率更高,更适应当前存储需求。
  • 应用:个人电脑、笔记本和一些服务器。

3. NVMe (Non-Volatile Memory Express)

  • 全称:非易失性存储器快速接口
  • 简介:NVMe是一种针对闪存存储设计的高性能接口协议,利用PCIe总线传输数据,提供低延迟和高IOPS。
  • 特点:支持数百条并行命令队列,每队列支持数千条命令。
  • 应用:高性能计算、数据中心和消费类高端存储设备。

4. iSCSI (Internet Small Computer System Interface)

  • 全称:互联网小型计算机系统接口
  • 简介:iSCSI通过IP网络进行SCSI命令传输,允许使用以太网技术实现远程存储访问。
  • 特点:成本低,易于部署在现有网络基础设施之上。
  • 应用:中小企业存储解决方案,利用现有网络基础设施。

5. Fibre Channel (FC)

  • 全称:光纤通道
  • 简介:Fibre Channel是一种高速网络协议,主要用于连接计算机和数据存储设备。
  • 速度:最新版本支持高达32 Gbps(双工)。
  • 应用:大型企业存储网络,提供长距离、高性能的数据传输。

6. NFS (Network File System)

  • 全称:网络文件系统
  • 简介:NFS是一种分布式文件系统协议,允许用户在网络上访问文件,就像访问本地存储一样。
  • 应用:主要用于UNIX和Linux操作环境,但也支持其他操作系统。

7. SMB/CIFS (Server Message Block / Common Internet File System)

  • 全称:服务器信息块 / 通用互联网文件系统
  • 简介:SMB/CIFS是一种网络文件共享协议,允许多个用户在同一网络中访问文件、打印机等资源。
  • 应用:广泛用于Windows环境,也支持Linux和macOS。

8. HTTP/HTTPS

  • 简介:HTTP和HTTPS是万维网使用的协议。它们也被用于一些现代存储系统中,以支持基于RESTful API的存储接口。
  • 特点:HTTPS提供加密通信,确保数据传输安全。
  • 应用:主要用于云存储服务,如Amazon S3和Google Cloud Storage。

9. FTP/SFTP (File Transfer Protocol / Secure File Transfer Protocol)

  • 全称:文件传输协议 / 安全文件传输协议
  • 简介:FTP是一种用于在网络上传输文件的协议;SFTP是一种基于SSH协议,提供安全加密的文件传输。
  • 应用:广泛用于文件存储和传输,尤其在Web服务器和文件服务器环境中。

总结

存储通信协议在计算机存储系统中起着至关重要的作用。它们定义了数据在存储设备和计算机系统之间如何传输和管理,确保设备之间的兼容性和性能优化。在选择存储解决方案时,理解和选择合适的存储通信协议是确保系统性能和稳定性的关键因素。

存储接口协议

存储接口协议用于定义计算机系统如何与存储设备(如硬盘、固态硬盘等)通信和数据传输。它们包括物理连接标准以及传输控制和数据管理方案。以下是解释一些常见的存储接口协议的详细信息:

1. SATA (Serial ATA)

  • 全称:串行高级技术附件(Serial Advanced Technology Attachment)
  • 简介:SATA是一种用于连接硬盘和固态硬盘至计算机系统的标准接口。它是并行ATA(PATA)的继任者,采用串行通信。
  • 版本和速度

    • SATA I:1.5 Gb/s
    • SATA II:3 Gb/s
    • SATA III:6 Gb/s
  • 应用:主要用于个人电脑、笔记本等消费级设备。

2. SAS (Serial Attached SCSI)

  • 全称:串行连接SCSI(Serial Attached Small Computer System Interface)
  • 简介:SAS是一种用于企业级存储系统的高性能接口标准,基于SCSI命令集,提供多通道、高可靠性和热插拔支持。
  • 版本和速度

    • SAS 1.0:3 Gb/s
    • SAS 2.0:6 Gb/s
    • SAS 3.0:12 Gb/s
    • SAS 4.0:22.5 Gb/s
  • 应用:企业存储解决方案,如服务器和存储阵列。

3. NVMe (Non-Volatile Memory Express)

  • 全称:非易失性存储器快速接口(Non-Volatile Memory Express)
  • 简介:NVMe是一种为闪存存储(尤其是固态硬盘)设计的高性能接口协议,利用PCIe总线传输数据,提供低延迟和高IOPS。
  • 特点:支持数百条并行命令队列,每队列支持数千条命令。
  • 应用:高性能计算、数据中心和消费类高端存储设备。

4. U.2

  • 简介:U.2是一种连接标准,广泛用于高性能服务器存储设备。它支持NVMe、SATA和SAS等多种协议。
  • 连接器:使用SFF-8639连接器。
  • 应用:主要用于兼容多种存储协议和设备的企业存储解决方案。

5. M.2

  • 简介:M.2是一种用于存储扩展卡和其他设备的接口标准,支持NVMe和SATA协议。它以模块化形式提供高性能和紧凑设计。
  • 尺寸:例如,M.2 2280表示22mm宽、80mm长的模块。
  • 应用:广泛用于笔记本电脑、台式机和其他紧凑型设备。

6. PCIe (Peripheral Component Interconnect Express)

  • 全称:外围组件互连高速标准(Peripheral Component Interconnect Express)
  • 简介:PCIe是一种通用的高速接口标准,广泛用于显卡、网卡和存储设备等。NVMe通常通过PCIe通道进行连接。
  • 版本和速度

    • PCIe 3.0:8 GT/s(传输速率)
    • PCIe 4.0:16 GT/s
    • PCIe 5.0:32 GT/s
  • 应用:高性能计算、服务器和存储解决方案。

7. Fibre Channel (FC)

  • 全称:光纤通道
  • 简介:Fibre Channel是一种用于存储区域网络(SAN)的高速网络协议。
  • 速度:最新版本支持高达32 Gbps(双工)。
  • 应用:大型企业存储网络,提供长距离、高性能的数据传输。

8. iSCSI (Internet Small Computer System Interface)

  • 全称:互联网小型计算机系统接口
  • 简介:iSCSI通过IP网络进行SCSI命令传输,实现远程存储的访问。
  • 应用:中小企业存储解决方案,利用现有网络基础设施。

总结

存储接口协议和通信协议在计算机存储系统中起着关键作用。它们定义了数据如何在存储设备和其他系统部件之间传输,确保不同设备能够兼容和高效运行。在选择存储设备时,兼容合适的接口和协议是确保系统性能和稳定性的关键因素。

存储系统中,接口协议和通信协议是至关重要的元素。它们决定了数据如何在存储设备(如硬盘和SSD)与计算机系统之间传输。以下是对主要存储接口协议和通信协议的详细描述:

存储接口协议

  1. SATA (Serial ATA):

    • 简介:SATA是一种广泛用于个人电脑和消费级存储设备的接口标准。
    • 性能:最新的SATA III接口提供高达6 Gb/s的传输速度。
    • 设计:采用串行通信方式,简化了电缆设计和连接。
  2. SAS (Serial Attached SCSI):

    • 简介:SAS是一种用于企业级存储系统的高性能接口。
    • 性能:最新的SAS 4.0标准支持高达22.5 Gb/s的传输速度。
    • 设计:具备高可靠性、多通道(冗余路径)和热插拔特性。
  3. NVMe (Non-Volatile Memory Express):

    • 简介:NVMe是一种专为闪存(如SSD)设计的高性能接口协议。
    • 性能:利用PCIe通道,最新的NVMe SSDs可以达到数GB/s的传输速度。
    • 设计:低延迟、高并发处理能力,适用于高性能存储需求。
  4. U.2:

    • 简介:U.2是一种支持NVMe、SATA、SAS协议的多功能接口标准。
    • 性能:通过PCIe通道提供高性能,通常是PCIe 3.0 x4或更高。
    • 设计:采用SFF-8639连接器,支持热插拔和多种协议设备。
  5. M.2:

    • 简介:M.2是一种用于紧凑型存储和扩展卡的接口标准。
    • 性能:通过PCIe通道提供高性能,支持NVMe和SATA协议(具体取决于SSD类型)。
    • 设计:尺寸灵活(如2242、2280),广泛应用于笔记本电脑和超薄设备。
  6. PCIe (Peripheral Component Interconnect Express):

    • 简介:PCIe是通用高速接口标准,广泛用于显卡、网卡和存储设备等。
    • 性能:提供极高带宽,例如PCIe 4.0 x4可以提供64 Gb/s的传输速度。
    • 设计:支持多通道设计(x1, x4, x8, x16),灵活性高。

存储通信协议

  1. AHCI (Advanced Host Controller Interface):

    • 简介:AHCI是一种用于传统硬盘和SATA SSD的通信接口协议。
    • 性能:与SATA接口结合使用,支持热插拔和本地命令队列(NCQ)。
    • 设计:设计比较老旧,性能受限,未充分优化闪存存储。
  2. NVMe (Non-Volatile Memory Express):

    • 简介:NVMe协议专为非易失性存储介质(如闪存)设计,利用PCIe通道。
    • 性能:显著降低延迟和提高并发处理能力,支持数百条并行命令队列。
    • 设计:优化高性能存储应用,减少驱动开销。
  3. SCSI (Small Computer System Interface):

    • 简介:SCSI协议用于广泛的存储设备,不仅限于硬盘还包括扫描仪等。
    • 性能:通过SAS接口提升,最新的SAS 4.0达22.5 Gb/s。
    • 设计:强大的功能和扩展性,适用于高性能企业存储。
  4. ATA (Advanced Technology Attachment):

    • 简介:ATA(包括并行ATA和串行ATA)用于传统硬盘和光驱。
    • 性能:SATA III提供高达6 Gb/s的传输速度。
    • 设计:简单的电缆和连接,消费者日常使用广泛。
  5. FC (Fibre Channel):

    • 简介:FC协议主要用于存储区域网络(SAN)中。
    • 性能:提供高带宽和低延迟,速度可达16 Gb/s及更高。
    • 设计:光纤传输,长距离高性能连接,适用于企业级数据中心。
  6. iSCSI (Internet Small Computer System Interface):

    • 简介:iSCSI通过IP网络传输SCSI命令,实现远程存储。
    • 性能:依赖于网络带宽和延迟,适用于中小企业和远程存储需求。
    • 设计:使用现有的网络基础设施,降低成本和复杂性。

关系与整合

不同的接口和通信协议为存储系统提供了多种选择,以满足特定应用需求:

  1. 接口与协议的配合

    • SATA 与 AHCI:传统硬盘和SATA SSD使用SATA接口和AHCI协议。
    • NVMe 与 PCIe:现代高性能SSD使用NVMe协议和PCIe接口。
    • SAS 与 SCSI:企业级存储系统常用SAS接口和SCSI协议,提升可靠性和性能。
  2. 多协议支持的接口

    • U.2:适配NVMe、SATA和SAS设备,提供灵活的部署选项。
    • M.2:支持NVMe和SATA协议,适应不同存储需求。
  3. 专门化的协议

    • FC 和 iSCSI:提供企业级存储解决方案,通过高性能光纤通道或IP网络实现存储区域网络。

总结

  • SATA、SAS、NVMe(基于PCIe)、U.2 和 M.2 等接口标准各有其优化的应用场景,从消费级设备到企业级存储,各有侧重。
  • AHCI、NVMe、SCSI 等通信协议针对不同存储介质和需求进行优化,从传统硬盘到现代闪存SSD,提供最优性能和可靠性。
  • 存储系统设计应综合考虑接口和通信协议的特性,以满足特定性能、成本和可靠性需求。

背景

最近同事需要升级下配置,然后俺就提采购,买了PCI+NVME硬盘。谁曾想,到了实际升级的时候,发现各种问题。
首先,他的电脑是2014年前后的机器,主板是技嘉B85-D3V-v1,一块机械硬盘,跑的Win7专业版。然后,使用pe镜像数据后,开机找不到硬盘。后来查了半天资料才发现,本身Win7不支持NVME协议,而且主板也不支持NVME启动。因此,在查资料的同时,为了验证升级过程,保障早一点做完早下班,开始了测试之旅。

过程

新建虚拟机

2C
8G
SATA 60GB
BIOS

安装Win7

安装NVME补丁

测试Legacy + SATA + MBR

成功

测试Legacy + SATA + GPT

成功

测试UEFI + NVME + MBR

失败

测试UEFI + NVME + GPT

成功

测试视频

[vplayer url="http://vip.123pan.cn/1815238395/%E5%BD%B1%E5%83%8F%E8%B5%84%E6%96%99/%E8%87%AA%E5%88%B6%E5%89%A7/%E8%BF%90%E7%BB%B4%E8%B6%A3%E4%BA%8B/20240516.%E4%BD%BF%E7%94%A8%E8%99%9A%E6%8B%9F%E6%9C%BA%E6%B5%8B%E8%AF%95bios%20mbr%20win7%E5%88%B0uefi%20gpt/2024.05.16.win7%E4%BB%8Ebios%20mbr%E5%88%B0%20nvme%20gpt%E7%9A%84%E6%88%90%E5%8A%9F%E6%B5%8B%E8%AF%95.mp4" /]

参考