Linux诊断和故障排除系列(十) — 硬件问题日志

1. 显示硬件相关信息

在显示硬件相关信息时,一系列以ls开头的命令为我们提供了一个强大的工具集,用以揭示系统的硬件配置和状态。以下是一些关键命令的详细说明,它们在系统管理员和硬件工程师的日常工作中扮演着至关重要的角色。

通过ls命令显示信息
lshw ,这个命令提供了一个全面的硬件信息概览,包括但不限于CPU、内存、声卡、显卡等。它以易于阅读的格式显示了硬件的层次结构和属性,是诊断硬件问题时的首选工具。
lscpu ,这个命令专注于显示CPU的详细信息,包括架构、操作模式、字节序、CPU数量、线程数、核心数、插槽数、NUMA节点数以及CPU型号和速度等。
lsmem ,内存是计算机运行的关键资源,这个命令能够展示系统的内存布局,包括物理内存、可用内存以及内存的NUMA配置。
lsblk ,磁盘是存储数据的核心组件,lsblk命令列出了所有可用的块设备,包括硬盘驱动器、固态硬盘以及它们的分区,为我们提供了一个清晰的磁盘布局视图。
lsraid ,对于使用RAID配置的系统,lsraid命令能够显示RAID设备的状态和配置信息,帮助我们了解数据的冗余和性能特性。
lsscsi ,SCSI设备以其高性能和高可靠性而闻名,lsscsi命令专门用于列出系统中所有的SCSI设备,包括硬盘、光驱等。
lspci ,PCI设备是系统扩展功能的重要组成部分,lspci命令能够列出所有的PCI设备,包括显卡、网络卡、声卡等,以及它们的驱动信息。
lsusb ,USB设备以其即插即用的特性而广受欢迎,lsusb命令能够显示系统中连接的所有USB设备,包括设备类型、制造商和产品ID。

# lscpu
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                2
On-line CPU(s) list:   0,1
Thread(s) per core:    2
Core(s) per socket:    1
Socket(s):             1
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            6
Model:                 85
Model name:            Intel(R) Xeon(R) Gold 6161 CPU @ 2.20GHz
Stepping:              4
CPU MHz:               2200.000
BogoMIPS:              4400.00
Hypervisor vendor:     KVM
Virtualization type:   full
L1d cache:             32K
L1i cache:             32K
L2 cache:              1024K
L3 cache:              30976K
NUMA node0 CPU(s):     0,1
Flags:                 fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc eagerfpu pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch invpcid_single ssbd rsb_ctxsw ibrs ibpb stibp fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm mpx avx512f avx512dq rdseed adx smap clflushopt clwb avx512cd avx512bw avx512vl xsaveopt xsavec xgetbv1 arat md_clear spec_ctrl intel_stibp flush_l1d

2. 硬件日志

mcelog 是一个在Linux操作系统中用于监控和记录机器检查异常(Machine Check Exception,简称MCE)的工具。MCE是一种由硬件(主要是CPU)产生的信号,用来通知操作系统发生了某些硬件级别的错误,这些错误可能与内存、缓存或其他硬件组件有关。mcelog命令用于跟踪这些异常,并将其记录在日志中,供系统管理员分析使用mcelog命令本身可以查看日志内容。
systemctl status mcelog ,通过systemctl status mcelog可以查看mcelog服务的状态,确保它正在运行并正确记录信息。
mcelog ,这个mcelog命令用来查看mcelog的日志
mcelog --from "2024-07-11 00:00:00" ,使用 --from 选项,来筛选特定时间点之后发生的错误

-- Logs begin at Sun 2024-04-28 15:35:28 CST, end at Thu 2024-07-11 11:10:01 CST. --
May 23 23:48:01 hecs-295729 systemd[1]: Starting Machine Check Exception Logging Daemon...
May 23 23:48:01 hecs-295729 systemd[1]: Started Machine Check Exception Logging Daemon.

在服务器和关键任务型系统中,mcelog 是一个重要的工具,因为它可以帮助管理员避免由于硬件故障导致的潜在风险。通过及时检测和响应硬件错误,mcelog 有助于维护系统的可靠性和性能。
总的来说,mcelog 是Linux系统中一个不可或缺的工具,尤其对于那些需要高可靠性和高可用性的环境。通过它,系统管理员可以更好地理解和管理硬件层面的问题。

3. Memory Test

memtest86+ 是一款广泛使用的、独立的、基于BIOS的内存诊断工具,用于检测计算机的内存是否存在故障或缺陷。它是一个轻量级的软件,可以在系统启动时运行,不需要操作系统的支持,因此可以检测到那些可能在操作系统运行时无法发现的内存问题。

3.1 安装memtest86+

安装memtest86+是一个简单直接的过程。对于使用基于RPM的Linux发行版,如Fedora、CentOS或RHEL,您可以使用以下命令通过yum包管理器进行安装:

yum install memtest86+

此命令将从您的软件仓库中检索最新版本的memtest86+并进行安装。

3.2 配置memtest86+

安装完成后,您需要配置系统的启动加载器以包括memtest86+作为启动选项。这可以通过运行memtest-setup脚本来完成:
memtest-setup
执行此脚本后,它会检测到您的系统使用的是GRUB 2启动加载器,并自动安装所需的模板。

3.3 启动memtest86+进行内存测试

配置完成后,重新启动计算机,在GRUB启动菜单中,您将看到一个新增的启动选项:“Red Hat Enterprise Linux Memtest memtest86+-5.01”。选择此选项,memtest86+将自动开始对您的系统内存进行一系列详尽的测试。

3.4 测试结果分析

memtest86+会运行多个测试序列,检查内存的各个方面,包括基本的读写测试、模式测试和随机测试。测试完成后,工具会报告发现的错误数量和类型。如果测试结果显示存在错误,这可能意味着您的RAM模块存在物理损坏或配置问题,需要进一步的诊断或更换。

memtest86+是一个简单而有效的工具,适用于任何需要确保内存稳定性和可靠性的场合。无论是在新安装内存后进行测试,还是定期进行系统维护,它都能帮助您快速识别并解决内存问题,从而避免潜在的系统故障和数据丢失。

更多内容请参见本系列其他文章

<<Linux诊断和故障排除系列(一) -- 修复启动分区>>
<<Linux诊断和故障排除系列(二) -- 修复内核服务>>
<<Linux诊断和故障排除系列(三) -- 重置root密码>>
<<Linux诊断和故障排除系列(四) -- 修复文件系统>>
<<Linux诊断和故障排除系列(五) -- 修复iSCSI>>
<<Linux诊断和故障排除系列(六) -- 修复软件包及管理器>>
<<Linux诊断和故障排除系列(七) -- 应用程序诊断>>
<<Linux诊断和故障排除系列(八) -- 网络问题诊断>>
<<Linux诊断和故障排除系列(九) -- 身份验证和授权问题诊断>>
<<Linux诊断和故障排除系列(十) -- 硬件问题日志>>
<<Linux诊断和故障排除系列(十一) -- dump设置和分析>>
<<Linux诊断和故障排除系列(十二) -- 日志持久化和转发>>
<<Linux诊断和故障排除系列(十三) -- 官方支持数据sos_report及其分析可视化软件>>

本文内容为原创,如需转载,请务必注明原文出处。
更多相关内容,欢迎访问我的个人网站:hongxu.wang。
我们还提供免费的技术支持,欢迎与我们联系。

Index
滚动至顶部