add hardware checklist

loverustfs · loverustfs · commit 1c82f915019f · 2025-05-01T11:02:30.000+08:00
diff --git a/contents/docs/deployment/hard-checklists.mdx b/contents/docs/deployment/hard-checklists.mdx
@@ -1,5 +1,165 @@
 ---
-title: "硬件检查清单"
-description: "RustFS是一款简单、高效、分布式的对象存储。它100%兼容S3，使用Apache2 许可证发行的开源软件。"
+title: "生产环境硬件配置指南"
+description: "RustFS 是基于 Rust 语言开发的高性能分布式对象存储系统，适用于海量非结构化数据存储场景。本文档为生产环境部署提供全面的硬件选型与配置指引。"
 ---
-> 即将发布，文档疯狂更新中....
+
+## 一、部署规划要素分析
+
+在正式部署 RustFS 前，建议进行为期 2-3 周的业务调研，重点评估以下维度：
+
+1. **数据规模分析**
+   - **初始数据量**：精确测算投产初期的有效数据量（建议以 TiB 为单位），需考虑冷热数据比例
+   - **增长趋势预测**：根据业务发展计划，估算未来 24 个月的数据增量（建议采用季度增长率模型）
+   - **对象规模**：基于平均对象大小（推荐 128KB-1MB 范围）计算总对象数，需注意超过 1 亿对象时需特殊优化
+
+2. **业务特征评估**
+   - **访问模式**：区分读密集型（如内容分发）与写密集型（如日志采集）场景
+   - **合规要求**：数据留存周期需符合行业监管要求（如金融行业至少保留 5 年）
+   - **多站点部署**：跨地域部署时需评估网络延迟（建议控制在 50ms 以内）和带宽成本
+
+3. **存储架构设计**
+   - **存储桶规划**：按业务单元划分存储桶，单个集群建议不超过 500 个活跃存储桶
+   - **灾备策略**：根据数据重要性选择双活架构（推荐）或异步复制方案
+
+## 二、硬件配置矩阵
+
+根据压力测试结果给出的基准配置方案：
+
+| 组件         | 基础环境       | 生产标准配置               | 高性能配置                 |
+|--------------|---------------------------|--------------------------|--------------------------|
+| 节点数量     | 4 节点         | 8 节点       | 16+ 节点    |
+| 存储介质     | 4×SATA SSD（1.92TB）       | 8×NVMe SSD（3.84TB）      | 12×NVMe SSD（7.68TB）     |
+| 网络架构     | 双25GbE（链路聚合）        | 双100GbE（RDMA支持）      | 200GbE+IB网络             |
+| CPU          | 2×Intel 银牌4310（16核）   | 2×AMD EPYC 7313（32核）  | 2×Intel 铂金8461Y（48核） |
+| 内存         | 64GB DDR4-3200 ECC        | 256GB DDR5-4800 ECC      | 512GB DDR5-5600 ECC      |
+| 存储控制器   | HBA 9500-8i               | HBA 9600-16i             | 双控制器冗余架构          |
+
+**重要部署原则：**
+1. 采用"服务器农场"模式，确保所有节点采用完全相同的硬件批次和固件版本
+2. 网络架构需满足：叶脊拓扑 + 物理隔离存储网络 + 双上联链路
+3. 推荐使用2U服务器机型，单个节点建议配置12盘位以上
+
+## 三、性能关键路径优化
+
+### 1. 网络拓扑优化（最高优先级）
+- **带宽计算**：每TB有效数据需预留0.5Gbps带宽（例如100TB数据需50Gbps专用带宽）
+- **时延要求**：
+  - 节点间P99延迟 ≤ 2ms
+  - 跨机架延迟 ≤ 5ms
+- **典型配置案例**：
+  ```mermaid
+  graph TD
+    A[接入交换机] --> B[叶交换机]
+    B --> C[核心交换机]
+    C --> D[存储网络专线]
+  ```
+
+### 2. 存储子系统调优
+- **控制器配置**：
+  - 启用预读缓存（推荐256MB以上）
+  - 禁用所有RAID功能，采用直通模式
+  - 定期检查BBU电池健康状态
+- **SSD参数**：
+  - 预留20% OP空间提升耐久性
+  - 启用原子写特性（需硬件支持）
+  
+### 3. 内存管理策略
+- **分配比例**：
+  - 元数据缓存：占总内存60%
+  - 读写缓冲区：占30%
+  - 系统保留：10%
+- **JVM调参**（如需）：
+  ```shell
+  -XX:MaxDirectMemorySize=32g 
+  -Xmx64g -Xms64g
+  ```
+
+## 四、网络设计参考模型
+
+### 带宽与磁盘配比关系
+| 网络类型   | 理论吞吐量 | 适用磁盘类型          | 最大磁盘支持数 |
+|------------|------------|---------------------|----------------|
+| 10GbE      | 1.25GB/s   | 7.2K HDD（180MB/s） | 8块            |
+| 25GbE      | 3.125GB/s  | SATA SSD（550MB/s） | 6块            |
+| 100GbE     | 12.5GB/s   | NVMe Gen4（7GB/s）  | 2块全速读写    |
+
+**最佳实践案例**：某视频平台采用16节点集群，每节点配置：
+- 8×7.68TB NVMe SSD
+- 双100GbE CX5网卡
+- 实现聚合吞吐量38GB/s
+
+## 五、内存配置计算器
+
+基于磁盘容量与业务特征的动态算法：
+
+```python
+# 内存计算公式（单位：GB）
+def calc_memory(data_tb, access_pattern):
+    base = 32  # 基础内存
+    if access_pattern == "read_heavy":
+        return base + data_tb * 0.8
+    elif access_pattern == "write_heavy":
+        return base + data_tb * 1.2
+    else:  # mixed
+        return base + data_tb * 1.0
+```
+
+**参考配置表**：
+| 数据规模  | 读密集型 | 写密集型 | 混合型  |
+|-----------|----------|----------|---------|
+| 10TB      | 40GB     | 44GB     | 42GB    |
+| 100TB     | 112GB    | 152GB    | 132GB   |
+| 500TB     | 432GB    | 632GB    | 532GB   |
+
+## 六、存储部署规范
+
+### 1. 介质选型标准
+| 指标        | HDD适用场景       | SSD适用场景          | NVMe强制要求场景      |
+|-------------|------------------|---------------------|----------------------|
+| 延迟需求    | >50ms            | 1-10ms              | <1ms                 |
+| 吞吐需求    | <500MB/s         | 500MB-3GB/s         | >3GB/s               |
+| 典型用例    | 归档存储         | 热数据缓存          | 实时分析             |
+
+### 2. 文件系统配置
+```bash
+# XFS格式化示例
+mkfs.xfs -f -L rustfs_disk1 -d su=256k,sw=10 /dev/sdb
+
+# 推荐挂载参数
+UUID=xxxx /mnt/disk1 xfs defaults,noatime,nodiratime,logbsize=256k 0 0
+```
+
+### 3. 异常处理机制
+- 启用实时健康监测：
+  ```rust
+  fs.register_error_handler(|err| {
+      metrics::increment!("disk_errors");
+      if err.is_critical() {
+          graceful_shutdown();
+      }
+  });
+  ```
+
+## 七、高可用保障措施
+
+1. **电力供应**：
+   - 采用2N供电架构
+   - 每个PDU连接不同变电站
+   - 配备UPS（至少30分钟续航）
+
+2. **散热要求**：
+   - 机柜功率密度 ≤ 15kW/柜
+   - 进出风温差控制在8℃以内
+
+3. **固件管理**：
+   - 建立硬件兼容性矩阵（HCL）
+   - 使用统一固件版本（如HBA卡统一到16.2.0.11）
+
+> **实施建议**：建议在正式部署前进行72小时压力测试，模拟以下场景：
+> 1. 节点故障转移测试
+> 2. 网络分区演练
+> 3. 突发写入压力测试（建议达到理论值的120%）
+
+---
+
+本指南基于RustFS 最新开发版本编写，实际部署时请结合具体硬件供应商白皮书进行参数微调。或者联系RustFS官方建议每季度进行一次硬件健康度评估，确保存储集群持续稳定运行。