Swift 启动性能预算与冷启治理体系

移动端启动性能最怕“慢慢变差”。单次改动影响看起来只有几十毫秒，连续十个版本后就可能从体感流畅变成用户可感知卡顿。很多团队在项目中后期才意识到问题，但这时启动路径已经被插件、埋点、AB、远程配置、数据库迁移、预加载任务塞满，治理成本陡增。

启动治理不能靠“临时优化冲刺”，必须像成本管理一样做预算。预算不是数字摆设，而是发布约束：每个阶段花多少时间、谁可以超支、超支后谁负责回滚。

一、启动链路先拆段：不拆就无法预算

冷启动至少应拆成以下阶段：

进程创建与 dyld 装载。
Runtime 与静态初始化。
App 启动入口与依赖组装。
首屏 ViewModel/数据准备。
首帧渲染与可交互。

每一段都要有独立耗时指标，否则你只知道“总时长慢”，却不知道该改谁。

二、预算模型：先定上限，再谈技巧

flowchart LR
    A[Cold Start Budget 1200ms] --> B[Runtime 220ms]
    A --> C[DI & Service Init 280ms]
    A --> D[First Screen Data 350ms]
    A --> E[First Frame Render 250ms]
    A --> F[Safety Margin 100ms]

预算制定原则：

给关键阶段单独配额，不允许全链路共享一个“模糊总预算”。
必须留安全余量，吸收机型和系统版本波动。
预算分配与业务优先级挂钩，新增功能先申预算再接入。

三、架构策略：启动期只做“必须做”的事

1）分离阻塞与非阻塞任务

阻塞任务定义：不完成就无法首屏可交互。其余一律延后。

2）懒加载与按需初始化

历史项目常见问题是“所有单例开机即初始化”。建议改成：

按页面首次使用触发初始化。
重模块拆成轻入口 + 异步热身。
后台预热任务必须可取消。

3）并发初始化要受控

并发不是越多越快。启动期无界并发会带来 CPU 抢占和主线程饥饿。建议设固定并发上限，并记录等待队列长度。

四、高风险区域与防线

风险 1：静态初始化过重

防线：盘点全局变量和静态构造器，禁止在类型加载阶段做 I/O 或复杂计算。

风险 2：主线程混入同步 I/O

防线：文件读取、数据库迁移、网络请求不得阻塞主线程启动路径。

风险 3：启动期埋点过度

防线：埋点分级，关键事件同步、非关键异步批量发送。

风险 4：第三方 SDK 扩散

防线：建立 SDK 启动预算表，超预算必须延后或替换。

五、可执行实现模式

struct LaunchBudget: Sendable {
    let appStartMs: Int
    let firstFrameMs: Int
    let interactiveMs: Int
}

actor LaunchGate {
    private var stages: [String: Int] = [:]

    func record(stage: String, costMs: Int) {
        stages[stage] = costMs
    }

    func isOverBudget(_ budget: LaunchBudget) -> Bool {
        let appStart = stages["appStart"] ?? 0
        let firstFrame = stages["firstFrame"] ?? 0
        let interactive = stages["interactive"] ?? 0
        return appStart > budget.appStartMs ||
               firstFrame > budget.firstFrameMs ||
               interactive > budget.interactiveMs
    }
}

要点：

阶段耗时统一采集，避免各模块自定义口径。
预算检查可自动化，作为发布前门禁。
超预算时输出阶段明细，便于快速定位。

六、调优路径：先删任务，再改算法

启动性能优化常见误区是上来就做“代码微优化”。实际收益顺序通常是：

删除不必要启动任务。
把任务移出首屏阻塞链路。
合并重复初始化。
最后才是算法和数据结构优化。

这套顺序更符合收益/成本比。

七、性能分析方法：证据链而非猜测

建议至少使用三类证据：

Instruments 时间线（CPU、主线程、Hangs）。
signpost 阶段标记（业务阶段对齐）。
基准对比（同机型同构建多次采样）。

没有基准就优化，结果很可能“这次快，下次慢”，无法形成可持续策略。

八、测试与门禁

1）基线测试

每个主机型建立冷启基线，至少保留近 3 个版本趋势。

2）回归测试

每次改动运行自动化启动测试，对比预算变化。

3）故障注入

模拟弱网、磁盘忙、低电量模式，验证启动行为可预测。

4）发布门禁

超过预算阈值自动阻断发布，必须附带豁免说明和补救计划。

九、排障流程：慢启动怎么快速定位

flowchart TD
    A[启动指标告警] --> B[按版本与机型聚合]
    B --> C[对比阶段预算差值]
    C --> D{哪一段超支}
    D -- Runtime --> E[检查静态初始化与符号装载]
    D -- DI --> F[检查依赖注入与单例创建]
    D -- Data --> G[检查首屏数据获取策略]
    D -- Render --> H[检查主线程布局与图片解码]
    E --> I[修复后回归验证]
    F --> I
    G --> I
    H --> I

这套流程能把“启动慢”直接落到责任模块，而不是全员盲排查。

十、组织机制：预算治理必须有角色分工

平台团队维护预算框架、采样脚本和门禁阈值。
业务团队对超支阶段负责修复。
Release owner 审批豁免并跟踪偿还。
每月性能例会复盘趋势而非单点。

没有角色分工，预算治理会迅速沦为口号。

十一、落地清单

建立阶段化启动埋点与统一口径。
为主机型设冷启预算。
把预算检查接入 CI。
盘点并清理启动期非必要任务。
建立超预算告警与责任归属。
每个版本输出启动趋势报告。

十二、结语

启动性能治理不是一次优化项目，而是长期预算管理。只要预算、证据链、门禁三件事一起运行，启动体验就能在业务持续迭代下保持稳定。反之，再强的优化专家也会被新需求持续抵消。

冷启动体验是用户第一印象，也是留存和转化的前置条件。把它做成工程制度，才是真正的长期竞争力。