集成MLflow与DVC构建由Service Worker驱动的离线优先MLOps看板

MLOps

文章字数: 3.7k

阅读时长: 16 分

我们团队的MLOps流程一直有个断点。模型训练、实验跟踪在MLflow里井井有条，数据集和模型文件用DVC做版本控制，代码则在Git里。但当一个模型版本需要从实验阶段（Staging）移交给QA团队进行验证，再到最终部署（Production），整个过程的流转是靠Slack消息和手动更新Jira Ticket来驱动的。这种断裂不仅效率低下，而且极易出错，经常出现QA测试了错误的版本，或者部署人员拿到的模型并非最终版。

问题的核心是状态同步。我们需要一个轻量级、自动化的可视化界面，一个能实时反映ML资产（模型、数据）在整个生命周期中流转状态的看板。它不应该是一个需要手动维护的工具，而应该是一个被整个MLOps流程自动驱动的“仪表盘”。

最初的构想很简单：用一个前端框架画一个看板，然后用一个后台服务接收MLflow的Webhooks。当模型注册表中的模型阶段发生变化时，Webhook触发后台服务，服务再通过WebSocket通知前端更新。这个方案可行，但很快就遇到了现实挑战：我们的算法工程师和QA团队成员经常在网络不稳定的环境下办公，比如家里或者通勤路上。一个依赖实时长连接的系统在这种情况下体验会非常糟糕。页面一刷新，状态可能就不同步了；断网期间，更是完全无法查看和操作。

这时，Service Worker进入了我们的视野。它不仅仅是用来做缓存的，它的后台同步（Background Sync）和推送通知（Push Notifications）能力，恰恰能解决我们的核心痛点：构建一个离线优先（Offline-First）、状态强一致的协作看板。于是，整个技术架构逐渐清晰起来。

graph TD
    subgraph Git Repository
        A[Developer pushes code & DVC meta] --> B{Git Server};
    end

    subgraph MLflow Server
        C[ML Engineer logs experiment & registers model] --> D[MLflow Tracking & Registry];
        D -- "Model Stage Changed" --> E{Webhook Trigger};
    end

    subgraph Google Cloud
        E --> F[Google Cloud Function];
        F -- "Update State" --> G[Firestore Database];
        F -- "Send Push Trigger" --> H[Web Push Service];
    end

    subgraph User Browser
        I[Kanban PWA] <--> J[Service Worker];
        J -- "Fetch & Cache" --> G;
        H --> J;
        J -- "Push Event" --> I;
        I -- "Reads/Writes" --> J;
    end

    B --> C;

这个架构的核心是解耦和异步。MLflow只负责触发一个无状态的云函数，云函数作为胶水层，更新状态存储（Firestore）并触发一个推送通知，剩下的工作全部交给了客户端的Service Worker。它负责在后台接收推送、更新本地缓存、同步UI，即使用户当时并不在看板页面。

第一步：后端粘合剂 - Google Cloud Function

我们的第一个任务是创建一个能接收MLflow Webhook的云函数。MLflow的模型注册表支持在模型版本的阶段（Stage）发生转变时触发Webhook。这个Webhook会发送一个包含模型名称、版本、新旧阶段等信息的JSON负载。

我们的云函数需要做到几点：

验证请求的合法性，防止恶意调用。
解析Webhook负载，获取关键信息。
（可选但推荐）通过MLflow Client API，回溯查询该模型版本的更多元数据，比如DVC数据源的Git Commit Hash。
将这些信息结构化地更新到我们的状态存储中心——Firestore。
向所有订阅了该模型更新的客户端发送推送通知。

下面是这个云函数的Python实现。在真实项目中，配置（如Firestore集合名、密钥）应该通过环境变量或Secret Manager注入，而不是硬编码。

main.py

import functions_framework
import json
import os
import hmac
import hashlib
from datetime import datetime

from google.cloud import firestore
from pywebpush import webpush, WebPushException
from mlflow.tracking import MlflowClient

# --- Configuration ---
# 在生产环境中，这些值应该来自环境变量或Secret Manager
SECRET_KEY = os.environ.get("MLFLOW_WEBHOOK_SECRET", "default-secret-for-dev")
FIRESTORE_PROJECT_ID = os.environ.get("GCP_PROJECT")
FIRESTORE_COLLECTION = "mlops_kanban_cards"
PUSH_SUBSCRIPTIONS_COLLECTION = "push_subscriptions"
VAPID_PRIVATE_KEY = os.environ.get("VAPID_PRIVATE_KEY")
VAPID_CLAIMS = {"sub": "mailto:[email protected]"}

# --- Clients Initialization ---
db = firestore.Client(project=FIRESTORE_PROJECT_ID)
mlflow_client = MlflowClient()

def verify_signature(request):
    """验证来自MLflow Webhook的HMAC签名"""
    signature = request.headers.get("X-MLflow-Signature-256")
    if not signature:
        raise ValueError("Signature missing")

    mac = hmac.new(SECRET_KEY.encode(), request.data, hashlib.sha256)
    expected_signature = "sha256=" + mac.hexdigest()

    if not hmac.compare_digest(expected_signature, signature):
        raise ValueError("Signature mismatch")

def get_dvc_info_from_mlflow(model_name, model_version):
    """
    通过MLflow API获取与模型版本关联的DVC信息。
    这里假设在记录模型时，已经将dvc相关的commit hash存入了tag。
    """
    try:
        version_details = mlflow_client.get_model_version(name=model_name, version=model_version)
        tags = version_details.tags
        return {
            "dvc_git_commit": tags.get("dvc.git.commit", "N/A"),
            "data_source_path": tags.get("dvc.source.path", "N/A"),
        }
    except Exception as e:
        # 在真实项目中，这里应该有更详细的日志
        print(f"Error fetching DVC info from MLflow: {e}")
        return {}

def send_push_notifications(payload):
    """向所有订阅者发送Web Push通知"""
    subscriptions_ref = db.collection(PUSH_SUBSCRIPTIONS_COLLECTION).stream()
    for sub_doc in subscriptions_ref:
        subscription_info = sub_doc.to_dict()
        try:
            webpush(
                subscription_info=subscription_info,
                data=json.dumps(payload),
                vapid_private_key=VAPID_PRIVATE_KEY,
                vapid_claims=VAPID_CLAIMS.copy()
            )
        except WebPushException as ex:
            # 如果订阅已过期或无效(410 Gone)，从数据库中删除
            if ex.response and ex.response.status_code == 410:
                print(f"Subscription {sub_doc.id} is gone. Deleting.")
                sub_doc.reference.delete()
            else:
                print(f"Error sending push to {sub_doc.id}: {ex}")

@functions_framework.http
def mlflow_webhook_handler(request):
    """
    处理MLflow Webhook请求的主函数
    """
    if request.method != 'POST':
        return 'Only POST requests are accepted', 405

    try:
        verify_signature(request)
    except ValueError as e:
        print(f"Authentication error: {e}")
        return "Forbidden", 403

    try:
        data = request.get_json()
        event = data.get("event")

        # 我们只关心模型版本阶段变化的事件
        if event != "MODEL_VERSION_STAGE_CHANGED":
            return "Event not processed", 200

        model_name = data.get("model_name")
        model_version = data.get("version")
        to_stage = data.get("to_stage")

        if not all([model_name, model_version, to_stage]):
            return "Missing required fields in payload", 400
        
        # 定义我们的卡片ID，确保唯一性
        card_id = f"{model_name}-v{model_version}"
        card_ref = db.collection(FIRESTORE_COLLECTION).document(card_id)

        dvc_info = get_dvc_info_from_mlflow(model_name, model_version)

        card_data = {
            "modelName": model_name,
            "version": model_version,
            "stage": to_stage.lower(), # 将stage统一为小写，便于前端处理
            "updatedAt": datetime.utcnow(),
            "dvc": dvc_info,
            "history": firestore.ArrayUnion([{
                "stage": to_stage,
                "timestamp": datetime.utcnow()
            }])
        }

        # 使用 set(merge=True) 来创建或更新文档，并合并字段
        card_ref.set(card_data, merge=True)

        # 准备推送通知的负载
        push_payload = {
            "type": "MODEL_STATE_UPDATE",
            "cardId": card_id,
            "modelName": model_name,
            "version": model_version,
            "newStage": to_stage
        }
        send_push_notifications(push_payload)

        return "Webhook processed successfully", 200

    except Exception as e:
        # 生产级的错误处理应该包含更详细的日志记录
        print(f"Internal Server Error: {e}")
        return "Internal Server Error", 500

requirements.txt

functions-framework==3.*
google-cloud-firestore==2.*
pywebpush==1.*
mlflow-skinny==2.* # 使用skinny版本，因为它不包含SQLAlchemy等服务端依赖

这里的坑在于，MLflow的Webhook负载默认信息有限。为了让看板卡片包含DVC数据源的追溯信息，我们在云函数中增加了get_dvc_info_from_mlflow函数。这要求ML团队在记录模型时，必须养成好习惯，将相关的Git Commit和DVC文件路径作为tags一并记录到MLflow Run中。这是流程规范与技术实现的结合点。

第二步：构建离线优先的前端基石

前端我们选择用Vue.js，但核心不在于框架，而在于Service Worker的实现。sw.js文件是我们应用的“大脑”，它独立于主页面运行，拦截网络请求，处理推送事件。

2.1 注册Service Worker与请求推送权限

在主应用逻辑main.js或类似文件中，我们需要检查浏览器支持并注册Service Worker。同时，为了接收推送，我们需要向用户请求权限。

src/utils/push-manager.js

// VAPID公钥，需要与后端的私钥配对
const VAPID_PUBLIC_KEY = 'YOUR_VAPID_PUBLIC_KEY'; // 这个需要从服务器获取

function urlBase64ToUint8Array(base64String) {
    const padding = '='.repeat((4 - base64String.length % 4) % 4);
    const base64 = (base64String + padding).replace(/-/g, '+').replace(/_/g, '/');
    const rawData = window.atob(base64);
    const outputArray = new Uint8Array(rawData.length);
    for (let i = 0; i < rawData.length; ++i) {
        outputArray[i] = rawData.charCodeAt(i);
    }
    return outputArray;
}

export async function registerServiceWorkerAndSubscribe() {
    if (!('serviceWorker' in navigator) || !('PushManager' in window)) {
        console.warn('Push messaging is not supported');
        return;
    }

    try {
        const registration = await navigator.serviceWorker.register('/sw.js');
        console.log('Service Worker registered with scope:', registration.scope);

        // 请求通知权限
        const permission = await window.Notification.requestPermission();
        if (permission !== 'granted') {
            throw new Error('Permission not granted for Notification');
        }

        // 获取或刷新推送订阅
        let subscription = await registration.pushManager.getSubscription();
        if (subscription === null) {
            console.log('No subscription found, subscribing...');
            subscription = await registration.pushManager.subscribe({
                userVisibleOnly: true,
                applicationServerKey: urlBase64ToUint8Array(VAPID_PUBLIC_KEY),
            });
            // TODO: 将这个subscription对象发送到后端并存储
            // e.g., await saveSubscriptionToServer(subscription);
            console.log('New subscription:', subscription);
        } else {
            console.log('Existing subscription found:', subscription);
        }
    } catch (error) {
        console.error('Failed to register service worker or subscribe:', error);
    }
}

这个saveSubscriptionToServer函数需要实现，它会调用一个后端API（可以是另一个云函数），将用户的subscription对象存入Firestore的push_subscriptions集合中，以便后端知道该给谁发通知。

2.2 Service Worker核心逻辑：缓存与数据同步

sw.js是整个离线体验的核心。我们采用”Cache, falling back to network”策略处理API请求，并用”Stale-While-Revalidate”策略处理应用外壳资源。

public/sw.js

const APP_SHELL_CACHE_NAME = 'mlops-kanban-shell-v1';
const DATA_CACHE_NAME = 'mlops-kanban-data-v1';

// 应用外壳资源：HTML, JS, CSS 等
const APP_SHELL_FILES = [
    '/',
    '/index.html',
    '/js/app.js',
    '/css/style.css',
    // 其他关键的静态资源
];

// 安装事件：缓存应用外壳
self.addEventListener('install', event => {
    console.log('[SW] Install event');
    event.waitUntil(
        caches.open(APP_SHELL_CACHE_NAME).then(cache => {
            console.log('[SW] Caching app shell');
            return cache.addAll(APP_SHELL_FILES);
        })
    );
});

// 激活事件：清理旧缓存
self.addEventListener('activate', event => {
    console.log('[SW] Activate event');
    event.waitUntil(
        caches.keys().then(keyList => {
            return Promise.all(keyList.map(key => {
                if (key !== APP_SHELL_CACHE_NAME && key !== DATA_CACHE_NAME) {
                    console.log('[SW] Removing old cache', key);
                    return caches.delete(key);
                }
            }));
        })
    );
    return self.clients.claim();
});

// 拦截网络请求
self.addEventListener('fetch', event => {
    const url = new URL(event.request.url);

    // API请求 (e.g., to Firestore)
    // 使用 Cache falling back to Network 策略
    if (url.origin.includes('firestore.googleapis.com')) {
        event.respondWith(
            caches.open(DATA_CACHE_NAME).then(cache => {
                return cache.match(event.request).then(response => {
                    const fetchPromise = fetch(event.request).then(networkResponse => {
                        // 成功从网络获取后，更新缓存
                        cache.put(event.request, networkResponse.clone());
                        return networkResponse;
                    });
                    // 如果缓存中有，先返回缓存；同时发起网络请求更新缓存。
                    // 如果缓存没有，则等待网络请求结果。
                    return response || fetchPromise;
                });
            })
        );
    } else {
        // 应用外壳资源请求
        // 使用 Cache-First 策略
        event.respondWith(
            caches.match(event.request).then(response => {
                return response || fetch(event.request);
            })
        );
    }
});

这个fetch事件处理器是关键。它区分了API请求和静态资源请求。对于API，它优先从缓存返回数据，保证了即使在离线状态下，用户也能看到上次同步的数据。同时，它会默默地发起网络请求，一旦成功，就更新缓存，为下一次访问提供最新数据。

第三步：打通任督二脉 - 推送与UI更新

现在，当云函数发送推送通知时，Service Worker需要能够接收并处理它。

public/sw.js (续)

// ... (之前的 install, activate, fetch 事件)

// 监听推送事件
self.addEventListener('push', event => {
    console.log('[SW] Push Received.');
    let data;
    try {
        data = event.data.json();
    } catch (e) {
        console.error('[SW] Push event but no data');
        return;
    }

    console.log('[SW] Push data:', data);

    const title = `模型状态更新: ${data.modelName}`;
    const options = {
        body: `版本 v${data.version} 已进入 "${data.newStage}" 阶段。`,
        icon: '/icons/icon-192x192.png',
        badge: '/icons/badge.png',
        data: { // 可以附加自定义数据，点击通知时使用
            cardId: data.cardId,
        }
    };

    // 显示系统通知
    event.waitUntil(self.registration.showNotification(title, options));

    // 通知所有打开的客户端页面进行UI更新
    // 这是一个关键步骤，实现了后台到前台的通信
    event.waitUntil(
        self.clients.matchAll({
            type: 'window',
            includeUncontrolled: true
        }).then(clientList => {
            if (clientList.length > 0) {
                console.log('[SW] Notifying clients');
                clientList[0].postMessage({
                    type: 'MODEL_STATE_UPDATED',
                    payload: data
                });
            } else {
                console.log('[SW] No clients to notify. Data will be fetched on next load.');
                // 即使没有打开的页面，也应该主动更新缓存
                // 这里的实现可以是一个 fetch 调用去获取最新的卡片数据并更新DATA_CACHE
            }
        })
    );
});


// 监听通知点击事件
self.addEventListener('notificationclick', event => {
    console.log('[SW] Notification click Received.');
    event.notification.close();

    const cardId = event.notification.data.cardId;

    event.waitUntil(
        clients.openWindow(`/#/kanban?focus=${cardId}`)
    );
});

在push事件处理器中，我们做了两件事：

调用 self.registration.showNotification，向用户展示一个系统通知。
调用 clients.matchAll() 找到当前所有打开的页面，并通过postMessage向它们发送消息。

前端Vue应用需要监听这个消息，然后去更新自己的状态。

src/components/KanbanBoard.vue

// ...
export default {
    data() {
        return {
            cards: [],
            // ...
        }
    },
    created() {
        this.fetchInitialData();
        
        // 监听来自Service Worker的消息
        if ('serviceWorker' in navigator) {
            navigator.serviceWorker.addEventListener('message', event => {
                if (event.data && event.data.type === 'MODEL_STATE_UPDATED') {
                    console.log('Received state update from SW:', event.data.payload);
                    this.handleStateUpdate(event.data.payload);
                }
            });
        }
    },
    methods: {
        async fetchInitialData() {
            // 从Firestore加载初始看板数据
        },
        handleStateUpdate(payload) {
            // 根据payload更新本地的cards数组
            const cardIndex = this.cards.findIndex(c => c.id === payload.cardId);
            if (cardIndex !== -1) {
                // 如果卡片已存在，则更新
                this.cards[cardIndex].stage = payload.newStage.toLowerCase();
            } else {
                // 如果是新卡片，则重新获取或直接添加到对应列
                // 一个更稳妥的策略是标记数据为"stale"并触发一次完整的后台刷新
                this.cards.push({
                    id: payload.cardId,
                    modelName: payload.modelName,
                    version: payload.version,
                    stage: payload.newStage.toLowerCase(),
                    // ... 其他默认数据
                });
            }
        }
    }
}

最终成果与局限性

最终我们得到的是一个极其稳健的MLOps看板。当模型在MLflow中的阶段发生变化时，无论用户是否打开着看板页面，他们的设备都会收到推送。当他们打开页面时，会立刻看到最新的状态，即使是在地铁里断网的情况下。因为Service Worker已经作为我们应用的一个可靠代理，在后台默默地完成了数据同步。卡片上清晰地展示着模型版本和DVC数据源的commit hash，点击即可复制检出命令，实现了从状态监控到代码/数据回溯的闭环。

当然，这个方案并非完美。
首先，它强依赖于Web Push协议，这意味着它在不支持的浏览器或环境下（如iOS上的多数浏览器）无法实现实时推送，只能降级为用户打开页面时的主动拉取。
其次，我们的状态管理直接建立在Firestore之上，对于更复杂的看板交互（例如拖拽卡片触发逆向操作），单纯的云函数可能不够用，需要一个更健壮的后端服务来处理权限、业务逻辑和与MLflow/Git的交互。
最后，错误处理和状态一致性需要更精细的设计。例如，如果云函数在更新Firestore后、发送推送通知前失败了怎么办？虽然概率小，但在生产环境中需要考虑引入事务或更可靠的消息队列来保证操作的原子性。

这条路只是一个开始，但它验证了一个强大的模式：利用Service Worker将一个传统的Web应用改造成一个具备原生应用般韧性和实时性的强大工具，即使是在数据密集且流程复杂的MLOps领域。

DVC Service Workers Kanban MLflow Google Cloud Functions

构建基于Neo4j与GCP的跨项目代码依赖分析平台以量化前端技术债

2023-10-27 架构与设计

CSS Modules Google Cloud (GCP) 代码规范 Neo4j Dart

使用 Go Echo 构建连接 Astro 前端与 Keras 推理服务的异构 AI 网关

2023-10-27 后端架构

Echo Keras Astro Material-UI 前端