VI.7 前端 AI/ML 集成：浏览器内机器学习

目的：直接在浏览器中运行机器学习模型，实现实时推理、增强用户体验和保护隐私的 AI。

TensorFlow.js：用于机器学习的 JavaScript 库，允许直接在浏览器或 Node.js 中开发和使用 ML 模型。支持运行现有模型、重新训练和开发新模型。
ONNX Runtime Web：用于在浏览器和 Node.js 中运行 ONNX（开放神经网络交换）模型，支持 WebAssembly、WebGPU 等不同执行后端。
MediaPipe：一套库和工具，用于在包括 Web 在内的平台上应用 AI/ML 技术（例如，对象检测、手势识别等计算机视觉任务）。
LLM/RAG 集成：
- LangChain：提供用于管理和优化应用程序中大型语言模型 (LLM) 的模块。
- Pinecone：高性能矢量数据库，与 LangChain 结合使用，通过检索增强生成 (RAG) 为 LLM 添加知识。
- LlamaIndex：用于将各种数据源连接到 LLM 的框架，专注于 RAG 应用程序。

将 AI/ML 直接集成到前端的趋势是由对实时交互性、降低服务器成本和增强隐私（数据保留在设备上）的需求驱动的。这有效地带来了更丰富、更个性化的用户体验。LLM/RAG 集成到前端应用程序中标志着动态内容生成和智能辅助的新前沿。

VI.7.0 2026 年的新变化：浏览器开始内建 AI 能力

除了 TensorFlow.js、MediaPipe、ONNX Runtime Web 这类“你自己带模型进浏览器”的路线之外，2026 年另一个值得关注的变化是：浏览器本身开始提供内建 AI API。
这意味着有些文本处理和轻量生成任务，不再一定要由开发者自己托管模型或完全依赖远端 API。

以 Chrome 当前推进的 Built-in AI 能力为例，浏览器开始围绕本地模型提供一组更高层的任务 API。其中一部分已经可以让开发者试验，另一部分仍处于预览或逐步开放阶段，例如：

Prompt API：执行通用提示式任务
Summarizer API：生成摘要
Translator API：本地翻译文本
Language Detector API：识别语言
Writer / Rewriter API：生成或改写文本

这类 API 的价值在于：

某些任务可以在设备端完成，减少数据离开本地的范围
浏览器帮助你管理模型下载、更新和生命周期
对“翻译、总结、改写、校对”这类高频产品能力来说，接入门槛更低

但它们也有明显边界：

浏览器支持度、可用性阶段和权限模型仍在演进
目前主要由 Chrome 生态率先推进，不同浏览器之间并没有完全等价的统一实现
更复杂的推理任务仍然常常需要云端模型或混合架构

因此，浏览器内建 AI 更适合被理解为：Web 平台新增的一组 AI 原语，它会改变很多产品能力的实现方式，但不会替代所有前端 AI/ML 路线。

VI.7.1 浏览器端与服务器端 ML 对比

浏览器端（客户端）ML：

优点：
- 增强隐私：输入数据（如本地图像或视频流）保留在浏览器沙箱内，无需发送到远程服务器，从而增强了隐私保护。
- 低延迟：本地处理使得对低延迟有要求的 ML 用例成为可能，例如沉浸式 Web 体验中的实时对象检测。
- 去中心化：无需云基础设施投资即可大规模部署 ML 系统，符合去中心化 Web 架构的理念，减少了单点故障和控制。
- 渐进式增强：通过将计算密集型 ML 任务卸载到设备硬件上，任何 Web 应用程序都可以通过 ML 功能得到丰富，现有 Web 内容也可以逐步增强。
缺点：
- 硬件加速受限：浏览器中的 ML 推理目前使用 WebGL 图形 API，但缺乏对 ML 专用硬件加速器的访问，这限制了体验范围并导致在现代硬件上效率低下。
- 性能不均：不同地区互联网连接速度的差异以及生产级模型的大尺寸，意味着设备端推理的用户体验可能不均等。
- 功耗与环境成本：Web ML 应用计算和能源密集，广泛采用会加剧环境问题。将大型 ML 模型分发到每个客户端会增加环境成本。
- 模型大小与复杂性：大型或复杂模型可能难以在浏览器中高效运行，可能导致浏览器响应缓慢甚至无响应。
- 数据丢失与不准确：客户端跟踪容易受到广告拦截器、浏览器设置和网络连接问题的影响，导致数据丢失或不准确。

服务器端 ML：

优点：
- 数据准确性提高：服务器端跟踪不受客户端问题（如浏览器特定问题、广告拦截器和 JavaScript 错误）的影响，数据收集更可靠。
- 广告拦截器影响降低：服务器端跟踪绕过了广告拦截器和隐私扩展的限制。
- 数据安全性增强：敏感数据可以在传输到分析平台之前进行处理和匿名化，有助于避免个人身份信息（PII）泄露并符合数据保护法律。
- 更可靠的跟踪：无论互联网连接状态如何或用户是否关闭浏览器，服务器都能正确跟踪数据。
- 更好的性能和速度：减少了客户端的负载，使页面加载更快，用户体验更流畅。
- 更全面的数据收集：可以捕获客户端跟踪可能遗漏的幕后交互。
缺点：
- 实现复杂：服务器端跟踪的实现通常比客户端跟踪更复杂。
- 用户交互细节不足：难以捕获详细的客户端交互，如点击或鼠标移动，通常需要额外的客户端工具来弥补。
- 隐私风险：如果数据在离开设备后未得到妥善处理，可能存在隐私问题。

前端 AI/ML 的实现需要在隐私与性能之间取得平衡。浏览器端 ML 的优势在于数据保留在本地，从而增强了用户隐私，并能实现低延迟的实时应用。然而，它受限于浏览器对专用 ML 硬件加速器的访问，可能导致效率低下，并可能因设备性能差异而导致用户体验不均。相比之下，服务器端 ML 在数据准确性、安全性、处理大型模型和性能方面表现出色，但可能引入数据传输延迟和隐私担忧。这种权衡需要开发者根据应用对数据敏感性、实时性要求和目标用户设备能力的具体需求做出关键设计决策。

VI.7.2 应用示例与框架

前端 AI/ML 的实际应用日益增多，得益于 MediaPipe 和 TensorFlow.js 等强大框架的出现。

MediaPipe Solutions：这是一套库和工具，使用户能够快速在其应用程序中应用人工智能和机器学习技术。这些解决方案可以立即集成到应用程序中，根据需要进行定制，并跨多个开发平台使用。MediaPipe Solutions 包括：
- MediaPipe Tasks：用于部署解决方案的跨平台 API 和库。
- MediaPipe Models：预训练的、可直接用于每个解决方案的模型。
- MediaPipe Model Maker：允许用户使用自己的数据定制解决方案模型。
- MediaPipe Studio：用于在浏览器中可视化、评估和基准测试解决方案。

其中，手势识别器 (Gesture Recognizer) 任务允许实时识别手势，并提供识别结果以及检测到的手部地标。这使得应用程序能够根据用户特定手势调用相应的功能。该任务在图像数据上使用机器学习模型，接受静态数据或连续流。它输出图像坐标中的手部地标、世界坐标中的手部地标、惯用手（左/右手）以及多只手的手势类别。手势识别器使用包含手部地标模型和手势分类模型的模型包，并且可以通过 Model Maker 进行定制，以识别更多手势。MediaPipe 还提供其他视觉任务，如对象检测、图像分类、图像分割、面部检测和姿态地标检测。例如，ModiFace 利用 TensorFlow.js 的 FaceMesh 模型识别关键面部特征，并结合 WebGL 着色器，使用户能够数字试妆，同时保护隐私。

TensorFlow.js：用于在浏览器和 Node.js 中进行机器学习的 JavaScript 库。
- 实际应用示例：TensorFlow.js 在现实世界中有广泛应用，包括在线聊天中的实时毒性过滤器（InSpace 通过在客户端执行所有推理来检测有毒评论，无需将文本发送到第三方服务器进行分类）。其他示例包括 YouTube 的口型同步评分（使用 FaceMesh 模型估计唇部关键点）、表情符号寻宝、网络摄像头控制器、可教学机器（无需编码即可识别图像和播放声音）、动作镜像、实时钢琴演奏（由神经网络生成）、Node.js 中的棒球投球类型预测，以及训练可视化等。

这些框架通过提供预训练模型与定制化的双重策略，极大地推动了前端 AI/ML 的发展。MediaPipe 等框架提供了开箱即用的预训练模型，方便开发者快速集成 AI 功能。同时，它们也提供了 Model Maker 等工具，允许开发者使用自己的数据集对模型进行定制，以满足特定的应用需求。这种方法兼顾了快速原型开发和专业化应用的需求，使得 AI/ML 在前端的普及成为可能。

值得注意的是，到 2026 年，前端 ML 的底层执行后端已经不再只有 WebGL。
WebAssembly 仍是最稳妥的通用回退路径，WebGPU 正在成为高性能浏览器推理的重要后端，WebNN 则代表更贴近系统级 AI/ML 加速能力的方向。
这说明前端 AI/ML 的关键问题，已经不只是“浏览器里能不能跑模型”，而是“在不同设备和浏览器条件下，应该选择哪种执行路径，才能在性能、功耗、兼容性和体验之间取得平衡”。

VI.7.3 混合架构：设备端 AI 与云端 AI 协同

在真实产品里，前端 AI/ML 很少是“纯本地”或“纯云端”的二选一。
更常见的是混合模式：

本地模型负责低延迟、隐私敏感、轻量任务
云端模型负责复杂推理、长文本生成、多轮上下文处理
当前端检测到设备能力不足或浏览器不支持时，再优雅地回退到服务端

这种设计比单纯讨论“浏览器能不能跑模型”更重要，因为它直接决定：

成本
首次使用体验
隐私边界
离线能力
全球不同设备条件下的可用性

因此，到 2026 年讨论前端 AI/ML 时，核心问题已经不只是“模型放在哪里跑”，而是如何设计一个面向真实用户设备差异的混合 AI 系统。

VI.7 前端 AI/ML 集成：浏览器内机器学习 ​

VI.7.0 2026 年的新变化：浏览器开始内建 AI 能力 ​

VI.7.1 浏览器端与服务器端 ML 对比 ​

VI.7.2 应用示例与框架 ​

VI.7.3 混合架构：设备端 AI 与云端 AI 协同 ​

VI.7 前端 AI/ML 集成：浏览器内机器学习

VI.7.0 2026 年的新变化：浏览器开始内建 AI 能力

VI.7.1 浏览器端与服务器端 ML 对比

VI.7.2 应用示例与框架

VI.7.3 混合架构：设备端 AI 与云端 AI 协同