
曩昔几年,数据界的每个东谈主都在辩论语义层。
贸易智能供应商将其手脚一种方便的主见模子进行销售。当代数据架构称之为主见层。东谈主工智能团队则宣称,淌若莫得它,就无法构建分析代理。但淌若你仔细不雅察一下主要科技公司(Uber、Netflix、Airbnb、LinkedIn、Spotify)的架构,就会发现它们的含义与“语义层”一词正常所示意的含义截然有异。
他们来说,这不单是是 BI 器用里面的一层主见。它是数据平台内的一个颓落基础设施。一个治理业务主见界说、筹备、数据质料、探听截止以及这些主见在 BI、机器学习、居品以致 AI 系统中的使用样式的平台。
尤其道理的是,很多公司都曾在博客、探究论文和架构演讲中部分领路过其架构信息。淌若将这些败落的信息拼集起来,就会呈现出一幅迥殊令东谈主骇怪的图景。本文将尝试作念到这少许。
咱们将采集大型科技公司 数据工程式样 府上中公开可用的左证,并重建语义层的真实架构。咱们将探究 Uber 和 LinkedIn 的主见平台是何如运作的,Netflix 为什么构建 Metrics Repo,Airbnb 何如联想 Minerva,Spotify 为什么在数据仓库前边摈弃 API,以及语义层在东谈主工智能系统中运行进展什么作用。
最终收场将类似于一张舆图:语义层在大科技公司中本体是何如运作的,以及哪些原则不错控制于更典型的组织。大概最道理的论断会突如其来:在大型科技公司中,语义层根底不是 BI 功能,而是当代数据平台的关节架构层之一。
1. 大型企业的语义层架构
1.1 优步
主见平台架构
Uber 构建了一个名为 uMetric 的蚁集式平台,用于治理主见的通盘人命周期:界说 、 发现 、 筹备 、 质料考据 和花消。
本体上,这既是一个 语义层,亦然一个主见平台 。

Uber 公开将其里面 uMetric 平台刻画为一个长入的主见平台,涵盖主见的通盘人命周期:界说、发现、联想、筹备、质料和使用。
此外,Uber明确浮现,该平台将主见推广到 机器学习特征 ,这意味着它不再只是是一个分析辞书,而是分析和机器学习之间的桥梁。

2025年,Uber还先容了其对话式数据代理 Finch 。它基于用心整理的单表数据集市和构建在元数据之上的语义层运行。Finch使用存储在OpenSearch中的元数据、列一名和值,使LLM能够生成更精准的WHERE筛选要求,并权贵减少演叨。
细察力
在 Uber,语义层本体上仍是成为 机器的截止平面 ,而不单是是分析师的截止平面。
这里最有价值的左证是,他们的AI代理并莫得依赖于“LLM会自行臆度模式”的想法。相悖,他们依赖于用心治理的数据集市、元数据一名和受控探听权限。
换句话说,确凿基于数据构建的企业级东谈主工智能并不依赖于原始SQL语句的生成,而是依赖于 事先构建的语义高下文 。
系统中枢理念
该系统的主要理念是摈斥不同团队筹备出的主见之间的互异。
简化架构
[事件流] → [数据管谈] → [主见界说] → [主见筹备引擎] → [质料考据] → [主见 API] → [面容盘/机器学习/控制]
关节观点
Uber明确浮现,其主见系统不仅用于分析,还用作 机器学习特征平台 。
这本体上意味着: 语义层 = 机器学习的特征层
1.2 Netflix
主见库 — 主见即代码
Netflix 构建了一个名为Metrics Repo 的 系统,这是一个蚁集式主见界说的框架。
Netflix 在刻画其现实平台时讲解说,Metrics Repo 是一个里面 Python 框架,用户不错在其中界说以编程样式生成的 SQL 查询和主见界说。然后,系统会将这些界说蚁集治理。

在Netflix最近发布的一份对于其分析 式样 的概括中,该公司强调,里面主见的创建和使用“正常比应有的复杂得多”。换句话说,即使在Netflix这么老到的公司,主见界说不一致的问题也并未王人备销毁。
此外,还有另一个纰谬的信号。在另一篇对于云效用的著述中,Netflix 刻画了一个 分析数据层 ,该数据层为金融 式样 用例提供时间序列效用分析。
细察力
Netflix 领路了一些鲜为东谈主知的内幕:
在大型公司中,语义层正常不是一个单一的通用系统。相悖,它由 特定领域的主见库和 针对特定用例的分析层组成——举例现实、效用分析、创意分析等等。
换句话说,确凿的架构更接近于 联邦语义治理, 而不是“一个语义层统率一切”的想法。
这不是径直引语——而是根据 Netflix 对其多样主见框架和特定领域分析层的刻画得出的论断。
中枢想想
主见是 通过设施 界说的,而不是在 BI 器用里面界说的。
因此,主见筹备从 ETL 管谈中移出,更经营分析师。
简化架构
[原始数据] → [数据仓库] → [主见库(代码界说)] → [现实平台] → [统计引擎] → [面容盘/有讨论系统]
关节观点
主见库不仅用于贸易智能,何况主要用于:
A/B 测试、居品现实、因果臆度
Netflix对于其现实平台的探究论文阐发了这少许。换句话说,Netflix的语义层是 科学现实平台 的一部分。
1.3 LinkedIn
长入主见平台
LinkedIn 构建了 长入主见平台 (UMP) 。该平台旨在措置的主要问题是:不同的团队以不同的样式筹备疏导的主见。
为了措置这个问题,LinkedIn领受了蚁集化措施:度量界说 、 筹备 和 做事 。
简化架构
[原始事件] → [Kafka] → [批处理 + 流处理] → [主见筹备] → [主见存储] → [主见 API] → [面容盘/做事]
关节观点
LinkedIn 将语义层升沉为一项 确凿的做事 ,而不是 SQL 模子,而是一个 主见 API 。
1.4 Spotify
现实平台里面的语义层
Spotify 构建了我方的现实平台。其架构约莫如下:
[居品事件] → [数据湖] → [主见界说] → [现实引擎] → [统计分析] → [有讨论面容盘]
中枢原则
主见必须具有 可复现性 。换句话说,每个现实都必须基于 疏导的主见界说 。
1.5 Airbnb
Minerva——面向通盘公司的语义层
Airbnb 竖立了一个名为Minerva 的 系统。
Airbnb明确指出,Minerva在其新的数据仓库架构中演出着中枢扮装。它负责接收事实表和维度表,对数据进行反模范化处理,并通过API将其提供给卑劣控制设施。

他们还揭示了该系统的界限:跳跃 12,000 式样标、 跳跃 4000个维度和 跳跃200 名来自不同公司职能部门的 数据出产者。
主见和维度界说存储在 蚁集式 GitHub 存储库 中,并经过代码审查、静态考据和测试运行。
该系统支合手:
界说质料检查、回填、版块截止
本钱归因、GDPR遴选性删除、探听截止
自动弃用策略、基于使用量的保留
Airbnb 对其主见作念了相配清亮的转头: “一次界说,处处可用”。
细察力
确凿的“诀要”不在于公式。Airbnb 的语义层既不是 用户界面功能,也不是贸易智能功能 ——它是一门工程学科。
主见被视为代码。 元数据是强制性的。 存在审查经由。 中间筹备收场不错重用。 弃用和人命周期治理已认真化。
换句话说,Minerva 不仅措置了“何如筹备 KPI”的问题,还措置了“何如退守业务道理在数百个团队均分布”的问题。
Airbnb明确讲解说,真钱牛牛只是圭臬化表格是不够的。圭臬化必须 在主见层面 进行,因为用户使用的是主见、维度和评释,而不是表格。
Minerva 治理:主见 、维度和 KPI筹备 。
中枢想想
界说一次,即可处处使用
简化架构
[数据仓库] → [语义层(Minerva)] → [主见筹备] → [主见 API] → [分析器用]
Airbnb 还指出,它已将其 数据质料评分 推广到 Minerva 主见和维度。
这是一个至关纰谬的信号:除非主见具有 信任信号, 不然它不被视为一个竣工的对象。
细察力
一个确凿的企业语义层简直老是由三个组件组成:
道理的界说
筹备机制
信任/质料信号
淌若莫得第三个组成部分,它就只是是一个公式辞书,而不是企业级语义层。Airbnb的 Minerva + 数据质料评分 以及Uber uMetric 平台中颓落的 质料支合手都明晰地支合手了这一论断。
1.6 Pinterest
在最近一篇对于文本转 SQL 的著述中,Pinterest 讲解说,在领会查询之前,他们会用以下样式丰富高下文:
表格和列刻画
圭臬化术语
度量界说
数据质料介意事项
冷酷日历范围
他们还讲解说,淌若莫得这种高下文,LLM 就只可看到原始的表格和列,因此会失去数据的业务道理。

Pinterest 还指出,这种高下文信息是通过以下样式自动调解的:
东谈主工智能生成的文档
基于畅通的词汇表传播
基于搜索的语义匹配
细察力
这为一种新趋势提供了强有劲的左证。在东谈主工智能时期,语义层不再只是是类似这么的抒发式:收入 = SUM(x)
它还包括:
字段的同义词
数据质料介意事项
可遴选的日历范围
灵验的畅通旅途
这些恰是传统 BI 语义层居品中经常缺失的身分——尽管它们对于 文本到 SQL 系统和代理驱动的分析 至关纰谬。
2. 大型科技公司语义层矩阵

3. 真实情况
当这些作念法勾通起来时,它们就酿成了大型科技公司语义层的长入架构。
[数据源] → [数据仓库/湖屋] → [调遣层] → [主见界说(Git)] → [主见筹备引擎] → [主见目次] → [主见 API] → [BI / ML / 控制 / AI]
这代表了一个 竣工的企业级语义层架构 。
本体上,在一般公司里面复制这种架构并非易事。
大大都组织仍是具备:数据仓库 、 转型器用 和 BI面容盘 。
但它们正常枯竭将业务含义与底层数据结构畅通起来 的语义建模层。
这恰是 DataForge 这类器用的用武之地。DataForge并非将主见逻辑镶嵌BI器用或SQL管谈中,而是允许团队联想一个蚁集式的语义模子 , 该模子包含事实、维度和业务主见——灵验地充任了本文所述的架构层。
换句话说,它有助于完结 Uber、Airbnb 和 LinkedIn 等公司使用的疏导原则——但神色上却能让普通的数据团队纵情上手。
4. 普通公司与大型科技公司的差异是什么

5. 大型科技公司舆图:每家公司本体竖立了什么

该矩阵越过了一个关节不雅察收场:
大型科技公司并非老是明确使用“语义层”这个术语。然则,当它们发布架构细节时,疏导的组件却反复出现:
度量界说
蚁集式筹备
做事层/API
治理
数据质料
居品目次
跨器用重用
6. 语义层的演进:2010 年 → 2026 年

第一阶段:2010–2014 年 / “主见及时反馈在评释和经由中”
早期阶段,各式样标分布在 ETL 管谈、报表器用和各个团队中。LinkedIn 明确指出,在 UMP 推出之前,报表系统 貌合心离、各自颓落且枯竭系统性 ,不同的利益关系者对归并主见的筹备样式也各不疏导。这与 2010 年代初期企业分析环境的典型状态极为通常。
第二阶段:2015–2019 年 / 圭臬化和现实
在这个阶段,企业运行蚁集治理主见,主要目的是为了支合手 A/B测试和可靠的现实 。2019年,Netflix推出了 Metrics Repo ,手脚一种长入的主见界说样式,并支合手以编程样式生成SQL。与此同期,LinkedIn仍是领有了 长入主见平台(UMP),支合手A/B测试和评释。在这个阶段,语义层的出现并非源于贸易智能器用,而是源于确保可复现性和一致性的 需求。
第三阶段:2020–2022 年 / 主见即代码和做事层
2020 年至 2021 年间,Spotify、Uber 和 Airbnb 等公司运行公开展示下一阶段的发展标的:
代码或 Git 中的度量界说
蚁集式主见人命周期治理
API 或做事层
治理
质料考据
Spotify 在数据仓库前端引入了 API。Uber 竖立了全人命周期的 uMetric 平台。Airbnb 发布了对于 Minerva 过甚 API 的扫视信息。至此,语义层不再只是是一个 BI 模子,而成为一个 颓落的平台层 。
第四阶段:2023–2024 年 / 洞开生态系统和可组合性
2024年,谷歌通过 洞开SQL接口(Open SQL Interface) 和束缚壮大的畅通器生态系统,向外部器用洞开了Looker语义层。同期,Meta发布了其对于 可组合数据治理 以及不同系统间语义不一致挑战的探究收场。至此,语义层运行被视为更平淡的 互操作性架构 的一部分。
第五阶段(2024-2026 年)/语义层手脚东谈主工智能高下文层
在2024年至2025年间,谷歌明确地将语义层与 Gemini、对话分析API和MCP 畅通起来,并指出东谈主工智能应该查询语义层,而不是生成原始SQL语句。优步此前仍是通过“主见和机器学习特征即做事”的见解示意了这少许 。 至此,语义层已不再只是是一个分析抽象层。
它成为 东谈主工智能代理的受控高下文层 。
7. “交叉图”:哪些微妙是通盘东谈主都知谈的

8. 要达到最高水平需要作念些什么
主见不是 “购买语义层” ,而是安详完成六个老到阶段。

第一级——根终止集: 关节KPI不应再以Excel表格、BI筹备字段或临时SQL语句手脚主要数据源。LinkedIn和Uber的案例明确标明,他们构建平台的主要原因即是为了措置团队间主见近似和不一致的问题。
第二级——一次性界说: 将主见界说移至蚁集式 模范/代码层 。这不错通过以下样式完结:DataForge、YAML、DSL、dbt 元数据、LookML 格调的建模层、里面存储库 。
Uber、Airbnb、Netflix 和 Google 恰是这么治理主见的。
第三级——一次筹备: 主见必须 在通盘场地以疏导的样式 筹备:面容盘、现实系统、临时间析、控制设施。这种模式在 LinkedIn 的 UMP 、Uber 的 uMetric 和 Spotify 的 主见目次 中都有彰着的体现。
第四级——无处不在:只是 调解一个主见界说库是不够的。您还需要一个 做事层 ,举例:API、查询层、洞开SQL接口、语义端点 。
这种模式在Spotify、Airbnb 和 Google 的架构中都有彰着的体现。
第五级——增强信任: 淌若莫得质料检查、考据、通盘权和审查经由,语义层就无法达到企业级老到度。Airbnb 的 数据质料评分 、Uber 的 主见级质料检查 以及 Stripe 的 数据质料平台 都标明, 信任并非无关紧要,而是老到架构的基本组成部分 。
第六级——将东谈主工智能控制于语义层: 下一个最高等别的法子是将语义层用作 东谈主工智能和分析代理的高下文 。刻下,最清亮的公开示例来自谷歌,它整合了以下时间:Looker、双子座、对话分析 API、MCP。
9.要迈向大型科技公司水平,需要作念些什么
法子 1
完结 主见即代码
示例:主见:收入,界说:订单金额之和,维度:国度/地区,通盘者:财务
法子 2
创建长入主见目次。该目次应包含:公式 、 刻画 、 通盘者 、 血缘 和 质料检查 。
法子 3
蚁集式主见筹备。一个主见应该只筹备 一次 。
不是指:在 BI 器用中、在 SQL 查询中、在 Excel 中。
第四步
构建主见 API,以便以下用户不错使用主见:BI系统、机器学习管谈、控制设施 。
第五步
加多治理身分。每式样标都应包含以下内容:通盘者、刻画、考据测试 。
10. 小结
那么,最“诡秘”的观点是什么——即便它已被公开纪录?最被低估的论断是:
伊始的时间公司不会将语义层构建成BI之上的一个薄层。
他们将其打造为一款 用于治理业务的居品 ,其含义包括:
代码
评述
通盘权
血缘
质料
探听截止
回填
弃用策略
API 和代理花消
这种模式在Airbnb、Uber、Netflix 和 Pinterest 的架构中都能同期不雅察到。淌若你仔细探究 Uber、Netflix、LinkedIn、Airbnb 和 Spotify 的架构,你会发现一个了然于目的事实:
语义层 不是一种器用 。
它是 业务主见的操作系统 。
这即是大型科技公司将其构建成这么的原因:
一个平台
一项做事
API
治理层
大型科技公司并莫得将语义层构建成一个完善的贸易智能功能。
大型科技公司将语义层构建为 界说、筹备、做事、信任以及刻下的 AI 基础架构的平台层 。
并非通盘公司都会公开展示单一的长入语义层。
但在职何一家顶尖公司里, 这一层级的组织机构都是了然于目的 :
居品目次
度量界说
做事 API
质料层
语义互操作性
现实近似使用
这亦然数据器用生态系统的发展标的。
一种新的平台类别正在兴起,它不再将语义层视为 BI 器用里面的功能,而是将语义层视为数据平台的 一流架构组件。
大大都 BI 语义层本体上即是 数据模子 。大型科技公司的语义层是 主见基础设施 真钱牛牛app。
澳门威斯人app下载官网

备案号: