
曩昔几年,数据界的每个东说念主都在酌量语义层。
买卖智能供应商将其当作一种方便的方针模子进行销售。当代数据架构称之为方针层。东说念主工智能团队则宣称,淌若莫得它,就无法构建分析代理。但淌若你仔细不雅察一下主要科技公司(Uber、Netflix、Airbnb、LinkedIn、Spotify)的架构,就会发现它们的含义与“语义层”一词频频所走漏的含义截然有异。
他们来说,这不单是是 BI 器具里面的一层方针。它是数据平台内的一个孤苦基础设施。一个不休业务方针界说、贪图、数据质地、拜谒适度以及这些方针在 BI、机器学习、家具甚而 AI 系统中的使用面目的平台。
尤其预料的是,好多公司都曾在博客、筹论说文和架构演讲中部分涌现过其架构信息。淌若将这些零落的信息免强起来,就会呈现出一幅十分令东说念主骇怪的图景。本文将尝试作念到这少量。
咱们将网络大型科技公司 数据工程名堂 贵府中公开可用的字据,并重建语义层的果真架构。咱们将斟酌 Uber 和 LinkedIn 的方针平台是怎样运作的,Netflix 为什么构建 Metrics Repo,Airbnb 怎样瞎想 Minerva,Spotify 为什么在数据仓库前边遗弃 API,以及语义层在东说念主工智能系统中启动阐述什么作用。
最终扫尾将访佛于一张舆图:语义层在大科技公司中实质是怎样运作的,以及哪些原则不错左右于更典型的组织。粗略最预料的论断会出其不意:在大型科技公司中,语义层根柢不是 BI 功能,而是当代数据平台的重要架构层之一。
1. 大型企业的语义层架构
1.1 优步
方针平台架构
Uber 构建了一个名为 uMetric 的联接式平台,用于不休方针的整个这个词生命周期:界说 、 发现 、 贪图 、 质地考证 和破钞。
实质上,这既是一个 语义层,亦然一个方针平台 。

Uber 公开将其里面 uMetric 平台姿色为一个长入的方针平台,涵盖方针的整个这个词生命周期:界说、发现、贪图、贪图、质地和使用。
此外,Uber明确走漏,该平台将方针推广到 机器学习特征 ,这意味着它不再只是是一个分析辞书,而是分析和机器学习之间的桥梁。

2025年,Uber还先容了其对话式数据代理 Finch 。它基于全心整理的单表数据集市和构建在元数据之上的语义层运行。Finch使用存储在OpenSearch中的元数据、列别号和值,使LLM能够生成更精准的WHERE筛选条目,并显贵减少子虚。
细察力
在 Uber,语义层实质上照旧成为 机器的适度平面 ,而不单是是分析师的适度平面。
这里最有价值的字据是,他们的AI代理并莫得依赖于“LLM会自行臆度格局”的想法。相背,他们依赖于全心不休的数据集市、元数据别号和受控拜谒权限。
换句话说,委果基于数据构建的企业级东说念主工智能并不依赖于原始SQL语句的生成,而是依赖于 事先构建的语义坎坷文 。
系统中枢思念
该系统的主要理念是摈斥不同团队贪图出的方针之间的相反。
简化架构
[事件流] → [数据管说念] → [方针界说] → [方针贪图引擎] → [质地考证] → [方针 API] → [仪容盘/机器学习/左右]
重要观点
Uber明确走漏,其方针系统不仅用于分析,还用作 机器学习特征平台 。
这实质上意味着: 语义层 = 机器学习的特征层
1.2 Netflix
方针库 — 方针即代码
Netflix 构建了一个名为Metrics Repo 的 系统,这是一个联接式方针界说的框架。
Netflix 在姿色其施行平台时评释说,Metrics Repo 是一个里面 Python 框架,用户不错在其中界说以编程面目生成的 SQL 查询和方针界说。然后,系统会将这些界说联接不休。

在Netflix最近发布的一份对于其分析 名堂 的详尽中,该公司强调,里面方针的创建和使用“频频比应有的复杂得多”。换句话说,即使在Netflix这么训练的公司,方针界说不一致的问题也并未王人备磨灭。
此外,还有另一个首要的信号。在另一篇对于云服从的著述中,Netflix 姿色了一个 分析数据层 ,该数据层为金融 名堂 用例提供时间序列服从分析。
细察力
Netflix 涌现了一些鲜为东说念主知的内幕:
在大型公司中,语义层频频不是一个单一的通用系统。相背,它由 特定领域的方针库和 针对特定用例的分析层组成——举例施行、服从分析、创意分析等等。
换句话说,委果的架构更接近于 联邦语义治理, 而不是“一个语义层总揽一切”的想法。
这不是径直引语——而是根据 Netflix 对其各式方针框架和特定领域分析层的姿色得出的论断。
中枢想想
方针是 通过模范 界说的,而不是在 BI 器具里面界说的。
因此,方针贪图从 ETL 管说念中移出,更围聚分析师。
简化架构
[原始数据] → [数据仓库] → [方针库(代码界说)] → [施行平台] → [统计引擎] → [仪容盘/有筹备系统]
重要观点
方针库不仅用于买卖智能,况兼主要用于:
A/B 测试、家具施行、因果臆度
Netflix对于其施行平台的筹论说文阐述了这少量。换句话说,Netflix的语义层是 科学施行平台 的一部分。
1.3 LinkedIn
长入方针平台
LinkedIn 构建了 长入方针平台 (UMP) 。该平台旨在科罚的主要问题是:不同的团队以不同的面目贪图交流的方针。
为了科罚这个问题,LinkedIn接收了联接化顺次:度量界说 、 贪图 和 办事 。
简化架构
[原始事件] → [Kafka] → [批处理 + 流处理] → [方针贪图] → [方针存储] → [方针 API] → [仪容盘/办事]
重要观点
LinkedIn 将语义层出动为一项 委果的办事 ,而不是 SQL 模子,而是一个 方针 API 。
1.4 Spotify
施行平台里面的语义层
Spotify 构建了我方的施行平台。其架构轻便如下:
[家具事件] → [数据湖] → [方针界说] → [施行引擎] → [统计分析] → [有筹备仪容盘]
中枢原则
方针必须具有 可复现性 。换句话说,每个施行都必须基于 交流的方针界说 。
1.5 Airbnb
Minerva——面向整个这个词公司的语义层
Airbnb 修复了一个名为Minerva 的 系统。
Airbnb明确指出,Minerva在其新的数据仓库架构中演出着中枢脚色。它负责吸收事实表和维度表,对数据进行反范例化处理,并通过API将其提供给卑劣左右模范。

他们还揭示了该系统的范围:朝上 12,000 项方针、 朝上 4000个维度和 朝上200 名来自不同公司职能部门的 数据分娩者。
方针和维度界说存储在 联接式 GitHub 存储库 中,并经过代码审查、静态考证和测试运行。
该系统支执:
界说质地查验、回填、版块适度
本钱归因、GDPR选定性删除、拜谒适度
自动弃用策略、基于使用量的保留
Airbnb 对其方针作念了相配认识的追念: “一次界说,处处可用”。
细察力
委果的“窍门”不在于公式。Airbnb 的语义层既不是 用户界面功能,也不是买卖智能功能 ——它是一门工程学科。
方针被视为代码。 元数据是强制性的。 存在审查经由。 中间贪图扫尾不错重用。 弃用和生命周期不休已认真化。
换句话说,Minerva 不仅科罚了“怎样贪图 KPI”的问题,还科罚了“怎样留心业务意旨在数百个团队中散播”的问题。
Airbnb明确评释说,金佰利国际娱乐官网入口只是模范化表格是不够的。模范化必须 在方针层面 进行,因为用户使用的是方针、维度和申诉,而不是表格。
Minerva 不休:方针 、维度和 KPI贪图 。
中枢想想
界说一次,即可处处使用
简化架构
[数据仓库] → [语义层(Minerva)] → [方针贪图] → [方针 API] → [分析器具]
Airbnb 还指出,它已将其 数据质地评分 推广到 Minerva 方针和维度。
这是一个至关首要的信号:除非方针具有 信任信号, 不然它不被视为一个竣工的对象。
细察力
一个委果的企业语义层简直老是由三个组件组成:
意旨的界说
贪图机制
信任/质地信号
淌若莫得第三个组成部分,它就只是是一个公式辞书,而不是企业级语义层。Airbnb的 Minerva + 数据质地评分 以及Uber uMetric 平台中孤苦的 质地复旧都明晰地支执了这一论断。
1.6 Pinterest
在最近一篇对于文本转 SQL 的著述中,Pinterest 评释说,在理会查询之前,他们会用以下面目丰富坎坷文:
表格和列姿色
模范化术语
度量界说
数据质地翔实事项
暴戾日历范围
他们还评释说,淌若莫得这种坎坷文,LLM 就只可看到原始的表格和列,因此会失去数据的业务意旨。

Pinterest 还指出,这种坎坷文信息是通过以下面目自动调整的:
东说念主工智能生成的文档
基于连系的词汇表传播
基于搜索的语义匹配
细察力
这为一种新趋势提供了强有劲的字据。在东说念主工智能期间,语义层不再只是是访佛这么的抒发式:收入 = SUM(x)
它还包括:
字段的同义词
数据质地翔实事项
可接纳的日历范围
有用的连系旅途
这些恰是传统 BI 语义层家具中不时缺失的成分——尽管它们对于 文本到 SQL 系统和代理驱动的分析 至关首要。
2. 大型科技公司语义层矩阵

3. 果真情况
当这些作念法联接起来时,它们就变成了大型科技公司语义层的长入架构。
[数据源] → [数据仓库/湖屋] → [调理层] → [方针界说(Git)] → [方针贪图引擎] → [方针目次] → [方针 API] → [BI / ML / 左右 / AI]
这代表了一个 竣工的企业级语义层架构 。
实质上,在一般公司里面复制这种架构并非易事。
大大批组织照旧具备:数据仓库 、 转型器具 和 BI仪容盘 。
但它们频频零落将业务含义与底层数据结构连系起来 的语义建模层。
这恰是 DataForge 这类器具的用武之地。DataForge并非将方针逻辑镶嵌BI器具或SQL管说念中,而是允许团队瞎想一个联接式的语义模子 , 该模子包含事实、维度和业务方针——有用地充任了本文所述的架构层。
换句话说,它有助于结束 Uber、Airbnb 和 LinkedIn 等公司使用的交流原则——但体式上却能让普通的数据团队凡俗上手。
4. 普通公司与大型科技公司的鉴别是什么

5. 大型科技公司舆图:每家公司实质修复了什么

该矩阵凸起了一个重要不雅察扫尾:
大型科技公司并非老是明确使用“语义层”这个术语。但是,当它们发布架构细节时,交流的组件却反复出现:
度量界说
联接式贪图
办事层/API
治理
数据质地
家具目次
跨器具重用
6. 语义层的演进:2010 年 → 2026 年

第一阶段:2010–2014 年 / “方针及时反应在申诉和经由中”
早期阶段,各项方针散播在 ETL 管说念、报表器具和各个团队中。LinkedIn 明确指出,在 UMP 推出之前,报表系统 一鳞半瓜、各自孤苦且零落系统性 ,不同的利益筹划者对吞并方针的贪图面目也各不交流。这与 2010 年代初期企业分析环境的典型状态极为通常。
第二阶段:2015–2019 年 / 模范化和施行
在这个阶段,企业启动联接不休方针,主要目的是为了支执 A/B测试和可靠的施行 。2019年,Netflix推出了 Metrics Repo ,当作一种长入的方针界说面目,并支执以编程面目生成SQL。与此同期,LinkedIn照旧领有了 长入方针平台(UMP),支执A/B测试和申诉。在这个阶段,语义层的出现并非源于买卖智能器具,而是源于确保可复现性和一致性的 需求。
第三阶段:2020–2022 年 / 方针即代码和办事层
2020 年至 2021 年间,Spotify、Uber 和 Airbnb 等公司启动公开展示下一阶段的发展方针:
代码或 Git 中的度量界说
联接式方针生命周期不休
API 或办事层
治理
质地考证
Spotify 在数据仓库前端引入了 API。Uber 修复了全生命周期的 uMetric 平台。Airbnb 发布了对于 Minerva 止境 API 的翔实信息。至此,语义层不再只是是一个 BI 模子,而成为一个 孤苦的平台层 。
第四阶段:2023–2024 年 / 怒放生态系统和可组合性
2024年,谷歌通过 怒放SQL接口(Open SQL Interface) 和继续壮大的连系器生态系统,向外部器具怒放了Looker语义层。同期,Meta发布了其对于 可组合数据不休 以及不同系统间语义不一致挑战的斟酌扫尾。至此,语义层启动被视为更粗浅的 互操作性架构 的一部分。
第五阶段(2024-2026 年)/语义层当作东说念主工智能坎坷文层
在2024年至2025年间,谷歌明确地将语义层与 Gemini、对话分析API和MCP 连系起来,并指出东说念主工智能应该查询语义层,而不是生成原始SQL语句。优步此前照旧通过“方针和机器学习特征即办事”的见地走漏了这少量 。 至此,语义层已不再只是是一个分析抽象层。
它成为 东说念主工智能代理的受控坎坷文层 。
7. “交叉图”:哪些奥密是整个东说念主都知说念的

8. 要达到最高水平需要作念些什么
方针不是 “购买语义层” ,而是渐渐完成六个训练阶段。

第一级——根拆开加词语: 重要KPI不应再以Excel表格、BI贪图字段或临时SQL语句当作主要数据源。LinkedIn和Uber的案例明确标明,他们构建平台的主要原因即是为了科罚团队间方针叠加和不一致的问题。
第二级——一次性界说: 将方针界说移至联接式 范例/代码层 。这不错通过以下面目结束:DataForge、YAML、DSL、dbt 元数据、LookML 格调的建模层、里面存储库 。
Uber、Airbnb、Netflix 和 Google 恰是这么不休方针的。
第三级——一次贪图: 方针必须 在整个处所以交流的面目 贪图:仪容盘、施行系统、临时刻析、左右模范。这种格局在 LinkedIn 的 UMP 、Uber 的 uMetric 和 Spotify 的 方针目次 中都有显着的体现。
第四级——无处不在:只是 调整一个方针界说库是不够的。您还需要一个 办事层 ,举例:API、查询层、怒放SQL接口、语义端点 。
这种格局在Spotify、Airbnb 和 Google 的架构中都有显着的体现。
第五级——增强信任: 淌若莫得质地查验、考证、整个权和审查经由,语义层就无法达到企业级训练度。Airbnb 的 数据质地评分 、Uber 的 方针级质地查验 以及 Stripe 的 数据质地平台 都标明, 信任并非无可无不能,而是训练架构的基本组成部分 。
第六级——将东说念主工智能左右于语义层: 下一个最高等别的才智是将语义层用作 东说念主工智能和分析代理的坎坷文 。现时,最认识的公开示例来自谷歌,它整合了以下时刻:Looker、双子座、对话分析 API、MCP。
9.要迈向大型科技公司水平,需要作念些什么
才智 1
结束 方针即代码
示例:方针:收入,界说:订单金额之和,维度:国度/地区,整个者:财务
才智 2
创建长入方针目次。该目次应包含:公式 、 姿色 、 整个者 、 血缘 和 质地查验 。
才智 3
联接式方针贪图。一个方针应该只贪图 一次 。
不是指:在 BI 器具中、在 SQL 查询中、在 Excel 中。
第四步
构建方针 API,以便以下用户不错使用方针:BI系统、机器学习管说念、左右模范 。
第五步
增多治理成分。每项方针都应包含以下内容:整个者、姿色、考证测试 。
10. 小结
那么,最“避讳”的观点是什么——即便它已被公开记载?最被低估的论断是:
当先的时刻公司不会将语义层构建成BI之上的一个薄层。
他们将其打造为一款 用于不休业务的家具 ,其含义包括:
代码
挑剔
整个权
血缘
质地
拜谒适度
回填
弃用战略
API 和代理破钞
这种格局在Airbnb、Uber、Netflix 和 Pinterest 的架构中都能同期不雅察到。淌若你仔细斟酌 Uber、Netflix、LinkedIn、Airbnb 和 Spotify 的架构,你会发现一个可想而知的事实:
语义层 不是一种器具 。
它是 业务方针的操作系统 。
这即是大型科技公司将其构建成这么的原因:
一个平台
一项办事
API
治理层
大型科技公司并莫得将语义层构建成一个完善的买卖智能功能。
大型科技公司将语义层构建为 界说、贪图、办事、信任以及现时的 AI 基础架构的平台层 。
并非整个公司都会公开展示单一的长入语义层。
但在职何一家顶尖公司里, 这一层级的组织机构都是可想而知的 :
家具目次
度量界说
办事 API
质地层
语义互操作性
施行叠加使用
这亦然数据器具生态系统的发展方针。
一种新的平台类别正在兴起,它不再将语义层视为 BI 器具里面的功能,而是将语义层视为数据平台的 一流架构组件。
大大批 BI 语义层实质上即是 数据模子 金佰利国际娱乐官网入口。大型科技公司的语义层是 方针基础设施 。
HG真人游戏官方网站