334 多维随机变量的几何嵌入:联合分布、边缘与条件的几何操作

毕苏林
來關注...
關注/停止關注:毕苏林
關注有什麼好處?:當作者有新文章發佈時,「思書」就會自動通知您,讓您更容易與作者互動。
現在就加入《思書》,你就可以關注本作者了!
《思書》是一個每個人的寫作與論壇平台,特有的隱私管理,讓你寫作不再受限,討論更深入真實,而且免費。 趕快來試試!
還未加入《思書》? 現在就登錄! 已經加入《思書》── 登入
爱科学,也爱文艺;重逻辑,也重情感。以最硬核的科幻为壳,写最柔软的人间故事。愿以文字为桥,结识品味相投的读友。
26   0  
·
2026/05/25
·
13分鐘


 

论文3:多维随机变量的几何嵌入:联合分布、边缘与条件的几何操作


作者:张苏杭

单位:河南洛阳


摘要

本文将论文1的概率-几何同构框架与论文2的一维几何实现推广到多维随机变量。我们证明:任意 n 维联合分布 p(x_1,\dots,x_n) 可以唯一地嵌入为 \mathbb{R}^{n+1} 中的一张超曲面(或更一般的黎曼流形),使得概率密度函数等于该超曲面的某个曲率函数或高度函数的指数。核心结果如下:


1. 边缘化:对联合分布的超曲面沿某坐标方向积分,等价于向低维坐标平面作正交投影,投影后的加权体积即为边缘分布。

2. 条件化:固定部分坐标得到的条件分布,对应于超曲面被一个平行切片所截得的低维轮廓,切片上的归一化测度即为条件分布。

3. 独立性:随机变量相互独立当且仅当联合超曲面可分解为坐标子空间的直积,此时势函数可加,体积元分解。

4. 贝叶斯定理:后验分布对应切片上的重归一化,先验对应切片的几何权重。

   我们以二维情形为例给出显式几何构造,证明多元正态分布的超曲面是椭球抛物面,其投影与切片仍是抛物面(即边缘与条件正态性)。本文为高维概率推断提供了纯几何语言,并为后续论文4(公理重构)和论文5(随机过程)奠定基础。


关键词

多元分布;几何嵌入;边缘化即投影;条件化即切片;独立性即直积;贝叶斯定理几何化


---


§1 引言


论文1建立了概率-几何同构:每个概率分布对应一个几何势函数 h(x)=-\log p(x),概率成为加权体积 \int e^{-h}d\nu。论文2对所有一维分布给出了直观的密度曲线实现,其中正态分布对应抛物线。但实际应用中的随机变量往往是高维的:例如多元正态分布、回归分析中的条件分布、隐变量模型的边缘化等。高维情形下,几何直观变得更加有力——因为我们可以将联合分布想象成一张曲面或超曲面。


本文的目标是:将联合密度函数 p(x_1,\dots,x_n) 实现为 \mathbb{R}^{n+1} 中的图形


\Gamma = \{(x_1,\dots,x_n, z) : z = h(x_1,\dots,x_n)\},

\]  


其中 h = -\log p(势函数实现),或者更直观地,z = p(x)(密度曲面实现)。我们采用密度曲面实现为主,因为它让概率直接对应于体积元:


P(X \in A) = \int_A p(x) dx = \int_{x \in A} \int_{z=0}^{p(x)} dz\, dx = \text{曲面 } z=p(x) \text{ 下的体积}.

\]  


对于 n=2,联合密度是一个三维空间中的曲面,概率是曲面下的体积,边缘分布是曲面向坐标轴的投影面积,条件分布是曲面的切片曲线。


本文的几何操作将彻底改变高维概率推断的思维方式:不再做复杂的多重积分,而是通过投影、切片、分解等几何动作直接读出结果。


组织结构:§2建立多维几何嵌入的一般构造;§3以二维为例详细展示几何图形与运算;§4证明边缘化=投影;§5证明条件化=切片;§6证明独立性=直积分解;§7给出贝叶斯定理的几何版本;§8以多元正态分布验证所有操作;§9讨论高维情形(n>2)及计算几何意义;§10总结。


---


§2 多维几何嵌入的构造


2.1 密度曲面嵌入


设 X = (X_1,\dots,X_n) 是连续型随机向量,联合密度函数 p: \mathbb{R}^n \to [0,\infty)。定义嵌入映射


\iota: \mathbb{R}^n \to \mathbb{R}^{n+1}, \quad \iota(x) = (x, p(x)).

\]  


其像 \Sigma = \iota(\mathbb{R}^n) 是一张 n 维超曲面(若 p 光滑)。我们称 \Sigma 为密度曲面。对于任意 Borel 集 A \subseteq \mathbb{R}^n,


P(X \in A) = \int_A p(x) dx = \text{Vol}_n(\{(x,z): x\in A, 0\le z \le p(x)\}),

\]  


即超曲面 \Sigma 下方(到 z=0 平面之间)的 n+1 维柱体体积。注意这里体积是 Lebesgue 测度在 \mathbb{R}^{n+1} 中的限制。


2.2 势函数嵌入(备选)


为与论文1一致,也可采用势函数嵌入 \iota_h(x) = (x, h(x)),其中 h=-\log p。此时概率 P(A) = \int_A e^{-h(x)} dx,不再直接是曲面下的体积,而是曲面上某权重因子的积分。在理论推导中势函数形式更简洁(尤其与指数族、信息几何的联系),但在直观展示几何操作时密度曲面更自然。本文主要采用密度曲面,必要时指出与势函数的转换。


2.3 离散与混合情形


对于离散或混合分布,可类似嵌入:若 X 取值于离散点集,则曲面退化为点集上的垂直线段;若部分连续部分离散,可用混合测度。为简洁,本文假设绝对连续分布,结论可自然推广。


---


§3 二维情形:联合密度曲面


设 n=2,联合密度 p(x,y)。嵌入到三维空间得到曲面 z = p(x,y)。该曲面具有以下几何特征:


· 曲面总下方的体积 = 1(因为 \iint p(x,y) dxdy = 1)。

· 曲面非负,且与 z=0 平面相切于无穷远处(若支撑有界则边界处降为零)。


我们通过三个几何操作来对应概率论的核心概念。


图1(文字描述):一个典型的二维正态分布曲面,形如一个山包。在 x 方向的投影(积分掉 y)得到一条钟形曲线(边缘密度 p_X(x));固定 x=x_0 做垂直切面,切线与曲面的交线是一条曲线 z = p(x_0,y),归一化后即为条件密度 p(y|x_0)。


---


§4 边缘化 = 投影


定理4.1(边缘化作为投影)

设 (X,Y) 有联合密度 p(x,y),曲面 \Sigma: z=p(x,y)。则边缘密度


p_X(x) = \int_{-\infty}^{\infty} p(x,y) dy

\]  


等于曲面 \Sigma 在 y-方向上的投影面积密度。具体地,考虑曲面 \Sigma 在 x-轴方向的“侧向投影”:对于每个固定的 x,曲线 y \mapsto p(x,y) 下的面积就是 p_X(x)。几何上,这相当于用平行于 y-轴的平面 x = \text{const} 去截曲面,得到一条曲线,计算该曲线与 z=0 之间围成的面积,即为 p_X(x)。


证明:

固定 x,定义函数 f_x(y)=p(x,y)。曲线 z=f_x(y) 在 yz-平面上的面积(从 z=0 到 z=f_x(y))为 \int f_x(y) dy = \int p(x,y) dy = p_X(x)。因此,沿着 y 方向“积分”就是计算该截线下的面积。这正是垂直投影到 xz-平面(但带面积权重)的密度。 ∎


推论4.2:联合曲面向坐标平面 x 的正交投影(通过累积沿 y 方向的“体积投影”)直接给出边缘密度函数。


几何操作步骤(计算边缘 p_X):


1. 用垂直于 x-轴的平面族 x=\text{const} 截取曲面 \Sigma。

2. 对每条截线,计算它与 z=0 之间的面积。

3. 将这些面积作为 x 的函数,即得 p_X(x)。


这个操作完全不需要概率语言,只涉及几何测量。


---


§5 条件化 = 切片


定理5.1(条件分布作为切片)

条件密度


p(y|x) = \frac{p(x,y)}{p_X(x)}

\]  


几何上等于:在固定 x=x_0 处作垂直平面 x=x_0 截曲面,得到截面曲线 z = p(x_0,y),然后将该曲线归一化(使其下方面积为1),即


p(y|x_0) = \frac{p(x_0,y)}{\int p(x_0,y) dy}.

\]  


归一化因子正是边缘密度 p_X(x_0)(由定理4.1)。


证明:直接由定义。几何上,切片曲线 z=p(x_0,y) 下方的面积是 p_X(x_0)。将曲线的高度除以该面积,得到的新曲线 \tilde{z}=p(y|x_0) 满足 \int \tilde{z} dy = 1,且形状完全相同,只是纵向缩放。 ∎


几何操作(给定 x_0,求条件分布):


1. 用平面 x=x_0 切割曲面,得截面曲线。

2. 测量该曲线下的总面积 A = p_X(x_0)。

3. 将曲线的高度按比例 1/A 缩放,得到归一化条件密度曲线。

4. 该曲线完全决定条件分布(可进一步计算条件期望等)。


注:对于离散条件,类似操作(点集切片 + 归一化)。混合情形下,切片可能得到奇异分布,但归一化原理相同。


---


§6 独立性 = 直积分解


定理6.1(独立性的几何判据)

随机变量 X 与 Y 独立当且仅当联合密度曲面 \Sigma 可以表示为两个低维曲面的直积,即存在函数 f(x) 和 g(y) 使得


p(x,y) = f(x) g(y),

\]  


且 \int f(x) dx = \int g(y) dy = 1。此时曲面 \Sigma 是乘积曲面:在 (x,y) 处的高度等于 f(x) 和 g(y) 的乘积。几何上,这意味着:


· 所有平行于 x-轴的截线形状相同(只差常数倍),且与 g(y) 成比例;

· 所有平行于 y-轴的截线形状相同(只差常数倍),且与 f(x) 成比例;

· 曲面的等高线是矩形网格。


证明:独立性 \Leftrightarrow p(x,y)=p_X(x)p_Y(y)。令 f=p_X, g=p_Y 即得。几何特征直接来自乘积形式:固定 x,截面曲线 z = p_X(x) p_Y(y) 正比于 p_Y(y),比例因子为 p_X(x)。 ∎


推论6.2:若独立性成立,则条件分布 p(y|x) = p_Y(y) 与 x 无关,几何上表现为所有切片曲线经归一化后完全重合。


几何检验独立性的方法:


1. 在曲面上取两个不同 x_1, x_2 的切片,归一化后若曲线重合,则 Y 与 X 独立。

2. 或者,检查曲面的高斯曲率是否可分解为两函数乘积(在相应坐标系下)。


---


§7 贝叶斯定理的几何版本


考虑先验分布 \pi(\theta) 和似然函数 L(x|\theta),联合密度 p(x,\theta) = L(x|\theta)\pi(\theta)。后验密度 \pi(\theta|x) = \frac{p(x,\theta)}{p_X(x)}。


几何操作(贝叶斯更新):


· 联合曲面 z = p(x,\theta) 已经包含了所有信息。

· 观测到 X=x_0 后,用平面 x=x_0 截曲面,得到曲线 z = p(x_0,\theta)。

· 该曲线下的面积为 p_X(x_0)(边缘似然)。

· 归一化该曲线得到后验 \pi(\theta|x_0) = p(x_0,\theta)/p_X(x_0)。


几何意义:贝叶斯推断就是沿着观测变量的坐标方向切片并归一化。先验信息隐含在曲面的沿 \theta 方向的整体形状中,似然则通过 x-方向的变化体现。


---


§8 例:多元正态分布的几何


8.1 二元正态


设 (X,Y) 服从二元正态分布,均值向量 \mu=(\mu_X,\mu_Y),协方差矩阵


\Sigma = \begin{pmatrix} \sigma_X^2 & \rho\sigma_X\sigma_Y \\ \rho\sigma_X\sigma_Y & \sigma_Y^2 \end{pmatrix}.

\]  


联合密度


p(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left( -\frac{1}{2(1-\rho^2)}\left[ \frac{(x-\mu_X)^2}{\sigma_X^2} + \frac{(y-\mu_Y)^2}{\sigma_Y^2} - \frac{2\rho(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y} \right] \right).

\]  


几何曲面:这是一个椭球状的山包,等高线是椭圆。势函数 h = -\log p 是二次型:


h(x,y) = \frac{1}{2}(x-\mu_X, y-\mu_Y) \Sigma^{-1} (x-\mu_X, y-\mu_Y)^T + \text{常数},

\]  


即一个椭球抛物面。


边缘分布:投影到 x-轴,得到一维正态 N(\mu_X, \sigma_X^2)。几何上,对任意 x,截面 y \mapsto p(x,y) 是一条正比于 N(\mu_{Y|x}, \sigma_{Y|x}^2) 的曲线,其下方面积就是边缘密度 p_X(x)——恰为一维正态曲线。


条件分布:固定 x=x_0,切片 p(x_0,y) 正比于 N(\mu_{Y|x_0}, \sigma_{Y|x}^2),归一化后即条件正态。几何上,这些切片曲线形状相同(都是高斯钟形),但宽度和中心随 x_0 线性变化。


独立性:当 \rho=0 时,p(x,y)=p_X(x)p_Y(y),曲面分解为两个一维正态曲面的乘积,截面形状不再随 x 变化(除缩放因子)。


8.2 高维正态


对于 n 维正态,密度超曲面 z=p(x) 在 \mathbb{R}^{n+1} 中,其边缘分布对应向低维坐标超平面投影,条件分布对应与坐标轴平行的切片,独立性对应于协方差矩阵的分块对角化。所有操作在几何上清晰易懂。


---


§9 高维情形与计算几何意义


对于 n>2,联合密度超曲面无法直接可视化,但几何操作定义不变:


· 边缘化:沿某些坐标方向积分,等同于向剩余坐标的超平面做投影(累积超曲面下的体积)。

· 条件化:固定某些坐标,作平行于剩余坐标轴的切片,得到低维超曲面,归一化即得条件分布。

· 独立性:联合超曲面可分解为两个低维超曲面的直积。


计算几何的潜力:传统多元概率计算(如高维积分)往往很困难。几何视角提示我们可以利用蒙特卡洛体积估计、适应性切片采样等几何算法来近似计算边缘和条件分布。例如,边缘密度 p_X(x) 等于超曲面在固定 x 时沿其他坐标的截面积,这可以通过在低维切片上采样估计。这为高维贝叶斯计算提供了新思路。


---


§10 总结与展望


本文完成了概率-几何同构框架的第三步:多维嵌入。我们证明:


· 联合分布 ↔ 超曲面;

· 边缘化 ↔ 正交投影(积分);

· 条件化 ↔ 切片并归一化;

· 独立性 ↔ 直积分解;

· 贝叶斯定理 ↔ 切片+归一化。


这些结果使得高维概率推断可以完全在几何空间中进行,无需显式写出多重积分。结合论文1的同构框架和论文2的一维实例,我们已经拥有了从低维到高维、从连续到离散的完整几何化工具箱。


下一步(论文4)将证明概率公理与几何公理的等价性,从而宣告统一框架的完成。而论文5将把静态超曲面推广为动态几何流,覆盖随机过程。


---


附录A:二维情形几何图示(文字版)


图A.1:联合密度曲面 z=p(x,y),呈山丘状。标注:


· 底面为 xy-平面。

· 在固定 x=x_0 处作垂直平面(平行于 yz-平面),与曲面交得一曲线(切片)。

· 该曲线与 z=0 之间的面积 = p_X(x_0)。

· 该曲线归一化后 = 条件密度 p(y|x_0)。


图A.2:两个不同 x_0 的切片曲线叠加。若独立,归一化后曲线完全重合;若相关,曲线形态变化(位置和形状随 x_0 改变)。


---


参考文献


[1] 张苏杭. 概率-几何同构的基础范式: 从高斯分布到一般测度对应, 2026. (论文1)


[2] 张苏杭. 一维概率分布的几何实现: 钟形、阶梯、点阵与分形, 2026. (论文2)


[3] Anderson, T. W. An Introduction to Multivariate Statistical Analysis. Wiley, 2003. (多元正态分布)


[4] Billingsley, P. Probability and Measure. Wiley, 1995. (测度论)


[5] Cover, T. M., & Thomas, J. A. Elements of Information Theory. Wiley, 2006. (信息几何与正态分布)


[6] 陈希孺. 高等数理统计. 中国科学技术大学出版社, 1999. (边缘与条件分布)


---


(正文完)


喜歡作者的文章嗎?馬上按「關注」,當作者發佈新文章時,思書™就會 email 通知您。

思書是公開的寫作平台,創新的多筆名寫作方式,能用不同的筆名探索不同的寫作內容,無限寫作創意,如果您喜歡寫作分享,一定要來試試! 《 加入思書》

思書™是自由寫作平台,本文為作者之個人意見。


文章資訊

本文摘自:
分類於:

合計:3729字


分享這篇文章:



參與討論!
現在就加入《思書》,馬上參與討論!
《思書》是一個每個人的寫作與論壇平台,特有的隱私管理,用筆名來區隔你討論內容,讓你的討論更深入,而且免費。 趕快來試試!
還未加入《思書》? 現在就登錄! 已經加入《思書》── 登入


看看作者的其他文章


看看思書的其他文章



×
登入
申請帳號

需要幫助
關於思書

暗黑模式?
字體大小
成人內容未過濾
更改語言版本?