更新時間:2024-08-19 09:44:13作者:佚名
在數學、物理和工程領域,將問題轉化為更易于表達、分解和計算的坐標系是一種核心方法:SVD、譜分解、傅里葉變換和拉格朗日力學都是如此,其重要性遠遠超出一般認知。深度學習如此受歡迎的重要原因行列式是什么,就是通過表示學習,將高維數據映射到合適的低維特征空間。
在反向傳播中,神經元輸出相對于輸入的局部敏感度是偏導數
來源:~srihari/CSE574/Chap5/Chap5.3-BackProp.pdf
在映射過程中,描述不同函數變量之間變化速度的導數非常重要。雅可比矩陣提供了一種表達局部輸出對輸入敏感度的方法。神經網絡的BP反向傳播依靠誤差與權重之間的偏導數關系來訓練權重。神經網絡的權重有幾萬個,代價函數對哪些權重的變化敏感。毫無疑問,那些權重更為重要。雅可比矩陣為分析神經網絡的輸入輸出行為提供了一個數學框架。當然,雅可比的應用極其廣泛,機器學習只是冰山一角。
目錄
坐標變換
一維變量替換
雅可比矩陣
雅可比行列式
神經網絡 BP 誤差反向傳播
雅可比正則化
關于卡爾·雅各布·雅各比
01
坐標變換
坐標變換的原因之一是為了方便積分。當被積函數為復數時,變量代換往往可以簡化問題。例如,對圓形面積進行積分時,極坐標比笛卡爾坐標更方便。有時被積函數為復數,變量代換可以降低復雜度。坐標變換的思想可以進一步擴展到任何自定義變量代換坐標系:
例如,對下面四條直線圍成的平行四邊形的面積求積分,四條直線的方程為:。
引入新變量: ,兩條斜線變為 ,兩條水平線變為 。顯然,在矩形區域上積分比在平行四邊形區域上積分更方便。
02
一維變量替換
讓我們以一個簡單的 1D U-Substitution 玩具案例為例來回顧一下變量替換過程。
推導:
順序:,然后,
然后將其推廣到更一般的代換情況:對于 ,這意味著當對 作出一個微小的擾動時,相應的 的變化與 呈線性關系。同時,定積分的上下限也要作相應的調整: ,其中出現了一個比例因子,也就是導數,它是單變量下的雅可比矩陣,可以理解為 。
注意:這和我們通常看到的方向相反,為了和多變量下的形式保持一致,比如上例中的總和。
03
雅可比矩陣
在多變量的情況下,坐標變換描述的是從 到 的連續一一變換。注意,這是獨立變量,它是上面帶有獨立變量的函數的反函數。可以看出,雅可比矩陣可以是雙向的,一般從積分較難的方向指向積分較容易的方向。
矩陣形式為:
,在
這是雅可比矩陣。
假設在映射中,輸入為,輸出為。雅可比矩陣告訴我們:如果
是位移矢量,則
是相應坐標變換后空間中的位移矢量
這是 的最佳一階近似,這是一階泰勒公式近似思想在坐標變換中的體現。
我們來看看下面的方向:
從 UV 平面到 XY 平面的坐標變換
假設我們對坐標系中位于的點進行擾動,并分別將其增大,以得到一個很小的面積。現在考慮坐標系中擾動所對應的變化:,。
在坐標中,平行四邊形的面積是兩個邊向量叉積的大小:
04
雅可比行列式
此時,雅可比矩陣是一個方陣,而相應的雅可比行列式計算的是給定矩陣的線性變換的比例因子,告訴我們該變換是空間放大還是縮小貝語網校,并且這個因子對于空間的任何區域都是不變的(行列式)。
行列式等于矢量包圍的面積或體積
這就是雅可比行列式,或者簡稱為“雅可比”。
在上面的平行四邊形變成矩形的例子中:
這意味著平行四邊形和矩形的積分按 1 倍縮放。
05
神經網絡 BP 誤差反向傳播
雅可比矩陣用于神經網絡中反向傳播誤差信號時。來源:PRML
BP反向傳播是最經典的神經網絡權重訓練方法,至今仍是最重要的方法。BP算法還有另外一個名字——“總是尋求偏導數”。在將誤差信號前向傳遞到輸入層的過程中,權重被調整/學習。上圖中,紅色模塊對應需要計算的雅可比矩陣,公式如下:
,其中是估計值。
前面我們提到,行列式的值告訴我們空間是在膨脹還是在收縮。如果輸出空間在輸入空間的某個輸入點處大大膨脹,則意味著神經網絡在這個區域可能有些不穩定,輸入中的任何擾動都可能導致輸出出現巨大的波動。相反,如果行列式相對較小,則輸入的變化對輸出的影響就很小。
神經網絡的雅可比矩陣的計算過程為:輸入向量在神經網絡中經過前向傳播,得到所有輸出層和隱含層的激活值,對輸出單元進行反向傳播,對應雅可比矩陣中的行,向輸入層反向傳播。計算結果可以用數值方法驗證:。
06
雅可比正則化
參考:基于雅可比正則化的穩健學習
近年來,雅可比矩陣被應用于正則化。與正則化不同,雅可比正則化關注的是神經網絡對輸入波動的魯棒性。你可能對對抗樣本很熟悉。少量的長臂猿梯度(中)混入了一張熊貓圖片(左),導致分類算法錯誤地將圖片識別為置信度為 99.3% 的長臂猿(右)。
Jacobian Regularization 的思想很簡單,Jacobian 矩陣中的值越小,表示輸入空間的微小波動對輸出空間的影響越小。具體來說,它取 Jacobian 矩陣的 Frobenius 范數,也就是矩陣所有元素之和的平方根。
07
關于卡爾·雅各布·雅各比
卡爾·古斯塔夫·雅可比(1804 – 1851)
雅可比矩陣和行列式是由德國數學家卡爾·古斯塔夫·雅各布·雅可比(1804-1851)提出的,他對橢圓函數、動力學、微分方程、行列式和數論做出了重要貢獻。他推動了偏微分符號的廣泛使用行列式是什么,只要看一眼雅可比公式就能知道原因。不要把它與學術巨人雅各布·伯努利(1654-1705)混淆。
以雅各布命名的月球隕石坑
本文目的在于學術交流,并不代表本公眾號贊同其觀點或對其內容真實性負責,版權歸原作者所有,如有侵權請告知刪除。 “強基固本”歷史文章
理解Tensor Core
損失函數 | 交叉熵損失函數
多場景建模
深度學習優化背后包含哪些數學知識?
利用宇宙的能力來處理數據!「物理網絡」遠勝深度神經網絡
入門 | 異常檢測Anomaly Detection
通俗易懂的解釋Sparse Convolution過程
現在的人工智能是否走上了數學的極端?
神經網絡訓練中的拓撲演化
一文詳解colmap中的多視圖重建算法原理
深度學習、計算機視覺面試題合集
大白話用Transformer做Object Detection
手把手教你學DBNet
小樣本學習只是一場學術界自嗨嗎?
更多強基固本專欄文章,
請點擊文章底部“閱讀原文”查看
分享、點贊、在看,給個三連擊唄!