這篇文章給大家介紹如何用Python理解人工智能優(yōu)化算法,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。
我們提供的服務(wù)有:網(wǎng)站設(shè)計(jì)制作、網(wǎng)站設(shè)計(jì)、微信公眾號(hào)開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、城固ssl等。為1000+企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的城固網(wǎng)站制作公司
概述
梯度下降是神經(jīng)網(wǎng)絡(luò)中流行的優(yōu)化算法之一。一般來說,我們想要找到最小化誤差函數(shù)的權(quán)重和偏差。梯度下降算法迭代地更新參數(shù),以使整體網(wǎng)絡(luò)的誤差最小化。
梯度下降是迭代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機(jī)器學(xué)習(xí)算法的模型參數(shù),即無約束優(yōu)化問題時(shí),梯度下降(Gradient Descent)是最常采用的方法之一,另一種常用的方法是最小二乘法。在求解損失函數(shù)的最小值時(shí),可以通過梯度下降法來一步步的迭代求解,得到最小化的損失函數(shù)和模型參數(shù)值。反過來,如果我們需要求解損失函數(shù)的最大值,這時(shí)就需要用梯度上升法來迭代了。在機(jī)器學(xué)習(xí)中,基于基本的梯度下降法發(fā)展了兩種梯度下降方法,分別為隨機(jī)梯度下降法和批量梯度下降法。
該算法在損失函數(shù)的梯度上迭代地更新權(quán)重參數(shù),直至達(dá)到最小值。換句話說,我們沿著損失函數(shù)的斜坡方向下坡,直至到達(dá)山谷?;舅枷氪笾氯鐖D3.8所示。如果偏導(dǎo)數(shù)為負(fù),則權(quán)重增加(圖的左側(cè)部分),如果偏導(dǎo)數(shù)為正,則權(quán)重減小(圖中右半部分) 學(xué)習(xí)速率參數(shù)決定了達(dá)到最小值所需步數(shù)的大小。
圖3.8 隨機(jī)梯度最小化的基本思想
誤差曲面
尋找全局最佳方案的同時(shí)避免局部極小值是一件很有挑戰(zhàn)的事情。這是因?yàn)檎`差曲面有很多的峰和谷,如圖3.9所示。誤差曲面在一些方向上可能是高度彎曲的,但在其他方向是平坦的。這使得優(yōu)化過程非常復(fù)雜。為了避免網(wǎng)絡(luò)陷入局部極小值的境地,通常要指定一個(gè)沖量(momentum)參數(shù)。
圖3.9 典型優(yōu)化問題的復(fù)雜誤差曲面
我很早就發(fā)現(xiàn),使用梯度下降的反向傳播通常收斂得非常緩慢,或者根本不收斂。在編寫第一個(gè)神經(jīng)網(wǎng)絡(luò)時(shí),我使用了反向傳播算法,該網(wǎng)絡(luò)包含一個(gè)很小的數(shù)據(jù)集。網(wǎng)絡(luò)用了3天多的時(shí)間才收斂到一個(gè)解決方案。幸虧我采取一些措施加快了處理過程。
說明 雖然反向傳播相關(guān)的學(xué)習(xí)速率相對(duì)較慢,但作為前饋算法,其在預(yù)測或者分類階段是相當(dāng)快速的。
隨機(jī)梯度下降
傳統(tǒng)的梯度下降算法使用整個(gè)數(shù)據(jù)集來計(jì)算每次迭代的梯度。對(duì)于大型數(shù)據(jù)集,這會(huì)導(dǎo)致冗余計(jì)算,因?yàn)樵诿總€(gè)參數(shù)更新之前,非常相似的樣本的梯度會(huì)被重新計(jì)算。隨機(jī)梯度下降(SGD)是真實(shí)梯度的近似值。在每次迭代中,它隨機(jī)選擇一個(gè)樣本來更新參數(shù),并在該樣本的相關(guān)梯度上移動(dòng)。因此,它遵循一條曲折的通往極小值的梯度路徑。在某種程度上,由于其缺乏冗余,它往往能比傳統(tǒng)梯度下降更快地收斂到解決方案。
說明 隨機(jī)梯度下降的一個(gè)非常好的理論特性是,如果損失函數(shù)是凸的 43 ,那么保證能找到全局最小值。
代碼實(shí)踐
理論已經(jīng)足夠多了,接下來敲一敲實(shí)在的代碼吧。
一維問題
假設(shè)我們需要求解的目標(biāo)函數(shù)是:
()=2+1f(x)=x2+1
顯然一眼就知道它的最小值是 =0x=0 處,但是這里我們需要用梯度下降法的 Python 代碼來實(shí)現(xiàn)。
#!/usr/bin/env python # -*- coding: utf-8 -*- """ 一維問題的梯度下降法示例 """ def func_1d(x): """ 目標(biāo)函數(shù) :param x: 自變量,標(biāo)量 :return: 因變量,標(biāo)量 """ return x ** 2 + 1 def grad_1d(x): """ 目標(biāo)函數(shù)的梯度 :param x: 自變量,標(biāo)量 :return: 因變量,標(biāo)量 """ return x * 2 def gradient_descent_1d(grad, cur_x=0.1, learning_rate=0.01, precision=0.0001, max_iters=10000): """ 一維問題的梯度下降法 :param grad: 目標(biāo)函數(shù)的梯度 :param cur_x: 當(dāng)前 x 值,通過參數(shù)可以提供初始值 :param learning_rate: 學(xué)習(xí)率,也相當(dāng)于設(shè)置的步長 :param precision: 設(shè)置收斂精度 :param max_iters: 最大迭代次數(shù) :return: 局部最小值 x* """ for i in range(max_iters): grad_cur = grad(cur_x) if abs(grad_cur) < precision: break # 當(dāng)梯度趨近為 0 時(shí),視為收斂 cur_x = cur_x - grad_cur * learning_rate print("第", i, "次迭代:x 值為 ", cur_x) print("局部最小值 x =", cur_x) return cur_x if __name__ == '__main__': gradient_descent_1d(grad_1d, cur_x=10, learning_rate=0.2, precision=0.000001, max_iters=10000)
關(guān)于如何用Python理解人工智能優(yōu)化算法就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。
分享文章:如何用Python理解人工智能優(yōu)化算法
網(wǎng)站地址:http://m.2m8n56k.cn/article0/jdsoio.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊(cè)、做網(wǎng)站、網(wǎng)站導(dǎo)航、建站公司、Google、網(wǎng)站設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)