์์ฑ 2026. 6. 12.ยท์์ 2026. 6. 12.

wMLEโ=argwmaxโn=1โNโlogPmodelโ(xnโ;ย w)
wMLEโ=argwmaxโN1โn=1โNโlogPmodelโ(xnโ;ย w)
=argwmaxโExโผPempiricalโ(x)โ[logPmodelโ(x;ย w)]
- P(x)=Pempiricalโ(x), Q(x)=Pmodelโ(x;ย w)๋ก ์นํ
wMLEโ=argwmaxโEP(x)โ[logQ(x)]
=argwminโโEP(x)โ[logQ(x)]=argwminโH(P,Q)
- ๊ฒฐ๋ก
- MLE๋ฅผ ์ฌ์ฉํ wMLEโ ํ๋ ๋ฌธ์ ๋ Pempiricalโ(x)์ Pmodelโ(x;ย w) ๊ฐ์ cross-entropy ์ต์ํ ๋ฌธ์ ์ ๋์ผ
- Task: ์ ํ๋ E(w)๋ฅผ ์ต์ํํ๋ weight vector w ํ์
- Global minimum: ๋ชจ๋ weight vector์ ๋ํด error function์ ๊ฐ์ฅ ์์ ๊ฐ์ ํด๋นํ๋ minimum
- Local minima: Error function์ ๋ ๋์ ๊ฐ์ ํด๋นํ๋ ๋ค๋ฅธ ๋ชจ๋ minima
- Note: Neural network์ ์ฑ๊ณต์ ์ ์ฉ์ ์ํด global minimum ํ์์ด ํ์์ ์ด ์๋ ์ ์์, ์ถฉ๋ถํ ์ข์ solution์ ์ํด ์ฌ๋ฌ local minima ๋น๊ต ํ์

- For each pattern in the training set
- Input vector๋ฅผ network์ ์ ๊ณต
- ajโ์ zjโ์ ์ฐ์ ์ ์ฉ์ผ๋ก ๋ชจ๋ hidden unit ๋ฐ output unit์ activation ๊ณ์ฐ
- ์ด process๋ forward propagation์ด๋ผ ๋ถ๋ฆผ (์ ๋ณด์ forward flow)

- Chain rule for scalars
- Chain rule for vectors
- xโRm,ย yโRn, y=g(x) ์ด๊ณ z=f(y) ์ผ ๋
โxiโโzโ=jโโโyjโโzโโ
โxiโโyjโโ
- Vector notation
โxโz=(โxโyโ)Tโyโz
- โxโyโ๋ g์ nรm Jacobian matrix
- Enโ์ wjiโ์ ๋ํ derivative ํ๊ฐ
- Enโ์ wjiโ์ ๋ํด ์ค์ง summed input ajโ๋ฅผ ํตํด์๋ง Dependant
- Chain rule: โwjiโโEnโโ=โajโโEnโโโ
โwjiโโajโโ
- Notation (errors ฮด): ฮดjโโกโajโโEnโโ
- โwjiโโajโโ=ziโ
- Result: โwjiโโEnโโ=ฮดjโโ
ziโ
- โwjiโโEnโโ=ฮดjโโ
ziโ
- Required derivative: Weight์ output end unit(j)์ ฮด ๊ฐ๊ณผ input end unit(i)์ ziโ ๊ฐ์ ๊ณฑํ์ฌ ํ๋
- Derivative ํ๊ฐ: Network์ ๊ฐ hidden/output unit์ ๋ํ ฮดjโ ๊ฐ ๊ณ์ฐ ํ์
- For the output units (with L2 loss, assuming identity activation yjโ=ajโ)
- Enโ(w)=21โโkโ(ykโโtkโ)2
- ฮดjโ=yjโโtjโ
- To evaluate the ฮด's for hidden units,
- Chain rule: ฮดjโโกโajโโEnโโ=โkโโakโโEnโโโ
โajโโakโโ (sum over units k to which unit j sends connections)
- โajโโakโโ=โzjโโakโโโ
โajโโzjโโ=wkjโโ
hโฒ(ajโ)
- Backpropagation formula
- ฮดjโ=hโฒ(ajโ)โkโwkjโฮดkโ
- Hidden unit์ ฮด: Network ์์ unit์ผ๋ก๋ถํฐ ฮด๋ฅผ backward๋ก propagateํ์ฌ ํ๋
- Gradient computation: Forward propagation์ symbolic expression์์ ์๋ ์ถ๋ก ๊ฐ๋ฅ
- Modern DL frameworks (Tensorflow, PyTorch, etc.): Backpropagation ์๋ ์ํ
- Function: f(x,ย y,ย z)=(x+y)z
- Intermediate variable: q=x+y, f=qz
- Example values: x=โ2,ย y=5,ย z=โ4
- Forward propagation
- q=x+yโq=โ2+5=3
- f=qzโf=3ร(โ4)=โ12
- Backpropagation (computing gradients)
โfโfโ=1
โzโfโ=q=3 (Local gradient โzโfโ=q)
โqโfโ=z=โ4 (Local gradient โqโfโ=z)
โyโfโ=โqโfโโ
โyโqโ=(โ4)โ
(1)=โ4 (Upstream โqโfโ, Local โyโqโ=1)
โxโfโ=โqโfโโ
โxโqโ=(โ4)โ
(1)=โ4 (Upstream โqโfโ, Local โxโqโ=1)
- Pattern: Gate (์ฐ์ฐ)๋ local gradient๋ฅผ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ upstream gradient์ ๊ณฑํ์ฌ downstream gradient ๊ณ์ฐ