์์ฑ 2026. 6. 12.ยท์์ 2026. 6. 12.
- Network ๋ด์ ๊ฐ node๋ unit (๋๋ perceptron)์ด๋ผ ๋ถ๋ฆผ
- Unit ๊ณ์ฐ: (1) ์ด์ node๋ค๋ก๋ถํฐ์ ์
๋ ฅ์ ๋ํ weighted sum ๊ณ์ฐ, (2) output ์์ฑ์ ์ํ ๋น์ ํ ํจ์ ์ ์ฉ
- ajโ๋ unit j์ output, wijโ๋ unit i์์ j๋ก์ weight
- ์์: ajโ=gjโ(โiโwijโaiโ)โกgjโ(injโ)
- gjโ: unit j์ ์ฐ๊ด๋ ๋น์ ํ activation function
- injโ: unit j๋ก์ ์
๋ ฅ์ ๋ํ weighted sum

- ์
๋ ฅ ๋ณ์ x1โ,โฆ,xDโ์ M๊ฐ linear combinations ๊ตฌ์ฑ
- ajโ=โi=1Dโwji(1)โxiโ+wj0(1)โ, ์ฌ๊ธฐ์ j=1,โฆ,M ์ด๊ณ (1)์ ์ฒซ ๋ฒ์งธ layer
- wji(1)โ: weights, wj0(1)โ: biases
- ajโ: activations
- ๊ฐ activation ajโ๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋น์ ํ activation function h(โ
)๋ฅผ ํตํด ๋ณํ
- zjโ=h(ajโ), zjโ๋ hidden units
- Hidden units zjโ๋ ๋ค์ linear combination ๋์ด output unit activations akโ๋ฅผ ์์ฑ
- akโ=โj=1Mโwkj(2)โzjโ+wk0(2)โ, ์ฌ๊ธฐ์ k=1,โฆ,K ์ด๊ณ K๋ ์ด output ์
- akโ๋ ์ ์ ํ activation function์ ํตํด network output ykโ๊ฐ ๋จ
- Standard regression: Identity (ykโ=akโ)
- Multiple binary classification: Logistic sigmoid function (ykโ=ฯ(akโ))
- Multiclass classification: Softmax activation function (ykโ=exp(akโ)/โlโexp(alโ))
- ์ ์ฒด network function (์: sigmoid output)
ykโ(x,ย w)=ฯ(j=1โMโwkj(2)โh(i=1โDโwji(1)โxiโ+wj0(1)โ)+wk0(2)โ)
- w: ๋ชจ๋ weight์ bias parameter๋ฅผ ๊ทธ๋ฃนํํ vector
- ์ด ๊ณผ์ ์ ์ ๋ณด์ forward propagation์ผ๋ก ํด์ ๊ฐ๋ฅ
- Neural network model: ์
๋ ฅ x={xiโ}์์ ์ถ๋ ฅ {ykโ}๋ก์ ๋น์ ํ ํจ์
- Bias parameter๋ x0โ=1์ธ ์ถ๊ฐ ์
๋ ฅ ๋ณ์ x0โ๋ฅผ ์ ์ํ์ฌ weight parameter์ ํก์ ๊ฐ๋ฅ
ajโ=i=0โDโwji(1)โxiโ
- ๋จ์ํ๋ ์ ์ฒด network function (2-layer bias ํฌํจ)
ykโ(x,ย w)=ฯ(j=0โMโwkj(2)โh(i=0โDโwji(1)โxiโ))
- Vector ๋ฐ matrices ํ์ฉ ์ถ๊ฐ ๋จ์ํ
y(x,ย w)=ฯ(W(2)h(W(1)x))
- Feedforward nets๋ ์ผ๋ฐ์ ์ผ๋ก fully-connected
- Neural network์ layer ์ ๊ณ์ฐ ์ฉ์ด์ ํผ๋ ์กด์ฌ
- 3-layer network: Unit์ layer ์๋ฅผ ์ธ๋ ๋ฐฉ์ (input์ unit์ผ๋ก ์ทจ๊ธ)
- Single-hidden-layer network: Hidden units์ layer ์๋ฅผ ์ธ๋ ๋ฐฉ์
- Two-layer network: Network ์์ฑ์ ๊ฒฐ์ ํ๋ ๋ฐ ์ค์ํ adaptive weights์ layer ์๋ฅผ ์ธ๋ ๋ฐฉ์
- Regression
- Output activation function: Identity (ykโ=akโ)
- Loss (error) function: Sum-of-squares (L2 or squared) error function
E(w)=21โn=1โNโโฅy(xnโ,w)โtnโโฅ2
- Binary classification
- Single target variable t (t=1์ C1โ, t=0์ C2โ)
- Output activation function: Sigmoid y=ฯ(a)
- Loss (error) function: Negative log likelihood ๋๋ cross-entropy error function
E(w)=โn=1โNโ{tnโlogynโ+(1โtnโ)log(1โynโ)}
ynโ=y(xnโ,w)
- Multiclass classification
- ๊ฐ input์ K๊ฐ์ ์ํธ ๋ฐฐํ์ ์ธ class ์ค ํ๋์ ํ ๋น
- Target tkโโ{0,1}๋ 1-of-K coding scheme ์ฌ์ฉ
- Network output ํด์: ykโ(x,ย w)=P(tkโ=1โฃx)
- Output activation function: Softmax ykโ=exp(akโ)/(โlโexp(alโ))
- Loss (error) function: Negative log likelihood ๋๋ cross-entropy error function
E(w)=โn=1โNโk=1โKโtnkโlogykโ(xnโ,w)
- ์์ฝ
- ๋ฌธ์ ์ ํ์ ๋ฐ๋ผ output unit activation function๊ณผ matching error function์ ์์ฐ์ค๋ฌ์ด ์ ํ ์กด์ฌ
- Entropy
- Random variable์ ๋ถํ์ค์ฑ ์ฒ๋
- H(X)=โExโผP(X)โ[logP(x)]=ExโผP(X)โ[logP(x)1โ]
- Kullback-Leibler (KL) Divergence
- ๋์ผํ random variable X์ ๋ํ ๋ ํ๋ฅ ๋ถํฌ P(X)์ Q(X)๊ฐ ์ผ๋ง๋ ๋ค๋ฅธ์ง ์ธก์
- DKLโ(PโฅQ)=ExโผP(X)โ[logQ(x)P(x)โ]=ExโผP(X)โ[logP(x)โlogQ(x)]
- Cross-entropy
- H(P,ย Q)=โExโผP(X)โ[logQ(x)]=H(X)+DKLโ(PโฅQ)
- Q์ ๋ํด cross-entropy๋ฅผ ์ต์ํํ๋ ๊ฒ์ KL divergence๋ฅผ ์ต์ํํ๋ ๊ฒ๊ณผ ๋์ผ