Aktivační funkce

V levém sloupci sigmoida spolu se svými limitními případy, v pravém sloupci možné transformace dat přiváděných na vstupní resp. výstupní neurony.

Aktivační (přenosová) funkce neuronu v umělých neuronových sítích definuje výstup neuronu při zadání sady vstupů neuronu.[1] Nelineární aktivační funkce umožňují neuronovým sítím řešit netriviální, nelineární problémy. Klasická nelineární funkce je sigmoida o parametrech strmosti (určující šířku pásma citlivosti neuronu na svůj aktivační potenciál) a prahové hodnoty (určující posunutí počátku funkce) spolu s jejími limitními tvary jako je linearita pro strmost blížící se nekonečnu a ostrá nelinearita pro strmost blížící se nule:

f ( x ) = 1 ( 1 + e p ( x ϑ ) ) {\displaystyle f(x)={1 \over (1+e^{-p(x-\vartheta )})}} pak lim p 0 f ( x ) = 1 2 {\displaystyle \lim _{p\rightarrow 0}f(x)={1 \over 2}} a pro x < 0 {\displaystyle x<0} resp. pro x > 0 {\displaystyle x>0} dostaneme lim p f ( x ) = 0 {\displaystyle \lim _{p\rightarrow \infty }f(x)=0} resp. lim p f ( x ) = 1 {\displaystyle \lim _{p\rightarrow \infty }f(x)=1}

Volbou aktivační funkce neuronů vstupní resp. výstupní vrstvy neuronové sítě můžeme určit způsob transformace dat na síť přiváděných:

  • Sigmoida: f ( x ) = ( 1 + e p ( x ϑ ) ) 1 {\displaystyle f(x)=(1+e^{-p(x-\vartheta )})^{-1}} - z ad 1) a ad 2) (viz níže) plyne p = ln 0 , 95 ln 0 , 05 3 σ 1 σ {\displaystyle p={\ln 0,95-\ln 0,05 \over 3\sigma }\cong {1 \over \sigma }}

ad 1) z 0 , 95 = ( 1 + e 3 p σ ) 1 {\displaystyle 0,95=(1+e^{-3p\sigma })^{-1}} plyne e 3 p σ = 0 , 05 0 , 95 {\displaystyle e^{-3p\sigma }={0,05 \over 0,95}}

ad 2) z 0 , 05 = ( 1 + e 3 p σ ) 1 {\displaystyle 0,05=(1+e^{3p\sigma })^{-1}} plyne e 3 p σ = 0 , 95 0 , 05 {\displaystyle e^{3p\sigma }={0,95 \over 0,05}}

  • Gaussova křivka: g ( x ) = e p ( x ϑ ) 2 {\displaystyle g(x)=e^{-p(x-\vartheta )^{2}}} - z 0 , 05 = e p 6 σ 2 {\displaystyle 0,05=e^{-p6\sigma ^{2}}} plyne p = ln 0 , 05 6 σ 2 1 2 σ 2 {\displaystyle p=-{\ln 0,05 \over 6\sigma ^{2}}\cong {1 \over 2\sigma ^{2}}}
  • Mexický klobouk: h ( x ) = σ 2 g ( x ) {\displaystyle h(x)=-\sigma ^{2}g''(x)} - uvedené transformaci resp. její nezáporné části odpovídají různá pásma citlivosti.

Parametry uvedených transformací mají následující význam:

ϑ – střední hodnota dat přiváděných na daný neuron z trénovací množiny

σ – směrodatná odchylka dat přiváděných na daný neuron z trénovací množiny

Kromě uvedených aktivačních funkcí se užívají ještě jejich různé modifikace:

  • Identita - linearita modifikovaná posunutím středu symetrie do počátku
  • Hyperbolická tangenta - rozšíření oboru hodnot sigmoidy na interval od -1 do +1
  • ReLU - složení ostré linearity (vlevo od počátku) s identitou (vpravo od počátku)
  • Radiální báze - Gaussova křivka resp. Mexický klobouk

Reference

  1. HAGAN, Martin T. Neural network design. druhé. vyd. [s.l.]: [s.n.], 2014. 800 s. Dostupné online. (anglicky) 

Literatura

  • KŘIVAN, Miloš. Umělé neuronové sítě. [s.l.]: Nakladatelství Oeconomica, Vysoká škola ekonomická v Praze 77 s. Dostupné online. ISBN 978-80-245-2420-7.