Maybaygiare.org

Blog Network

Unsupervised learning

BasicsEdit

først noen vokabular:

aktivering = tilstand verdi av nevronet. For binære nevroner er dette vanligvis 0 / 1 eller +1 / -1.
CAM = innhold adresserbart minne. Tilbakekalling av et minne med et delvis mønster i stedet for en minneadresse.
konvergens = stabilisering av et aktiveringsmønster på et nettverk. I sl betyr konvergens stabilisering av vekter & forstyrrelser i stedet for aktiveringer.
diskriminerende = relatert til gjenkjenningsoppgaver. Også kalt analyse (I Mønsterteori), eller slutning.
energi = en makroskopisk mengde som beskriver aktiveringsmønsteret i et nettverk. (se nedenfor)
generalisering = oppfører seg nøyaktig på tidligere un-støtt innganger
generativ = Maskin forestilt og tilbakekalling oppgave. noen ganger kalt syntese (I Mønsterteori), etterligning eller dype feil.
slutning = «kjør» – fasen (i motsetning til trening). Under slutning nettverket utfører oppgaven det er opplært til å gjøre—enten gjenkjenne et mønster (SL) eller lage en (UL). Vanligvis kommer slutningen ned i gradienten til en energifunksjon. I motsetning TIL SL skjer gradient nedstigning under trening, IKKE innledning.
maskinvisjon = maskinlæring på bilder.
NLP = Naturlig Språkbehandling. Maskinlæring av menneskelige språk.
mønster = nettverksaktiveringer som har en intern rekkefølge på en eller annen måte, eller som kan beskrives mer kompakt av funksjoner i aktiveringene. For eksempel har pikselmønsteret til null, enten det er gitt som data eller forestilt av nettverket, en funksjon som kan beskrives som en enkelt sløyfe. Funksjonene er kodet i de skjulte nevronene.
trening = læringsfasen. Her justerer nettverket sine vekter & forspenninger for å lære av inngangene.

Oppgaver

tendens til en oppgave å ansette overvåket vs. Ul-metoder forbereder vanligvis et nettverk for generative oppgaver i stedet for anerkjennelse, men gruppering av oppgaver som overvåket eller ikke kan være uklar. For eksempel startet håndskriftgjenkjenning på 1980-tallet SOM SL. SÅ i 2007 brukes UL til å prime nettverket for SL etterpå. FOR TIDEN har SL gjenvunnet sin posisjon som den bedre metoden.Under læringsfasen forsøker et nettverk uten tilsyn å etterligne dataene det er gitt, og bruker feilen i sin etterlignede utgang for å korrigere seg selv (f.eks. dens vekter & skjevheter). Dette ligner etterligning oppførselen til barn som de lærer et språk. Noen ganger er feilen uttrykt som en lav sannsynlighet for at feilutgangen oppstår, eller det kan være uttrykt som en ustabil høy energitilstand i nettverket.

Energi
en energifunksjon er et makroskopisk mål på et nettverk tilstand. Denne analogien med fysikk er inspirert Av Ludwig Boltzmanns analyse av en gass ‘ makroskopiske energi fra de mikroskopiske sannsynlighetene for partikkelbevegelse p ∝ {\displaystyle \propto }

\propto

eE/kT, hvor k er Boltzmannskonstanten og T er temperatur. I rbm-nettverket er forholdet p = e – E / Z, hvor p& e varierer over alle mulige aktiveringsmønstre Og Z = ∑ a L l p a t t e r n s {\displaystyle \sum _{AllPatterns}}

{\displaystyle \sum _{AllPatterns}}

e-E (MØNSTER). For å være mer presis, p (a) = e-E ( a) / Z, hvor a er et aktiveringsmønster av alle nevroner (synlig og skjult). Derfor bærer tidlige nevrale nettverk Navnet Boltzmann-Maskinen. Paul Smolensky kaller-E Harmonien. Et nettverk søker lav energi som er høy Harmoni.

Nettverk

variational autoencoder

Hopfield Boltzmann Rbm Helmholtz Autoencoder VAE
hopfield-nettvektor.svg

Boltzmannexamplev1.png

restricted Boltzmann machine

Helmholtz Machine.

div boltzmann og helmholtz kom før nevrale nettverk formuleringer, men disse nettverkene lånt fra sine analyser, slik at disse nettverkene bærer sine navn. Hopfield bidro imidlertid direkte TIL UL.

IntermediateEdit

her vil distribusjonene p(x) og q(x) forkortes som p og q.

History

1969 Perceptrons by Minsky & Papert shows a perceptron without hidden layers fails on XOR
1970s (approximate dates) AI winter I
1974 Ising magnetic model proposed by WA Little for cognition
1980 Fukushima introduces the neocognitron, which is later called a convolution neural network. Det er mest brukt I SL, men fortjener en omtale her.
1982 Ising variant Hopfield net beskrevet som CAMs og klassifiserere Av John Hopfield.
1983 Ising variant Boltzmann maskin med probabilistiske nevroner beskrevet Av Hinton&Sejnowski følgende Sherington & Kirkpatricks 1975 arbeid.
1986 Paul Smolensky publiserer Harmoniteori, som er en RBM med praktisk talt samme Boltzmann-energifunksjon. Smolensky ga ikke en praktisk opplæringsplan. Hinton gjorde i midten av 2000-tallet
1995 Schmidthuber introduserer LSTM neuron for språk.
1995 Dayan & Hinton introduces Helmholtz machine
1995-2005 (approximate dates) AI winter II
2013 Kingma, Rezende, & co. introduced Variational Autoencoders as Bayesian graphical probability network, with neural nets as components.

Some more vocabulary:

Sannsynlighet
cdf = kumulativ distribusjonsfunksjon. integralet av pdf. Sannsynligheten for å komme nær 3 er området under kurven mellom 2,9 og 3,1.
kontrastiv divergens = en læringsmetode hvor man senker energien på treningsmønstre og øker energien på uønskede mønstre utenfor treningssettet. Dette er svært forskjellig FRA KL-divergensen, men deler en lignende ordlyd.
forventet verdi = e(x) = ∑ x {\displaystyle \sum _{x}}

{\displaystyle \sum _{x}}

x * p(x). Dette er middelverdien, eller gjennomsnittsverdien. For kontinuerlig inngang x, erstatt summeringen med et integral.

latent variabel = en uobservert mengde som bidrar til å forklare observerte data. for eksempel kan en influensainfeksjon (ubemerket) forklare hvorfor en person nyser (observert). I probabilistiske nevrale nettverk fungerer skjulte nevroner som latente variabler, selv om deres latente tolkning ikke er eksplisitt kjent.
pdf = funksjon for sannsynlighetstetthet. Sannsynligheten for at en tilfeldig variabel tar på seg en viss verdi. For kontinuerlig pdf kan p(3) = 1/2 fortsatt bety at det er nær null sjanse for å oppnå denne eksakte verdien av 3. Vi rasjonaliserer dette med cdf.
stokastisk = oppfører seg i henhold til en godt beskrevet sannsynlighetstetthetsformel.
Thermodynamics
Boltzmann distribution = Gibbs distribution. p ∝ {\displaystyle \propto }

\propto

eE/kT

entropy = expected information = ∑ x {\displaystyle \sum _{x}}

{\displaystyle \sum _{x}}

p * log p

Gibbs free energy = thermodynamic potential. Det er det maksimale reversible arbeidet som kan utføres av et varmesystem ved konstant temperatur og trykk. fri energi G = varme-temperatur * entropi
informasjon = informasjonsmengden til en melding x = – logg p(x)
KLD = relativ entropi. For probabilistiske nettverk er dette analogen av feilen mellom inngang & etterlignet utgang. Kullback-Liebler divergence (KLD) måler entropiavviket av 1 distribusjon fra en annen distribusjon. Kld(p,q) = ∑ x {\displaystyle \ sum _{x}}

{\displaystyle \ sum _{x}}

p * logg (p / q). Vanligvis reflekterer p inngangsdataene, q reflekterer nettverkets tolkning av det, OG KLD reflekterer forskjellen mellom de to.

Sammenligning Av Nettverk

Hopfieldth boltzmann rbm helmholtz autoencoder vae
bruk &notater cam, reiser selger problem cam. Friheten til tilkoblinger gjør dette nettverket vanskelig å analysere. mønstergjenkjenning (MNIST, talegjenkjenning) fantasi, etterligning språk: kreativ skriving, oversettelse. Visjon: forbedre uklare bilder generer realistiske data
neuron deterministisk binær tilstand. Aktivering = { 0 (eller -1) hvis x er negativ, 1 ellers} stokastisk Binær Hopfield neuron stokastisk binær. Utvidet til real-verdsatt i midten av 2000s binær, sigmoid språk: LSTM. visjon: lokale mottakelige felt. vanligvis ekte verdsatt relu aktivering.
tilkoblinger 1-lag med symmetriske vekter. Ingen selvforbindelser. 2-lag. 1-skjult & 1-synlig. symmetriske vekter. 2-lag. symmetriske vekter. ingen sideforbindelser i et lag. 3-lag: asymmetriske vekter. 2 nettverk kombinert til 1. 3-lag. Inngangen betraktes som et lag, selv om det ikke har inngående vekter. tilbakevendende lag FOR NLP. feedforward konvolutter for visjon. inngang & utgang har samme nevronantall. 3-lag: inngang, encoder, distribusjon sampler dekoder. sampler anses ikke som et lag (e)
slutning & energi energi er gitt Ved Gibbs sannsynlighetsmål : E = − 1 2 hryvnias i , j w i j s i s j + ∑ i θ i {\displaystyle e=-{\frac {1}{2}}\sum _{i,j}{w_{ij}{s_{i}}{s_{j}}+\sum _{i} {\theta _{i}} {s_{i}}+\sum _{i} {\theta _{i}} {s_ {i}}

E=-{\frac 12}\sum _{{i,j}} {w_ {{ij}} {s_{i}} {s_{j}} + \ sum _ {i} {\theta _ {i}} {s_ {i}}
← samme ← samme minimere kl-divergens slutning er Bare feed-forward. tidligere ul-nettverk løp FREMOVER og bakover minimer feil = rekonstruksjonsfeil-KLD
trening Δ = si*sj, for +1/-1 neuron Δ = e * (pij – p ‘ ij). Dette er avledet fra å minimere KLD. e = læringsrate, p ‘ = forventet og p = faktisk fordeling. kontrastive divergens w/ Gibbs Sampling wake-sleep 2 fase trening tilbake forplante rekonstruksjon feil reparameterize skjult tilstand for backprop
styrke ligner fysiske systemer slik at den arver sine ligninger <— samme. skjulte nevroner fungere som intern representasjon av den ytre verden raskere mer praktisk trening ordningen Enn Boltzmann maskiner mildt anatomisk. analytisk m/ informasjonsteori & statistisk mekanikk
svakhet hopfield RBM Helmholtz

spesifikke nettverk
her fremhever vi noen kjennetegn ved hvert nettverk. Ferromagnetisme inspirerte Hopfield-nettverk, Boltzmann-maskiner og Rbmer. En nevron tilsvarer et jerndomene med binære magnetiske momenter Opp Og Ned, og nevrale forbindelser tilsvarer domenets innflytelse på hverandre. Symmetriske forbindelser muliggjør en global energiformulering. Under slutning oppdaterer nettverket hver tilstand ved hjelp av standard aktiveringstrinn-funksjonen. Symmetriske vekter garanterer konvergens til et stabilt aktiveringsmønster.Hopfield-nettverk brukes Som Kameraer og er garantert å avgjøre seg til et mønster. Uten symmetriske vekter er nettverket svært vanskelig å analysere. Med riktig energifunksjon vil et nettverk konvergere.
Boltzmann maskiner er stokastiske Hopfield garn. Deres tilstandsverdi er samplet fra denne pdf-filen som følger: anta at en binær neuron brenner Med Bernoulli-sannsynligheten p(1) = 1/3 og hviler med p(0) = 2/3. Man prøver fra det ved å ta ET JEVNT fordelt tilfeldig tall y, og plugge det inn i den inverterte kumulative fordelingsfunksjonen, som i dette tilfellet er trinnfunksjonen terskel ved 2/3. Den inverse funksjonen = { 0 hvis x <= 2/3, 1 hvis x > 2/3 }
Helmholtz maskiner er tidlig inspirasjon For Variational Auto Kodere. Det er 2 nettverk kombinert i en-forover vekter opererer anerkjennelse og bakover vekter implementerer fantasi. Det er kanskje det første nettverket som gjør begge deler. Helmholtz jobbet ikke i maskinlæring, men han inspirerte visningen av «statistisk inferens motor hvis funksjon er å utlede sannsynlige årsaker til sensorisk inngang» (3). det stokastiske binære nevronet gir en sannsynlighet for at tilstanden er 0 eller 1. Datainngangen anses normalt ikke som et lag, men I Helmholtz – maskingenereringsmodus mottar datalaget innspill fra mellomlaget har separate vekter for dette formålet, så det regnes som et lag. Derfor har dette nettverket 3 lag.Variational Autoencoder (VAE) er inspirert Av Helmholtz-maskiner og kombinerer sannsynlighetsnettverk med nevrale nettverk. En Autoencoder er et 3-lags CAM-nettverk, hvor mellomlaget skal være en intern representasjon av inngangsmønstre. Vektene heter phi & theta i stedet For W og V som I Helmholtz-en kosmetisk forskjell. Koderneuralnettet er en sannsynlighetsfordeling qφ (z / x) og dekodernettverket er pθ (x|z). Disse 2 nettverkene her kan være fullt tilkoblet, eller bruk en ANNEN nn-ordning.Hebbian Learning, ART, SOM det klassiske eksempelet på uovervåket læring i studiet av nevrale nettverk er Donald Hebbs prinsipp, det vil si nevroner som brenner sammen ledning sammen. I Hebbian læring forsterkes forbindelsen uavhengig av en feil, men er utelukkende en funksjon av tilfeldigheten mellom handlingspotensialene mellom de to nevronene. En lignende versjon som endrer synaptiske vekter tar hensyn til tiden mellom handlingspotensialene (spike-timing-avhengig plastisitet eller STDP). Hebbian Læring har blitt antatt å ligge til grunn for en rekke kognitive funksjoner, for eksempel mønstergjenkjenning og erfaringslæring.Blant nevrale nettverksmodeller brukes selvorganiserende kart (som) og adaptiv resonansteori (ART) ofte i uovervåkede læringsalgoritmer. SOM er en topografisk organisasjon der nærliggende steder i kartet representerer innganger med lignende egenskaper. ART-modellen tillater antall klynger å variere med problemstørrelse og lar brukeren kontrollere graden av likhet mellom medlemmer av samme klynger ved hjelp av en brukerdefinert konstant kalt årvåkenhetsparameteren. KUNSTNETTVERK brukes til mange mønstergjenkjenningsoppgaver, for eksempel automatisk målgjenkjenning og seismisk signalbehandling.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.