Maybaygiare.org

Blog Network

Unsupervised learning

BasicsEdit

først nogle ordforråd:

aktivering = statens værdi af neuronen. For binære neuroner er dette normalt 0 / 1 eller +1 / -1.
CAM = indhold adresserbar hukommelse. Minder om en hukommelse ved et delvist mønster i stedet for en hukommelsesadresse.
konvergens = stabilisering af et aktiveringsmønster på et netværk. I SL betyder konvergens stabilisering af vægte & forspændinger snarere end aktiveringer.
diskriminerende = vedrørende genkendelsesopgaver. Også kaldet analyse (i Mønsterteori) eller slutning.
energi = en makroskopisk mængde, der beskriver aktiveringsmønsteret i et netværk. (se nedenfor)
generalisering = opfører præcist på tidligere un-stødt indgange
generativ = maskine forestillet og tilbagekaldelse opgave. nogle gange kaldet syntese (i Mønsterteori), efterligning eller dybe forfalskninger.
inferens = ” run ” – fasen (i modsætning til træning). Under inferens udfører netværket den opgave, det er uddannet til at gøre—enten genkende et mønster (SL) eller oprette en (UL). Normalt slutter ned gradienten af en energifunktion. I modsætning til SL forekommer gradientafstamning under træning, ikke indledning.
machine vision = machine learning på billeder.
NLP = naturlig sprogbehandling. Maskinindlæring af menneskelige sprog.
mønster = netværksaktiveringer, der har en intern rækkefølge i en vis forstand, eller som kan beskrives mere kompakt af funktioner i aktiveringerne. For eksempel har billedmønsteret for et nul, uanset om det er angivet som data eller forestillet af netværket, en funktion, der kan beskrives som en enkelt sløjfe. Funktionerne er kodet i de skjulte neuroner.
træning = læringsfasen. Her justerer netværket sine vægte & forspændinger for at lære af indgangene.

opgaver

tendens til en opgave at ansætte overvåget vs. Ikke-overvågede metoder

UL-metoder forbereder normalt et netværk til generative opgaver snarere end genkendelse, men gruppering af opgaver som overvåget eller ej kan være uklar. For eksempel startede håndskriftgenkendelse i 1980 ‘ erne som SL. Så i 2007 bruges UL til at prime netværket til SL bagefter. I øjeblikket har SL genvundet sin position som den bedre metode.

træning
i løbet af læringsfasen forsøger et uovervåget netværk at efterligne de data, det er givet, og bruger fejlen i dets efterlignede output til at rette sig selv (f.eks. dens vægte & forspændinger). Dette ligner børns efterligningsadfærd, når de lærer et sprog. Nogle gange udtrykkes fejlen som en lav sandsynlighed for, at den fejlagtige output opstår, eller det kan udtrykkes som en ustabil høj energitilstand i netværket.

energi
en energifunktion er et makroskopisk mål for et netværks tilstand. Denne analogi med fysik er inspireret af Ludvig Boltsmanns analyse af en gas’ makroskopisk energi ud fra de mikroskopiske sandsynligheder for partikelbevægelse P. L. {\displaystyle \propto }

\propto

eE/kT, hvor k er boltsmannskonstanten og T er temperatur. I RBM-netværket er forholdet p = e-E / Å, hvor p & e varierer over alle mulige aktiveringsmønstre og å = l L P a t T e R n s {\displaystyle \sum _{AllPatterns}}

{\displaystyle \sum _{AllPatterns}}{\displaystyle \ sum _ {AllPatterns}}

E-E(mønster). For at være mere præcis, p(A) = e-E(A) / Å, hvor A er et aktiveringsmønster for alle neuroner (synlig og skjult). Derfor bærer tidlige neurale netværk navnet Boltsmann Machine. Paul Smolensky kalder-e harmonien. Et netværk søger lav energi, som er høj harmoni.

netværk

Hopfield RBM Helmholts Autoencoder VAE
Hopfield-net-vector.svg

Boltzmannexamplev1.png

restricted Boltzmann machine

Helmholtz Machine.png

autoencoder

kom før neurale netværk formuleringer, men disse netværk lånt fra deres analyser, så disse netværk bærer deres navne. Hopfield bidrog imidlertid direkte til UL.

Intermediatedit

Her vil distributioner p(H) og K(H) blive forkortet som p og K.

History

1969 Perceptrons by Minsky & Papert shows a perceptron without hidden layers fails on XOR
1970s (approximate dates) AI winter I
1974 Ising magnetic model proposed by WA Little for cognition
1980 Fukushima introduces the neocognitron, which is later called a convolution neural network. Det bruges mest I SL, men fortjener en omtale her.
1982 Ising variant Hopfield net beskrevet som CAMs og klassifikatorer af John Hopfield.
1983 Ising variant boltsmann maskine med probabilistiske neuroner beskrevet af Hinton & sejl efter Sherington & Kirkpatrick ‘ s 1975 arbejde.
1986 Paul Smolensky udgiver Harmony Theory, som er en RBM med praktisk talt den samme Boltsmann-energifunktion. Smolensky gav ikke en praktisk uddannelsesordning. Hinton gjorde i midten af 2000 ‘ erne
1995 Schmidthuber introducerer LSTM neuron til sprog.
1995 Dayan & Hinton introduces Helmholtz machine
1995-2005 (approximate dates) AI winter II
2013 Kingma, Rezende, & co. introduced Variational Autoencoders as Bayesian graphical probability network, with neural nets as components.

Some more vocabulary:

Sandsynlighed
Sandsynlighed
CDF = kumulativ fordelingsfunktion. integralet af pdf. Sandsynligheden for at komme tæt på 3 er området under kurven mellem 2,9 og 3,1.
kontrastiv divergens = en læringsmetode, hvor man sænker energien på træningsmønstre og hæver energien på uønskede mønstre uden for træningssættet. Dette er meget forskelligt fra KL-divergensen, men deler en lignende formulering.
forventet værdi = E(s) = isplaystyle\sum _{s}}

{\displaystyle\sum _{s}}

(s). Dette er middelværdien eller gennemsnitsværdien. Udskift summeringen med en integral for kontinuerlig input.

latent variabel = en uobserveret mængde, der hjælper med at forklare observerede data. for eksempel kan en influensainfektion (uobserveret) forklare, hvorfor en person nyser (observeret). I probabilistiske neurale netværk fungerer skjulte neuroner som latente variabler, selvom deres latente fortolkning ikke er eksplicit kendt.
pdf = sandsynlighedstæthedsfunktion. Sandsynligheden for, at en tilfældig variabel får en bestemt værdi. For kontinuerlig pdf kan p (3) = 1/2 stadig betyde, at der er næsten nul chance for at opnå denne nøjagtige værdi af 3. Vi rationaliserer dette med cdf.
stokastisk = opfører sig i henhold til en velbeskrevet sandsynlighedsdensitetsformel.
Thermodynamics
Boltzmann distribution = Gibbs distribution. p ∝ {\displaystyle \propto }

\propto

eE/kT

entropy = expected information = ∑ x {\displaystyle \sum _{x}}

{\displaystyle \sum _{x}}

p * log p

Gibbs free energy = thermodynamic potential. Det er det maksimale reversible arbejde, der kan udføres af et varmesystem ved konstant temperatur og tryk. fri energi G = varme – temperatur * entropi
information = informationsmængden af en meddelelse = -log p(h)
KLD = relativ entropi. For probabilistiske netværk er dette analogen af fejlen mellem input & efterlignet output. Kullback-Liebler divergens (KLD) måler entropiafvigelsen af 1 distribution fra en anden distribution. KLD (p,S) = skriv {\displaystyle \ sum _ {s}}

{\displaystyle \sum _{s}}

p * log( s / s ). Typisk afspejler p inputdataene, k afspejler netværkets fortolkning af det, og KLD afspejler forskellen mellem de to.

sammenligning af netværk

HopfieldBM autoencoder vae vae
anvendelse & notables cam, rejser sælger problem cam. Forbindelsesfriheden gør dette netværk vanskeligt at analysere. mønstergenkendelse (MNIST, talegenkendelse) Fantasi, efterligning sprog: kreativ skrivning, oversættelse. Vision: forbedring af slørede billeder generer realistiske data
neuron deterministisk binær tilstand. Aktivering = {0 (eller -1) hvis den er negativ, 1 ellers } stokastisk binær Hopfield neuron stokastisk binær. Udvidet til realværdi i midten af 2000 ‘ erne binær, sigmoid sprog: LSTM. vision: lokale modtagelige felter. normalt reel værdsat relu aktivering.
forbindelser 1-lag med symmetriske vægte. Ingen selvforbindelser. 2-lag. 1-skjult & 1-synlig. symmetriske vægte. 2-lag. symmetriske vægte. ingen sideforbindelser i et lag. 3-lag: asymmetriske vægte. 2 netværk kombineret til 1. 3-lag. Indgangen betragtes som et lag, selvom det ikke har nogen indgående vægte. tilbagevendende lag til NLP. fremadgående svingninger til syn. input & output har de samme neurontællinger. 3-lag: input, encoder, distribution sampler dekoder. sampler betragtes ikke som et lag (e)
inferens & energi energi er givet af Gibbs sandsynlighedsmåling : E = − 1 2 i , j i J s i S J + I S i {\displaystyle E=-{\frac {1}{2}}\sum _{i,j}{i_{IJ}{s_{i}}{s_{j}}}+\sum _{i}{\theta _{i}}{S_{i}} {S_ {i}} {S_{i}} {S_{i}}{S_{i}}{S_{i}} {S_ {i}} {S_{i}} {S_ {i}} {S_ {i}} {S_ {i}} {S_ {i}} {S_ {i}} {S_ {i}} {S_ {i}} {S_ {i}} {S_ {i}} {S_ {i}}

E=-{\frac 12}\sum _{{i,J}} {V_ {{IJ}} {s_ {i}} {s_ {j}}+\sum _{i} {\theta _{i}} {s_ {i}}
den samme den samme minimer kl divergens inferens er kun fremføring. tidligere ul – netværk kørte frem og tilbage Minimer fejl = rekonstruktionsfejl – KLD
træning Larvj = si*sj, for +1/-1 neuron larvj = e*(pij-p ‘ IJ). Dette er afledt af minimering af KLD. e = indlæringshastighed, p ‘ = forudsagt og p = faktisk fordeling. kontrastiv divergens m/ Gibbs Sampling vågne-søvn 2 fase træning tilbage udbrede genopbygningsfejlen reparameteriser skjult tilstand for backprop
styrke ligner fysiske systemer, så det arver deres ligninger <— samme. skjulte neuroner fungerer som intern repræsentation af den eksterne verden hurtigere mere praktisk træningsordning end Boltsmann-maskiner mildt anatomisk. analyserbar m/ informationsteori & statistisk mekanik
svaghed hopfield svært at træne på grund af laterale forbindelser RBM Helmholts

specifikke netværk
her fremhæver vi nogle egenskaber ved hvert netværk. Ferromagnetisme inspirerede Hopfield-netværk, maskiner og RBM ‘ er. En neuron svarer til et jerndomæne med binære magnetiske øjeblikke op og ned, og neurale forbindelser svarer til domænets indflydelse på hinanden. Symmetriske forbindelser muliggør en global energiformulering. Under inferens netværket opdaterer hver tilstand ved hjælp af standard aktivering trin funktion. Symmetriske vægte garanterer konvergens til et stabilt aktiveringsmønster.
Hopfield-netværk bruges som CAMs og garanteres at slå sig ned til et mønster. Uden symmetriske vægte er netværket meget svært at analysere. Med den rigtige energifunktion konvergerer et netværk.
maskiner er stokastiske Hopfield net. Deres tilstandsværdi samples fra denne pdf som følger: Antag, at en binær neuron skyder med Bernoulli-sandsynligheden p(1) = 1/3 og hviler med p(0) = 2/3. En prøver fra den ved at tage et ensartet fordelt tilfældigt tal y og tilslutte det til den inverterede kumulative fordelingsfunktion, som i dette tilfælde er trinfunktionen tærskelværdi ved 2/3. Den inverse funktion = { 0 if <= 2/3, 1 if >2/3 }
Helmholts maskiner er tidlige inspirationer til Variational Auto encodere. Det er 2 netværk kombineret til en-fremadgående vægte opererer anerkendelse og bagudvægte implementerer Fantasi. Det er måske det første netværk, der gør begge dele. Helmholts virkede ikke i maskinlæring, men han inspirerede visningen af “statistisk inferensmotor, hvis funktion er at udlede sandsynlige årsager til sensorisk input” (3). den stokastiske binære neuron udsender en sandsynlighed for, at dens tilstand er 0 eller 1. Dataindgangen betragtes normalt ikke som et lag, men i Helmholts maskingenereringstilstand modtager datalaget input fra mellemlaget separate vægte til dette formål, så det betragtes som et lag. Derfor har dette netværk 3 lag.Variational Autoencoder (VAE) er inspireret af Helmholts maskiner og kombinerer sandsynlighedsnetværk med neurale netværk. En Autoencoder er et 3-lags CAM-netværk, hvor mellemlaget formodes at være en intern repræsentation af inputmønstre. Vægtene hedder phi & theta snarere end V og V som i Helmholts—en kosmetisk forskel. Det neurale netværk er en sandsynlighedsfordeling, og dekodernetværket er p. Disse 2 netværk her kan være fuldt forbundet, eller bruge en anden NN-ordning.Hebbian Learning, ART, SOM
det klassiske eksempel på uovervåget læring i studiet af neurale netværk er Donald Hebbs princip, det vil sige neuroner, der skyder sammen tråd sammen. I Hebbisk læring forstærkes forbindelsen uanset en fejl, men er udelukkende en funktion af sammenfaldet mellem handlingspotentialer mellem de to neuroner. En lignende version, der ændrer synaptiske vægte, tager højde for tiden mellem handlingspotentialerne (spike-timing-afhængig plasticitet eller STDP). Hebbian læring er blevet antaget at ligge til grund for en række kognitive funktioner, såsom mønstergenkendelse og erfaringsmæssig læring.

blandt neurale netværksmodeller er det selvorganiserende kort (SOM) og adaptiv resonansteori (ART) almindeligt anvendt i uovervåget læringsalgoritmer. SOM er en topografisk organisation, hvor nærliggende steder på kortet repræsenterer input med lignende egenskaber. ART-modellen tillader antallet af klynger at variere med problemstørrelse og lader brugeren kontrollere graden af lighed mellem medlemmer af de samme klynger ved hjælp af en brugerdefineret Konstant kaldet årvågenhedsparameteren. KUNSTNETVÆRK bruges til mange mønstergenkendelsesopgaver, såsom automatisk målgenkendelse og seismisk signalbehandling.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.