Maybaygiare.org

Blog Network

Nauka bez nadzoru

BasicsEdit

Po pierwsze, niektóre słownictwo:

aktywacja = stan wartość neuronu. Dla neuronów binarnych jest to zwykle 0 / 1 lub +1 / -1.
CAM = zawartość pamięci adresowalnej. Przywołanie pamięci przez częściowy wzorzec zamiast adresu pamięci.
konwergencja = stabilizacja wzorca aktywacji w sieci. W SL konwergencja oznacza stabilizację wag &, a nie aktywacje.
Nazywany również analizą (w teorii wzorców), czyli wnioskowaniem.
energia = makroskopowa wielkość opisująca wzorzec aktywacji w sieci. (patrz poniżej)
uogólnienie = zachowywanie się dokładnie na wcześniej nie napotkanych wejściach
generatywne = zadanie wyobraźni Maszyny i przypomnienia. czasami nazywane syntezą (w teorii wzorców), mimikrą lub głębokimi podróbkami.
wnioskowanie Faza „run” (w przeciwieństwie do treningu). Podczas wnioskowania sieć wykonuje zadanie, do którego jest przeszkolona-rozpoznawanie wzorca (SL) lub tworzenie wzorca (UL). Zwykle wnioskowanie sprowadza się do gradientu funkcji energetycznej. W przeciwieństwie do SL, gradientowe zejście występuje podczas treningu, a nie wnioskowania.
widzenie maszynowe = uczenie maszynowe na obrazach.
NLP = przetwarzanie języka naturalnego. Uczenie maszynowe ludzkich języków.
wzorzec = aktywacje sieciowe, które mają w pewnym sensie wewnętrzny porządek lub które można opisać bardziej zwięźle za pomocą funkcji w aktywacjach. Na przykład wzorzec pikseli zera, niezależnie od tego, czy jest on podany jako dane, czy wyobrażony przez sieć, ma funkcję, którą można opisać jako pojedynczą pętlę. Funkcje są zakodowane w ukrytych neuronach.
szkolenie Faza uczenia się. Tutaj sieć dostosowuje swoje wagi &, aby uczyć się z wejść.

zadania

skłonność do wykonywania zadań nadzorowanych vs. Metody nienadzorowane

metody UL zwykle przygotowują sieć do zadań generatywnych zamiast rozpoznawania, ale grupowanie Zadań jako nadzorowane lub nie może być mgliste. Na przykład rozpoznawanie pisma zaczęło się w latach 80. jako SL. Następnie w 2007 r.UL jest używany do przygotowania sieci dla SL. Obecnie SL odzyskało pozycję lepszej metody.

Szkolenie
podczas fazy uczenia się sieć nienadzorowana próbuje naśladować dane, które otrzymuje i wykorzystuje błąd w swoim naśladowanym wyjściu, aby się poprawić (np. jego wag &). Przypomina to zachowanie mimiczne dzieci, gdy uczą się języka. Czasami błąd jest wyrażany jako niskie prawdopodobieństwo wystąpienia błędnego wyjścia lub może być wyrażany jako niestabilny stan wysokiej energii w sieci.

Energia
funkcja energetyczna jest makroskopową miarą stanu sieci. Ta analogia z fizyką jest zainspirowana analizą energii makroskopowej gazu przez Ludwiga Boltzmanna z mikroskopowego prawdopodobieństwa ruchu cząstek p ∝ {\displaystyle \propto}

\propto

eE/kT, gdzie k to stała Boltzmanna, A T to Temperatura. W sieci RBM relacja jest p = E-E / Z, gdzie p & e różni się w zależności od każdego możliwego wzoru aktywacji i Z = ∑ A l l P A t T e R n s {\displaystyle \sum _{AllPatterns}}

{\displaystyle \sum _{AllPatterns}}

E-E(wzór). Dokładniej mówiąc, p (A) = e-E (A) / Z, gdzie A jest wzorcem aktywacji wszystkich neuronów (widocznych i ukrytych). Stąd też wczesne sieci neuronowe noszą nazwę Maszyny Boltzmanna. Paul Smolensky nazywa-e harmonia. Sieć szuka niskiej energii, która jest wysoka Harmonia.

Sieci

Hopfield Boltzmann RBM Helmholtz Autoencoder VAE
hopfield-net-Vector.svg

Boltzmannexamplev1.png

restricted Boltzmann machine

Helmholtz Machine.png

autoencoder
zmienny autoencoder

Boltzmann i Helmholtz pojawili się przed formułowaniem sieci neuronowych, ale sieci te zapożyczyły się z ich analiz, więc sieci te noszą swoje nazwy. Hopfield jednak bezpośrednio przyczynił się do UL.

IntermediateEdit

tutaj dystrybucje p(x) i q(x) będą skracane do p i q.

History

1969 Perceptrons by Minsky & Papert shows a perceptron without hidden layers fails on XOR
1970s (approximate dates) AI winter I
1974 Ising magnetic model proposed by WA Little for cognition
1980 Fukushima introduces the neocognitron, which is later called a convolution neural network. Jest używany głównie w SL, ale zasługuje na wzmiankę tutaj.
1982 jest odmianą sieci Hopfield opisaną jako CAMs and classifiers przez Johna Hopfielda.
1983 Ising wariant Maszyny Boltzmanna z neuronami probabilistycznymi opisany przez Hintona& Sejnowski podążający za Sheringtonem & praca.
1986 Paul Smolensky publikuje teorię harmonii, która jest RBM z praktycznie tą samą funkcją energetyczną Boltzmanna. Smolensky nie dał praktycznego programu szkolenia. Hinton w połowie lat 2000
1995 Schmidthuber wprowadza neuron LSTM dla języków.
1995 Dayan & Hinton introduces Helmholtz machine
1995-2005 (approximate dates) AI winter II
2013 Kingma, Rezende, & co. introduced Variational Autoencoders as Bayesian graphical probability network, with neural nets as components.

Some more vocabulary:

prawdopodobieństwo
CDF = cumulative distribution function. Całka z pdf. Prawdopodobieństwo zbliżenia się do 3 to pole pod krzywą między 2.9 A 3.1.
rozbieżność kontrastowa = metoda uczenia się, w której obniża się energię na wzorce treningowe i podnosi energię na niechciane wzorce poza zestawem treningowym. To bardzo różni się od KL-divergence, ale ma podobne sformułowanie.
wartość oczekiwana = E(x) = ∑ x {\displaystyle \sum _{x}}

{\displaystyle \sum _{x}}

x * p(x). Jest to wartość średnia lub średnia. Dla ciągłego wejścia x zastąp sumację całką.

zmienna utajona = nieobserwowana ilość, która pomaga wyjaśnić obserwowane dane. na przykład zakażenie grypą (niezauważone) może wyjaśnić, dlaczego osoba kicha (obserwowane). W probabilistycznych sieciach neuronowych Ukryte neurony działają jako zmienne utajone, choć ich utajona interpretacja nie jest jednoznacznie znana.
pdf = funkcja gęstości prawdopodobieństwa. Prawdopodobieństwo, że zmienna losowa przyjmuje określoną wartość. Dla ciągłego pdf, p (3) = 1/2 może nadal oznaczać, że istnieje prawie zerowa szansa na osiągnięcie tej dokładnej wartości 3. Racjonalizujemy to z cdf.
stochastyczny = zachowuje się zgodnie z dobrze opisanym wzorem gęstości prawdopodobieństwa.
Thermodynamics
Boltzmann distribution = Gibbs distribution. p ∝ {\displaystyle \propto }

\propto

eE/kT

entropy = expected information = ∑ x {\displaystyle \sum _{x}}

{\displaystyle \sum _{x}}

p * log p

Gibbs free energy = thermodynamic potential. Jest to maksymalna odwracalna praca, która może być wykonywana przez system cieplny przy stałej temperaturze i ciśnieniu. energia swobodna G=ciepło – temperatura * Entropia
informacja = ilość informacji wiadomości x=- log p(x)
KLD = Entropia względna. Dla sieci probabilistycznych jest to analogia błędu pomiędzy wejściem &. Dywergencja Kullbacka-Lieblera (KLD) mierzy odchylenie entropii 1 rozkładu od innego rozkładu. KLD (p, q) = ∑ x {\displaystyle \sum _{x}}

{\displaystyle \sum _{x}}

p * log( P / q ). Zazwyczaj p odzwierciedla dane wejściowe, q odzwierciedla interpretację sieci, a KLD odzwierciedla różnicę między nimi.

porównanie sieci

& energia

Hopfield Boltzmann RBM Helmholtz autoencoder VAE
zastosowanie& notables cam, problem ze sprzedawcą w podróży cam. Swoboda połączeń sprawia, że sieć ta jest trudna do analizy. rozpoznawanie wzorców (MNIST, rozpoznawanie mowy) wyobraźnia, mimika język: kreatywne pisanie, tłumaczenie. Wizja: Ulepszanie rozmytych obrazów generowanie realistycznych danych
neuron deterministyczny stan binarny. Aktywacja = { 0 (lub -1) jeśli X jest ujemne, 1 w przeciwnym razie } stochastyczny binarny neuron Hopfielda stochastyczny binarny. Rozszerzony do wartości rzeczywistej W połowie lat 2000 binarny, sigmoid język: LSTM. wizja: lokalne pola wrażliwe. zazwyczaj realnie ceniona aktywacja relu.
połączenia 1-warstwowe z symetrycznymi obciążnikami. Brak powiązań między sobą. 2-warstwowe. 1-Ukryty & 1-widoczny. wagi symetryczne. 2-warstwowe. wagi symetryczne. brak połączeń bocznych w warstwie. 3-warstwowe: wagi asymetryczne. 2 sieci połączone w 1. 3-warstwowe. Wejście jest uważane za warstwę, mimo że nie ma przychodzących wag. powtarzające się warstwy dla NLP. feedforward sploty dla wizji. wejście & wyjście ma taką samą liczbę neuronów. 3-warstwowe: wejście, koder, dekoder samplera dystrybucji. próbnik nie jest uważany za warstwę (e)
energia jest podana przez miarę prawdopodobieństwa Gibbsa : E = − 1 2 ∑ i , j w I J s I S J + ∑ i θ i s i {\displaystyle E=-{\frac {1}{2}}\sum _{I,j}{w_{IJ}{s_{i}}{s_{j}}}+\sum _{i}{\theta _{i}}{s_{i}}}

E=-{\frac 12}\sum _{{I,J}}{w_{{IJ}}{s_{i}}{S_{j}}}+\sum _{i}{\theta _{i}}{s_{i}} {s_ {i}}
← same minimalizuj dywergencję KL wnioskowanie jest tylko feed-forward. poprzednie sieci UL przebiegały do przodu i do tyłu Minimalizuj błąd = reconstruction error – KLD
szkolenie Δwij = si*SJ, dla +1/-1 neuronu Δwij = e*(pij – p ’ IJ). Wynika to z minimalizacji KLD. e = wskaźnik uczenia się, P’ = przewidywany i P = rzeczywisty rozkład. rozbieżność kontrastowa w próbkowaniu Gibbsa wake-sleep 2 Phase training back propagate the reconstruction error reparameterize hidden state for backprop
Siła przypomina układy fizyczne, więc dziedziczy ich równania <— to samo. Ukryte neurony działają jako wewnętrzna reprezentacja świata zewnętrznego szybszy, bardziej praktyczny schemat szkolenia niż Maszyny Boltzmanna łagodnie anatomiczny. analizowany z teorią informacji & mechanika statystyczna
słabość hopfield trudne do trenowania ze względu na powiązania boczne RBM Helmholtz

określone sieci
tutaj podkreślamy niektóre cechy każdej sieci. Ferromagnetyzm zainspirował sieci Hopfield, Maszyny Boltzmann i kms. Neuron odpowiada domenie żelaza z binarnymi momentami magnetycznymi w górę i w dół, a połączenia neuronowe odpowiadają wpływowi domeny na siebie nawzajem. Połączenia symetryczne umożliwiają globalne formułowanie energii. Podczas wnioskowania sieć aktualizuje każdy stan za pomocą standardowej funkcji kroku aktywacji. Symetryczne wagi gwarantują zbieżność do stabilnego wzoru aktywacji.
sieci Hopfielda są używane jako kamery i mają gwarancję, że zadowoli się pewnym wzorem. Bez symetrycznych wag sieć jest bardzo trudna do analizy. Dzięki odpowiedniej funkcji energetycznej sieć będzie się zbiegać.
maszyny Boltzmanna to stochastyczne sieci Hopfielda. Ich wartość stanu jest pobierana z tego pliku pdf w następujący sposób: Załóżmy, że neuron binarny uruchamia się z prawdopodobieństwem Bernoulliego p(1) = 1/3 i spoczywa na p(0) = 2/3. Jedną próbkę z niej pobiera się przez pobranie równomiernie rozłożonej losowej liczby y i podłączenie jej do odwróconej funkcji rozkładu kumulacyjnego, która w tym przypadku jest funkcją stopniową progowaną w 2/3. Funkcja odwrotna = { 0 if X <=2/3, 1 if x > 2/3 }
maszyny Helmholtza są wczesnymi inspiracjami dla wariacyjnych koderów samochodowych. To 2 sieci połączone w jeden-do przodu wagi działa rozpoznawanie i do tyłu wagi realizuje wyobraźnię. Jest to prawdopodobnie pierwsza sieć, która robi obie te rzeczy. Helmholtz nie pracował w uczeniu maszynowym, ale zainspirował pogląd „silnika wnioskowania statystycznego, którego funkcją jest wnioskowanie prawdopodobnych przyczyn wejścia SENSORYCZNEGO” (3). stochastyczny neuron binarny generuje prawdopodobieństwo, że jego stan wynosi 0 LUB 1. Wprowadzanie danych zwykle nie jest uważane za warstwę, ale w trybie generowania Maszyny Helmholtza, Warstwa danych otrzymuje dane z warstwy środkowej ma oddzielne wagi do tego celu, więc jest uważana za warstwę. Stąd ta sieć ma 3 warstwy.
variational Autoencoder (Vae) są inspirowane maszynami Helmholtza i łączą sieć prawdopodobieństwa z sieciami neuronowymi. Autoencoder to trójwarstwowa sieć krzywkowa, w której warstwa środkowa ma być jakąś wewnętrzną reprezentacją wzorców wejściowych. Wagi mają nazwę phi & theta, a nie W I V jak w Helmholtzu-różnica kosmetyczna. Sieć neuronowa kodera jest rozkładem prawdopodobieństwa qφ (z|x), a sieć dekodera jest pθ(x / z). Te 2 Sieci tutaj mogą być w pełni połączone lub korzystać z innego systemu NN.

Hebbian Learning, ART, SOM
klasycznym przykładem uczenia się bez nadzoru w badaniu sieci neuronowych jest zasada Donalda Hebba, czyli neurony, które odpalają się razem. W nauczaniu Hebbiańskim połączenie jest wzmacniane niezależnie od błędu, ale jest wyłącznie funkcją zbieżności potencjałów działania między dwoma neuronami. Podobna wersja modyfikująca masy synaptyczne uwzględnia czas pomiędzy potencjałami działania (plastyczność zależna od spike-timing lub STDP). Uczenie się Hebbian było hipotezą leżącą u podstaw szeregu funkcji poznawczych, takich jak rozpoznawanie wzorców i uczenie się empiryczne.

wśród modeli sieci neuronowych, samoorganizująca się Mapa (SOM) i adaptacyjna teoria rezonansu (ART) są powszechnie stosowane w algorytmach uczenia się bez nadzoru. SOM jest organizacją topograficzną, w której pobliskie lokalizacje na mapie reprezentują obiekty o podobnych właściwościach. MODEL ART pozwala na zmianę liczby klastrów w zależności od rozmiaru problemu i pozwala użytkownikowi kontrolować stopień podobieństwa między członkami tych samych klastrów za pomocą zdefiniowanej przez użytkownika stałej zwanej parametrem czujności. Sieci artystyczne są używane do wielu zadań rozpoznawania wzorców, takich jak automatyczne rozpoznawanie celów i przetwarzanie sygnałów sejsmicznych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.