Unsupervised learning | Maybaygiare.org

BasicsEdit

em Primeiro lugar, alguns vocabulário:

ativação	= valor de estado do neurônio. Para neurônios binários, este é geralmente 0 / 1, ou +1 / -1.
CAM	= memória endereçável de conteúdo. Recordar uma memória por um padrão parcial em vez de um endereço de memória.
convergência	= a estabilização de um padrão de ativação em uma rede. Em SL, convergência significa estabilização de pesos & viases em vez de ativações.
discriminativo	= tarefas de reconhecimento. Também chamada análise (em teoria de padrões), ou inferência.
energia	= uma quantidade macroscópica descrever o padrão de ativação em uma rede. (veja abaixo)
generalização	= comportando-se com precisão sobre previamente não encontrou entradas
generativo	= Máquina imaginada e recuperação de tarefas. às vezes chamado de síntese (na teoria do padrão), mimetismo, ou falsos profundos.
inferência	= a fase de “execução” (em oposição à formação). Durante a inferência, a rede executa a tarefa que é treinada para fazer-ou reconhecendo um padrão (SL) ou criando um (UL). Normalmente a inferência desce o gradiente de uma função de energia. Em contraste com SL, A descida de gradiente ocorre durante o treinamento, não inferência.
machine vision	= machine learning on images.
NLP	= Processamento De Linguagem Natural. Aprendizagem mecânica de línguas humanas.
padrão	= ativações de rede que tem uma ordem interna em algum sentido, ou que pode ser descrito mais compactamente por características nas ativações. Por exemplo, o padrão de pixels de um zero, seja dado como dados ou imaginado pela rede, tem uma característica que é descritível como um único loop. As características são codificadas nos neurônios escondidos.
formação	= fase de aprendizagem. Aqui, a rede ajusta seus pesos & viases para aprender com as entradas.

Tarefas

Tendência para uma tarefa de empregar Supervisionado vs. Métodos não supervisionados

UL métodos geralmente preparam uma rede para tarefas gerativas em vez de reconhecimento, mas agrupar tarefas como supervisionadas ou não pode ser nebuloso. Por exemplo, o reconhecimento de caligrafia começou na década de 1980 como SL. Então, em 2007, UL é usado para primear a rede para SL depois. Atualmente, SL recuperou sua posição como o melhor método.

Formação
durante a fase de aprendizagem, uma rede não supervisionada tenta imitar os dados que lhe são dados e usa o erro na sua saída mimada para se corrigir (eg. seus pesos & viases). Isto assemelha-se ao comportamento mimético das crianças enquanto aprendem uma língua. Às vezes o erro é expresso como uma baixa probabilidade de que a saída errada ocorra, ou pode ser expresso como um estado de alta energia instável na rede.uma função de energia é uma medida macroscópica do Estado de uma rede. Esta analogia com a física é inspirada por Ludwig Boltzmann análise de um gás ” macroscópico de energia a partir de microscópicas de probabilidades de partículas de movimento p ∝ {\displaystyle \propto }

$\propto$

eE/kT, onde k é a constante de Boltzmann e T é a temperatura. Na RBM rede se a relação p = e-e / Z, onde p & E variar ao longo do todo o possível padrão de ativação e Z = ∑ A l P a t t e r n a s {\displaystyle \sum _{AllPatterns}}

$\sum _{AllPatterns}$

e-e(padrão). Para ser mais preciso, p(A) = E-E(A) / Z, onde a é um padrão de ativação de todos os neurônios (visível e oculto). Por isso, as primeiras redes neurais têm o nome de máquina Boltzmann. Paul Smolensky chama a harmonia. Uma Rede Busca baixa energia, que é de alta harmonia.

as Redes

Hopfield	Boltzmann	RBM	Helmholtz	Autoencoder	VAE
		restricted Boltzmann machine		autoencoder	variacional autoencoder

de Boltzmann e Helmholtz veio antes redes neurais formulações, mas estas redes emprestado a partir de suas análises, de modo que essas redes levará os seus nomes. Hopfield, no entanto, contribuiu diretamente para a UL.

IntermediateEdit

Aqui, as distribuições p (x) e q(x) serão abreviadas como p e Q.

History

1969	Perceptrons by Minsky & Papert shows a perceptron without hidden layers fails on XOR
1970s	(approximate dates) AI winter I
1974	Ising magnetic model proposed by WA Little for cognition
1980	Fukushima introduces the neocognitron, which is later called a convolution neural network. É usado principalmente em SL, mas merece uma menção aqui.
1982	Ising variant Hopfield net described as CAMs and classifiers by John Hopfield.
1983	Ising variante de Boltzmann máquina com probabilística neurônios descritos por Hinton & Sejnowski seguinte Sherington & Kirkpatrick 1975 trabalho.
1986	Paul Smolensky publica A Teoria da Harmonia, que é uma mae com praticamente a mesma função de energia de Boltzmann. Smolensky não deu um esquema de treinamento prático. Hinton did in mid-2000s
1995	Schmidthuber introduces the LSTM neuron for languages.
1995	Dayan & Hinton introduces Helmholtz machine
1995-2005	(approximate dates) AI winter II
2013	Kingma, Rezende, & co. introduced Variational Autoencoders as Bayesian graphical probability network, with neural nets as components.

Some more vocabulary:

Probabilidade
cdf	= função de distribuição cumulativa. the integral of the pdf. A probabilidade de chegar perto de 3 é a área sob a curva entre 2,9 e 3,1.
divergência contrastiva	= um método de aprendizagem em que se reduz a energia sobre os padrões de formação e aumenta a energia sobre os padrões indesejados fora do conjunto de formação. Isto é muito diferente do KL-divergence, mas compartilha uma formulação semelhante.
valor esperado	= E(x) = ∑ x {\displaystyle \sum _{x}} $\sum _{x}$ x * p(x). Este é o valor médio, ou valor médio. Para a entrada contínua x, substitua a soma por uma integral.
variável latente	= uma quantidade não observada que ajuda a explicar os dados observados. por exemplo, uma infecção por gripe (não observada) pode explicar por que a pessoa a espirra (observada). Em redes neurais probabilísticas, neurônios ocultos atuam como variáveis latentes, embora sua interpretação latente não seja explicitamente conhecida.
pdf	= função densidade de probabilidade. A probabilidade de uma variável aleatória assumir um determinado valor. Para pdf contínuo, p(3) = 1/2 ainda pode significar que há quase zero chance de alcançar este valor exato de 3. Racionalizamos isto com a cdf.
stochastic	= comporta-se de acordo com uma fórmula de densidade de probabilidade bem descrita.
Thermodynamics
Boltzmann distribution	= Gibbs distribution. p ∝ {\displaystyle \propto } $\propto$ eE/kT
entropy	= expected information = ∑ x {\displaystyle \sum _{x}} $\sum _{x}$ p * log p
Gibbs free energy	= thermodynamic potential. É o trabalho reversível máximo que pode ser realizado por um sistema de calor a temperatura e pressão constantes. energia livre (G = calor – temperatura * entropia
informações	= a quantidade de informações de uma mensagem x = -log p(x)
KLD	= relativo a entropia. Para redes probabilísticas, este é o análogo do erro entre entrada & saída mimada. A divergência de Kullback-Liebler (KLD) mede o desvio de entropia de 1 distribuição a partir de outra distribuição. KLD(p,q) = ∑ x {\displaystyle \sum _{x}} $\sum _{x}$ p * log( p / p ). Tipicamente, p reflete os dados de entrada, q reflete a interpretação da rede sobre ele, e KLD reflete a diferença entre os dois.

a Comparação de Redes

	Hopfield	Boltzmann	RBM	Helmholtz	Autoencoder	VAE
de uso & notáveis	CAM, problema do caixeiro viajante	CAM. A liberdade de conexões torna esta rede difícil de analisar.	reconhecimento de padrões (MNIST, reconhecimento de fala)	imaginação, mimetismo	linguagem: escrita criativa, tradução. Visao: melhorar as imagens desfocadas	gerar dados realistas
neurónio	estado binário determinístico. Activation = { 0 (or -1) if x is negative, 1 otherwise }	stochastic binary Hopfield neuron	stochastic binary. Extended to real-valued in mid 2000s	binary, sigmoid	language: LSTM. visão: campos receptivos locais. normalmente, ativação real.
ligações	1 camada com pesos simétricos. Sem auto-ligações.	2 camadas. 1-hidden & 1-visible. pesos simétricos.	2 camadas. pesos simétricos. não há ligações laterais dentro de uma camada.	3-camadas: pesos assimétricos. 2 redes combinadas em 1.	3 camadas. A entrada é considerada uma camada, embora não tenha pesos de entrada. camadas recorrentes para NLP. convoluções para a visão. input & output have the same neuron counts.	3-camadas: entrada, codificador, descodificador de distribuição sampler. o amostrador não é considerado uma camada (e)
inferência & energia	energia é dada pela Medida de probabilidade Gibbs : E = − 1 2 ∑ i , j w i j o s i s j + ∑ i θ i s i {\displaystyle E=-{\frac {1}{2}}\sum _{i,j}{w_{ij}{s_{i}}{s_{j}}}+\sum _{eu}{\theta _{i}}{s_{i}}} $E=-{\frac 12}\sum _{{i,j}}{w_{{ij}}{s_{i}}{s_{j}}}+\sum _{eu}{\theta _{i}}{s_{i}}$	← mesmo	← mesmo	minimizar KL divergência	inferência é apenas de feed-forward. anterior UL redes correu para a frente E para trás	minimizar o erro = reconstrução de erro – KLD
treinamento	Δwij = si*sj, para +1/-1 neurônio	Δwij = e*(pij – p’ij). Isto é derivado da minimização do KLD. e = taxa de aprendizagem, p’ = distribuição prevista e p = distribuição real.	contrastiva divergência w/ Gibbs Sampling	acordar-dormir 2 fase de formação	de volta propagar a reconstrução de erro	reparameterize estado oculto para backprop
força	semelhante sistemas físicos para herda suas equações	<— mesmo. os neurônios ocultos atuam como representação interna do mundo externo mais rápido esquema de treinamento prático do que as máquinas Boltzmann menos anatômicas. analisável w/ teoria da informação & mecânica estatística
fraqueza	hopfield	difícil para treinar devido a lateral de conexões	RBM	Helmholtz

Redes Específicas
Aqui, destacamos algumas características de cada rede. Ferromagnetismo inspirou redes Hopfield, máquinas Boltzmann e RBMs. Um neurônio corresponde a um domínio de ferro com momentos magnéticos binários para cima e para baixo, e conexões neurais correspondem à influência do domínio um no outro. Conexões simétricas permitem uma formulação de energia global. Durante a inferência, a rede atualiza cada estado usando a função step de ativação padrão. Pesos simétricos garantem convergência a um padrão de ativação estável.as redes Hopfield são usadas como CAMs e são garantidas para se ajustar a algum padrão. Sem pesos simétricos, a rede é muito difícil de analisar. Com a função de energia correta, uma rede convergirá.as máquinas Boltzmann são Redes de Hopfield estocásticas. Seu valor de Estado é amostrado a partir deste pdf da seguinte forma: suponha que um neurônio binário dispara com a probabilidade de Bernoulli p(1) = 1/3 e descansa com p(0) = 2/3. Uma amostra dela, recolhendo um número aleatório uniformemente distribuído y, e colocando-o na função de distribuição cumulativa invertida, que neste caso é a função do degrau debelada em 2/3. A função inversa = {0 if x <= 2/3, 1 if x > 2/3 }
Helmholtz machines are early inspirations for the Variational Auto Encoders. São duas redes combinadas em pesos um-para-a-frente opera o reconhecimento e pesos atrasados implementa a imaginação. É talvez a primeira rede a fazer ambas as coisas. Helmholtz não trabalhou na aprendizagem de máquinas, mas ele inspirou a visão de “motor de inferência estatística cuja função é inferir causas prováveis de entrada sensorial” (3). o neurônio binário estocástico produz uma probabilidade de que seu estado seja 0 ou 1. A entrada de dados normalmente não é considerada uma camada, mas no modo de Geração de máquina Helmholtz, a camada de dados recebe entrada da Camada Média tem pesos separados para esta finalidade, por isso é considerada uma camada. Portanto, esta rede tem 3 camadas.
O Autoencoder variacional (VAE) é inspirado em máquinas Helmholtz e combina rede de probabilidade com redes neurais. Um Autoencoder é uma rede de cames de 3 camadas, onde a camada média é suposto ser alguma representação interna de padrões de entrada. The weights are named phi & theta rather than W and V as in Helmholtz—a cosmetic difference. A rede neural do codificador é uma distribuição de probabilidade qφ (z / x) e a rede decodificadora é pθ(x|z). Estas duas redes aqui podem ser totalmente conectadas, ou usar outro esquema NN.

Hebbian Learning, ART, SOM
The classical example of unsupervised learning in the study of neural networks is Donald Hebb’s principle, that is, neurons that fire together wire together. No aprendizado de Hebbiano, a conexão é reforçada independentemente de um erro, mas é exclusivamente uma função da coincidência entre potenciais de ação entre os dois neurônios. Uma versão similar que modifica os pesos sinápticos leva em conta o tempo entre os potenciais de ação (plasticidade dependente de tempo de spike ou STDP). A aprendizagem de Hebbian tem sido considerada subjacente a uma série de funções cognitivas, tais como reconhecimento de padrões e aprendizagem experiencial.entre os modelos de rede neural, o mapa Auto-organizativo (SOM) e a teoria de ressonância adaptativa (ART) são comumente usados em algoritmos de aprendizagem não supervisionados. O SOM é uma organização topográfica na qual locais próximos no mapa representam entradas com propriedades semelhantes. O modelo de arte permite que o número de clusters varie com o tamanho do problema e permite que o usuário controle o grau de semelhança entre os membros dos mesmos clusters por meio de uma constante definida pelo usuário chamada de parâmetro vigilância. As redes de arte são usadas para muitas tarefas de reconhecimento de padrões, tais como reconhecimento automático de alvos e processamento de sinais sísmicos.

Maybaygiare.org

BasicsEdit

IntermediateEdit

Deixe uma resposta Cancelar resposta