Maybaygiare.org

Blog Network

mallit.ldamodel – latentti Dirichlet ’ n allokaatio¶

käyttöesimerkit¶

June an LDA model using a Gensim corpus

>>> from gensim.test.utils import common_texts>>> from gensim.corpora.dictionary import Dictionary>>>>>> # Create a corpus from a list of texts>>> common_dictionary = Dictionary(common_texts)>>> common_corpus = >>>>>> # Train the model on the corpus.>>> lda = LdaModel(common_corpus, num_topics=10)

Save a model to disk, or reload a pre-trained model

>>> from gensim.test.utils import datapath>>>>>> # Save model to disk.>>> temp_file = datapath("model")>>> lda.save(temp_file)>>>>>> # Load a potentially pretrained model from disk.>>> lda = LdaModel.load(temp_file)

query, malli käyttäen uusia, näkymättömiä asiakirjoja

>>> # Create a new corpus, made of previously unseen documents.>>> other_texts = ,... ,... ... ]>>> other_corpus = >>>>>> unseen_doc = other_corpus>>> vector = lda # get topic probability distribution for a document

Päivitä malli lisäämällä koulutusta uuteen corpukseen

>>> lda.update(other_corpus)>>> vector = lda

monia parametreja voidaan virittää optimoimaan harjoittelu omaan erityistapaukseen

>>> lda = LdaModel(common_corpus, num_topics=50, alpha='auto', eval_every=5) # learn asymmetric alpha from data

classgensim.models.ldamodel.LdaModel(corpus=None, num_topics=100, id2word=None, distributed=False, chunksize=2000, passes=1, update_every=1, alpha=’symmetric’, eta=None, decay=0.5, offset=1.0, eval_every=10, iterations=50, gamma_threshold=0.001, minimum_probability=0.01, random_state=None, ns_conf=None, minimum_phi_value=0.01, per_word_topics=False, callbacks=None, dtype=<class ’numpy.float32’>)¶

Bases: gensim.interfaces.TransformationABCgensim.models.basemodel.BaseTopicModel

Harjoittele ja käytä verkossa piileviä Dirichlet ’ n Allokaatiomalleja (OLDA) sellaisina kuin ne on esitetty inHoffman et al. : ”Online Learning For Latent Dirichlet Allocation”.

esimerkit

alustaa malli käyttäen Gensim corpusta

>>> from gensim.test.utils import common_corpus>>>>>> lda = LdaModel(common_corpus, num_topics=10)

voit sitten päätellä aihejakoja uusista, näkymättömistä asiakirjoista.

>>> doc_bow = >>> doc_lda = lda

mallia voidaan päivittää (koulutetaan) uusilla asiakirjoilla.

>>> # In practice (corpus =/= initial training corpus), but we use the same here for simplicity.>>> other_corpus = common_corpus>>>>>> lda.update(other_corpus)

mallin pysyvyys saavutetaan load()jasave()menetelmillä.

parametrit

  • corpus (iterable of list of (int, float), optional) – Stream of document vectors tai sparse matrix of shape (num_documents, num_terms).Jos sinulla on CSC in-memory matriisi, voit muuntaa sen astreamed corpus avulla gensim.matutils.Sparse2Corpus.Jos mallia ei anneta, se jätetään kouluttamatta (oletettavasti siksi, että halutaan soittaaupdate() manuaalisesti).

  • num_topics (int, vapaaehtoinen) – pyydettyjen latenttien aiheiden lukumäärä, jotka on poimittava koulutuskurpuksesta.

  • id2word ({dict of (int, str),gensim.corpora.dictionary.Dictionary}) – kartoitus sanatunnuksista sanoihin. Sitä käytetään sanaston koon määrittämiseen sekä fordebuggaukseen ja aihetulostukseen.

  • distributed (bool, valinnainen) – tulisiko hajautettua laskentaa käyttää koulutuksen nopeuttamiseen.

  • chunksize (int, vapaaehtoinen) – kussakin koulutuskappaleessa käytettävien asiakirjojen lukumäärä.

  • kulkee (int, vapaaehtoinen) – korpuksen läpi suoritettavien läpimenojen määrä koulutuksen aikana.

  • update_every (int, valinnainen) – kunkin päivityksen iteroitavien asiakirjojen lukumäärä.Aseta arvoon 0 eräoppimiselle, > 1 online-iteratiiviselle oppimiselle.

  • Alfa ({numpy.ndarray, str}, valinnainen)-

    voidaan asettaa 1D-jonoon, jonka pituus on yhtä suuri kuin odotettujen aiheiden määrä, jotka ilmaisevat kunkin aiheen todennäköisyyden a-priori-uskomusta.Vaihtoehtoisesti oletusvalinta strategioita voidaan käyttää toimittamalla merkkijono:

    • ”symmetric”: Default; uses a fixed symmetric prior per topic,

    • ”asymmetric”: Uses a fixed normalized asymmetric prior of 1.0 / (topic_index + sqrt(num_topics)),

    • ”auto”: Learns an asymmetric prior from Corpus (ei saatavilla, jos jaettu==tosi).

  • eta ({float, np.array, str}, valinnainen) –

    a-apriorinen uskomus sanan todennäköisyydellä, tämä voi olla:

    • skalaari symmetriselle aiheen/sanan todennäköisyydelle,

    • pituuden vektori num_words kuvaamaan epäsymmetristä käyttäjän määrittelemää todennäköisyyttä jokaiselle sanalle,

      muodon matriisi (num_topics, num_words) antaa todennäköisyyden jokaiselle sana-aihe-yhdistelmälle,

    • merkkijono ’auto’ oppii epäsymmetrisen Priorin datasta.

    decay (float, valinnainen) – numero välillä (0.5, 1] painotetaan, kuinka suuri prosenttiosuus aiemmasta lambda-arvosta unohdetaan kutakin uutta asiakirjaa tutkittaessa. Vastaa Kappa fromMatthew D. Hoffman, David M. Blei, Francis Bach: ”Online Learning For Latent Dirichlet Allocation NIPS ’10”.

    offset (float, valinnainen) –

    Hyper-parametri, joka määrää, kuinka paljon hidastamme ensimmäisiä askeleita muutaman ensimmäisen iteraation verran.Vastaa Tau_0: AA Matthew D. Hoffmanilta, David M. Bleiltä, Francis Bachilta: ”Online Learning For Latent Dirichlet Allocation NIPS ’10”.

  • eval_every (int, valinnainen) – lokin hämmennystä arvioidaan joka ikinen päivitys. Tämän asettaminen yhteen hidastaa harjoittelua ~2x: llä.

  • iteraatioita (int, valinnainen) – maksimimäärä iteraatioita korpuksen läpi pääteltäessä korpuksen aihejakaumaa.

  • gamma_threshold (float, valinnainen) – pienin muutos gammaparametrien arvossa iteroinnin jatkamiseksi.

  • minimum_probability (float, valinnainen) – aiheet, joiden todennäköisyys on tätä kynnystä pienempi, suodatetaan pois.

  • random_state ({np.satunnainen.RandomState, int}, valinnainen) – joko randomState-objekti tai siemen sellaisen luomiseksi. Hyödyllinen toistettavuuden kannalta.

  • ns_conf (dict of (str, object), valinnainen) – Avainsanaparametrit lisätäängensim.utils.getNS()saadakseen Pyro4-nimityksen.Käytetään vain, jos jaettu arvo on tosi.

  • minimum_phi_value (float, valinnainen) – jos per_word_topics on tosi, tämä on termien todennäköisyyksien alaraja.

  • Per_word_topics (bool) – jos se on totta, Malli laskee myös luettelon aiheista, jotka on lajiteltu alenevaan järjestykseen kunkin sanan todennäköisimmistä aiheista, sekä niiden phi-arvot kerrottuna ominaisuuden pituudella (eli sanamäärällä).

  • callbacks (list ofCallback) – Metric callbacks to log and visualize evaluation metrics of the model during training.

  • dtype ({numpy.kellu16, numpy.kellu32, numpy.float64}, valinnainen)-datatyyppi, jota käytetään laskennassa mallin sisällä. Kaikki tulot muunnetaan myös.

(event_name, log_level=20, **event)¶

Liitä tapahtuma tämän olion lifecycle_events-attribuuttiin ja kirjaudu tapahtuma myös log_level-attribuuttiin.

tapahtumat ovat tärkeitä hetkiä kohteen elämän aikana, kuten ”malli luotu”,”malli tallennettu”, ”malli ladattu” jne.

lifecycle_events-attribuutti säilyy objektin save()ja load() operaatioissa. Sillä ei ole vaikutusta mallin käyttöön,mutta se on hyödyllinen virheenkorjauksen ja tuen aikana.

Set self.lifecycle_events = Ei mitään tämän käyttäytymisen poistamiseksi. Puhelut add_lifecycle_event()eivät Tallenna tapahtumia itseen.lifecycle_ events sitten.

parametrit

  • event_name (str) – tapahtuman nimi. Voi olla mikä tahansa etiketti, esim. ”luotu”, ”tallennettu” jne.

  • tapahtuma (dict) –

    avainarvon kartoitus itselle.lifecycle_ events. Sen pitäisi olla JSON-sarjamuotoinen, joten pidä se yksinkertaisena.Voi olla tyhjä.

    tämä menetelmä lisää automaattisesti seuraavat avainarvot tapahtumaan, joten niitä ei tarvitse määritellä:

    • datetime: the current date & time

    • gensim: the current Gensim version

      python: the current Python version

      platform: the current platform

      event: the name of this event

    li>

    log_level (int) – kirjaa myös koko tapahtuma dict, määritetyllä lokitasolla. Aseta epätosi, jos haluat olla kirjaamatta ollenkaan.

bound(corpus, gamma=None, subsample_ratio=1.0)¶

Estimoi variational bound of documents from the corpus as e_q – E_q.

parametrit

  • corpus (iterable of list of (int, float), optional) – Stream of document vectors or sparse matrix of shape (num_documents, num_terms) used to estimate thevariational bounds.

  • gamma (numpy.ndarray, valinnainen) – aihe paino variational parametrit kunkin asiakirjan. Jos sitä ei toimiteta, se päätellään mallista.

  • subsample_ration (float, valinnainen) – prosenttiosuus koko corpuksesta, jota edustaa hyväksytty corpus-argumentti (jos kyseessä oli otos).Aseta arvoon 1.0, jos koko corpus läpäistiin.Tätä käytetään multiplikatiivisena tekijänä likelihoodin skaalaamiseen sopivasti.

palauttaa

kullekin dokumentille lasketun variational bound Scoren.

Paluutyyppi

numpy.ndarray

clear()¶

Tyhjennä mallin tila vapauttaaksesi jonkin verran muistia. Käytetään hajautetussa toteutuksessa.

diff(other, distance= ”kullback_leibler”, num_words=100, n_ann_terms=10, diagonal=False, annotation=True, normed=True)¶

laske aihejakaumien ero kahden mallin välillä: self ja other.

parametrit

  • muut (LdaModel) – malli, jota verrataan nykyiseen olioon.

  • etäisyys ({”kullback_leibler”, ”hellinger”, ”jaccard”, ”jensen_shannon”}) – etäisyyden metriikka, jolla lasketaan erotus.

  • num_words (int, valinnainen) – merkityksellisimpien sanojen lukumäärä, jos distance = = ”jaccard”. Käytetään myös aiheiden kommentointiin.

  • n_ann_termit (int, valinnainen) – sanojen maksimimäärä leikkauspisteissä / symmetrinen ero aiheiden välillä. Käytetään merkintöihin.

  • diagonaali (bool, valinnainen) – tarvitaanko identtisten aiheiden erotus (differenssimatriisin diagonaali).

  • huomautus (bool, valinnainen) – palautetaanko kahden aiheen välinen sanojen leikkauspiste tai ero.

  • normed (bool, valinnainen) – pitäisikö matriisi normalisoida vai ei.

palaa

  • numpy.ndarray-ero matriisi. Jokainen elementti vastaa kahden aiheen välistä eroa, muotoa (self.num_opiikka, muut.num_topics)

  • numpy.ndarray, valinnainen-Annotation matriisi, jossa kunkin parin me sisällyttää sana, risteysalueiden kahden aiheita, ja sana, symmetrinen ero kaksi aihetta. Mukana vain, jos huomautus = = tosi.Muoto (itse.num_topics, other_malli.num_topiikka, 2).

Examples

Get the differences between each pair of subjects concluded by two models

>>> from gensim.models.ldamulticore import LdaMulticore>>> from gensim.test.utils import datapath>>>>>> m1 = LdaMulticore.load(datapath("lda_3_0_1_model"))>>> m2 = LdaMulticore.load(datapath("ldamodel_python_3_5"))>>> mdiff, annotation = m1.diff(m2)>>> topic_diff = mdiff # get matrix with difference for each topic pair from `m1` and `m2`

do_estep(chunk, state=None)¶

Perform inference on a chunk of documents, ja kerätä kerätyt riittävät tilastot.

parametrit

  • chunk (list of list of (int, float)) – kimpale, josta päättelyvaihe suoritetaan.

  • valtio (LdaState, vapaaehtoinen) – valtio, joka päivitetään vasta kertyneillä riittävillä tilastoilla. Jos ei, malli itse.tila on päivitetty.

palauttaa

Gammaparametrit, jotka ohjaavat aihepainoja, muotoa (Len(chunk), self.num_opiikka).

Paluutyyppi

numpy.ndarray

do_mstep(rho, other, extra_pass=False)¶

Maksimointivaihe: käytetään lineaarista interpolointia olemassa olevien aiheiden välillä ja kerätään riittävästi tilastoja muista aiheista aiheiden päivittämiseksi.

parametrit

  • rho (float) – Oppimisnopeus.

  • muut (LdaModel) – malli, jonka riittäviä tilastoja käytetään aiheiden päivittämiseen.

  • extra_pass (bool, valinnainen) – tarvitaanko tässä vaiheessa lisäpassia korpuksen yli.

get_document_topics(bow, minimum_probability=None, minimum_phi_value=None, per_word_topics=False)¶

Hanki annetulle dokumentille aiheenjako.

parametrit

  • jousi (corpus : list of (int, float)) – dokumentti keulan muodossa.

  • minimum_probability (float) – aiheet, joilla on annettu tätä kynnystä pienempi todennäköisyys, hylätään.

  • minimum_phi_value (float) –

    Jos per_word_topics on totta, tämä on alaraja termien todennäköisyyksille, jotka ovat mukana.

    jos arvoksi Ei ole asetettu mitään, käytetään arvoa 1e-8 estämään 0s.

  • per_word_topics (bool) – Jos tosi, tämä funktio palauttaa myös kaksi ylimääräistä listaa, kuten ”palauttaa” – osiossa selitetään.

palauttaa

  • luettelo (int, float) – Aihejakaumasta koko dokumentille. Jokainen elementti luettelossa on pari aiheen id, andodennäköisyys, joka oli osoitettu sille.

  • luettelo (int, lista (int, float), valinnainen – todennäköisimmät aiheet per sana. Jokainen elementti luettelossa on pari sanan id, ja luettelo oftopics lajiteltu niiden merkitys tähän sanaan. Palautetaan vain, jos per_word_topics on asetettu True.

  • kunkin sana – aihe-yhdistelmän luettelo (int, float-luettelo), valinnaiset Phi-relevanssiarvot kerrottuna ominaisuuden pituudella.Jokainen elementti luettelossa on pari sanan id ja luettelo phi arvot tämän sanan ja kunkin aiheen välillä. Palautetaan vain, jos per_word_topics on asetettu True.

get_term_topics(word_id, minimum_probability=None)¶

Hanki annetulle sanalle oleellisimmat aiheet.

parametrit

  • word_id (int) – sana, jolle aihejakauma lasketaan.

  • minimum_probability (float, valinnainen) – aiheet, joilla on annettu todennäköisyys tämän kynnyksen alapuolella, hylätään.

palauttaa

merkitykselliset aiheet, jotka on esitetty niiden ID: n pareina ja niille annetun todennäköisyyden mukaan, sorted by relevanssi annetulle sanalle.

Return type

list of (int, float)

get_topic_terms(topicid, topn=10)¶

Get the representation for a single topic. Sanat kokonaisluku Id=show_topic(), joka edustaa sanoja varsinaisten merkkijonojen mukaan.

parametrit

  • topicid (int) – palautettavan aiheen tunnus

  • topn (int, valinnainen) – merkittävimpien aiheeseen liittyvien sanojen lukumäärä.

palauttaa

sanan ID – todennäköisyysparit aiheen tuottamille merkityksellisimmille sanoille.

Return type

list of (int, float)

get_topics()¶

Get the term-topic matrix learned during inference.

palauttaa

kunkin aiheen kunkin sanan todennäköisyyden, muodon (num_topics, vocabulary_size).

Paluutyyppi

numpy.ndarray

inference(chunk, collect_sstats=False)¶

annetaan kimpale harvoja dokumenttivektoreita, estimoidaan gamma (aihepainoja ohjaavat parametrit)jokaiselle kappaleelle.

tämä funktio ei muuta mallia asiakirjan koko tulokappaleen oletetaan mahtuvan RAM-muistiin;suuren korpuksen muodostaminen on tehtävä aikaisemmin putkessa. Vältetään laskemasta phi variationalparametri suoraan käyttäen optimointi esitetty inLee, Seung: algoritmeja ei-negatiivinen matriisi factorization”.

parametrit

  • chunk (list of list of (int, float)) – kimpale, josta päättelyvaihe suoritetaan.

  • collect_sstats (bool, valinnainen) – jos arvo on tosi, kerää (ja palauta) myös riittävästi tilastoja, joita tarvitaan mallin aihealueen päivittämiseen-worddistributions.

palauttaa

ensimmäinen alkio palautetaan aina ja se vastaa valtioiden gammamatriisia. Toinen alkio palautetaan vain, jos collect_sstats == True ja se vastaa M-vaiheen riittäviä tilastoja.

Paluutyyppi

(numpy.ndarray, {numpy.ndarray, None})

init_dir_prior(prior, name)¶

Initialize priors for the Dirichlet ’ n distribution.

parametrit

  • prior ({str, lista float, numpy.ndarray of float, float}) –

    a-apriorinen uskomus sanan todennäköisyydellä. Jos name = = ”eta”, priori voi olla:

    • skalaari symmetriselle aiheen/sanan todennäköisyydelle,

    • pituuden vektori num_words kuvaamaan epäsymmetristä käyttäjän määrittelemää todennäköisyyttä jokaiselle sanalle,

      muodon matriisi (num_topics, num_words) antaa todennäköisyyden jokaiselle sana-aihe-yhdistelmälle,

    • merkkijono ’auto’ oppii epäsymmetrisen Priorin datasta.

    Jos name = = ”alpha”, niin edeltäjä voi olla:

    • 1D-ryhmä, jonka pituus vastaa odotettujen aiheiden määrää,

    • ”symmetrinen”: käyttää kiinteää symmetristä prioria aihekohtaisesti,

      ”epäsymmetrinen”: käyttää kiinteää normalisoitua epäsymmetristä prioria 1,0 / (topic_index + sqrt(num_topics)),

    • ”Auto”: oppii epäsymmetrisen Priorin korpuksesta.

  • nimi ({”alpha”, ”eta”}) – riippumatta siitä, onko edeltäjä parametrisoitu alfavektorin (1 parametri aihepiiriä kohti)vai eta: n (1 parametri sanaston yksittäistä termiä kohti) avulla.

classmethodload(fname, *args, **kwargs)¶

lataa aiemmin tallennettu gensim.models.ldamodel.LdaModel tiedostosta.

Katso myös

save()

Tallenna malli.

parametrit

  • fname (str) – polku tiedostoon, johon malli on tallennettu.

  • *args – paikkasidonnaiset argumentit propagoidaanload().

    **kwargs – Avainsana-argumentit, jotka on propagoituload().

esimerkit

suuret ryhmät voidaan memmap’palauttaa vain luku-(jaettu muisti) asetuksena mmap=”r”:

>>> from gensim.test.utils import datapath>>>>>> fname = datapath("lda_3_0_1_model")>>> lda = LdaModel.load(fname, mmap='r')

log_perplexity(chunk, total_docs=ei mitään)¶

laske ja palauta per sana todennäköisyys sidottu käyttäen kimpale asiakirjoja Evaluation Corpus.

tulostetaan myös lasketut tilastot, mukaan lukien perplexity=2^(-sidottu), kirjautumaan INFO-tasolle.

parametrit

  • chunk (list of list of (int, float)) – kimpale, josta päättelyvaihe suoritetaan.

  • total_docs (int, valinnainen) – hämmennyksen arviointiin käytettyjen dokumenttien lukumäärä.

palauttaa

jokaiselle sanalle lasketun variational bound Scoren.

Paluutyyppi

numpy.ndarray

print_topic(topicno, topn=10)¶

Hanki yksittäinen aihe formatoituna merkkijonona.

parametrit

  • topicno (int) – aihe id.

  • topn (int) – käytettävien sanojen määrä aiheesta.

palauttaa

aiheen Merkkijonoesityksen, kuten ”-0.340 *” category ”+ 0.298 * ”$m$ ”+ 0.183 * ”algebra”+…”.

Return type

str

print_topics(num_topics=20, num_words=10)¶

Get the most significant subjects (alias for show_topics() method).

parametrit

  • num_topics (int, valinnainen) – valittavien aiheiden lukumäärä, jos -1 – kaikki aiheet ovat tuloksessa (merkitysjärjestyksessä).

  • num_words (int, valinnainen) – aiheisiin sisällytettävien sanojen määrä (merkitysjärjestyksessä).

palauttaa

sekvenssin kanssa (topic_id, ).

Return type

list of (int, list of (str, float))

save(fname, ignore=(’tila’, ’lähettäjä’), erikseen=ei mitään, *args, **kwargs)¶

Tallenna malli tiedostoon.

suuret sisäiset ryhmät voidaan tallentaa erillisiin tiedostoihin, joiden etuliitteenä on fname.

toteaa

Jos aiot käyttää malleja Python 2/3-versioissa, on muutamia asioita, jotka kannattaa pitää mielessä:

  1. säilötyt Python-sanakirjat eivät toimi Python-versioissa

  2. save-menetelmä ei tallenna automaattisesti kaikkia numpy-ryhmiä erikseen, ainoastaan niitä, jotka ylittävät sep_limit save(). Pääconcern tässä on alfa array jos esimerkiksi käyttämällä alpha= ”auto”.

katso wikin reseptit-osiosta esimerkki siitä, miten näitä asioita voi kiertää.

Katso myös

load()

Kuormitusmalli.

parametrit

  • fname (str) – polku järjestelmätiedostoon, jossa mallia jatketaan.

  • ohita (STR: n tuple, valinnainen) – tuplen nimetyt attribuutit jätetään pois peitatusta mallista. Syy, miksi sisäinen tila jätetään oletusarvoisesti huomiotta, on se, että se käyttää omaa sarjatuotantoaan tämän menetelmän tarjoaman yhden sijasta.

  • erikseen ({luettelo str, Ei mitään}, valinnainen) – jos ei ole – havaitse suuri numpy / scipy automaattisesti.Tallenna Tallennettavaan objektiin harvalukuiset ryhmät ja tallenna ne erillisiin tiedostoihin. Näin vältetään suolakurkku muistivirheet ja mahdollistaa mmap ’ Ling suuri arraysback kuorman tehokkaasti. Jos Str – attribuuttien luettelo tallennetaan erillisiin tiedostoihin, automaattista tarkistusta ei tehdä tässä tapauksessa.

  • *args – paikkasidonnaiset argumentit, jotka on propagoitusave().

    **kwargs – Avainsana-argumentit, jotka on propagoitusave().

show_topic(topicid, topn=10)¶

Hanki edustus yksittäiselle aihepiirille. Sanat tässä ovat varsinaisia merkkijonoja, konstrastissaget_topic_terms(), joka edustaa sanoja niiden sanastotunnuksen mukaan.

parametrit

  • topicid (int) – palautettavan aiheen tunnus

  • topn (int, valinnainen) – merkittävimpien aiheeseen liittyvien sanojen lukumäärä.

palauttaa

sana – todennäköisyysparit aiheen tuottamille merkityksellisimmille sanoille.

Return type

list of (str, float)

show_topics(num_topics=10, num_words=10, log=False, formated=True)¶

Hanki edustus valituille aiheille.

parametrit

  • num_topics (int, valinnainen) – palautettavien aiheiden lukumäärä. Toisin kuin LSA: ssa, Lda: ssa aiheiden välillä ei ole luonnollista järjestystä.Palautetut aiheet osajoukko kaikista aiheista on siksi mielivaltainen ja voi muuttua kahden LDAtraining ajaa.

  • num_words (int, valinnainen) – kunkin aihealueen osalta esitettävien sanojen lukumäärä. Nämä ovat tärkeimmät sanat (määritetty korkeimmattavoittavuus kunkin aihealueen).

  • log (bool, valinnainen) – onko tuotos myös kirjautunut, sen lisäksi että se palautetaan.

  • formated (bool, valinnainen) – pitäisikö aiheesittelyt muotoilla merkkijonoina. Jos vääriä, ne palautetaan as2 tuples, (sana, todennäköisyys).

palauttaa

listan aiheista, joista jokainen esitetään joko merkkijonona (muotoiltuna == tosi) tai word-probabilitypairs.

Return type

list of {str, tuple of (str, float)}

sync_state(current_Elogbeta=None)¶

propagoi valtioiden aihepiirin todennäköisyydet sisemmän olion attribuutille.

parametrit

current_Elogbeta (numpy.ndarray) – Posterior todennäköisyydet kunkin aiheen, valinnainen.Jos se jätetään pois, se saa elogbetan valtiolta.

top_topics(corpus=None, texts=None, dictionary=None, window_size=None, coherence= ”u_mass”, topn=20, processes=-1)¶

Get the topics with the highest coherence score the coherence for each topic.

parametrit

  • corpus (iteroitava luettelo (int, float), valinnainen) – Corpus keulan muodossa.

  • tekstit (luettelo Str, valinnainen) – Tokenoidut tekstit, joita tarvitaan koherenssimalleissa, joissa käytetään liukuikkunapohjaista (ts. coherence= ”c_something”) todennäköisyysestimaattori .

  • dictionary (Dictionary, valinnainen) – Gensim dictionary mapping of id word to create corpus.Jos model. id2word on käytössä, tätä ei tarvita. Jos molemmat annetaan, käytetään läpäistyä sanakirjaa.

  • window_size (int, valinnainen) – on koherenssimittauksissa käytettävän ikkunan koko käyttäen Boolen liukuikkunaa niiden probability estimaattorina. ”U_mass”: lle tällä ei ole väliä.Jos ei-käytetään oletusikkunakokoja, jotka ovat: ”c_v” – 110, ”c_uci” – 10, ”c_npmi” – 10.

  • koherenssi ({”u_mass”, ”c_v”, ”c_uci”, ”c_npmi”}, valinnainen) – käytettävä Koherenssimitta.Nopein menetelmä – ”u_mass”, ”c_uci” tunnetaan myös nimellä c_pmi.”U_mass” corpus on toimitettava, jos tekstejä on toimitettu, se muunnetaan corpususing sanakirja. Teksteille ”c_v”, ”c_uci” ja ”c_npmi” tulee antaa tekstit (corpus ei tarvita)

  • topn (int, valinnainen) – kokonaisluku, joka vastaa kustakin aiheesta poimittavien ylimpien sanojen määrää.

  • prosessit (int, valinnainen) – todennäköisyyden estimointivaiheessa käytettävien prosessien lukumäärä, mikä tahansa arvo, joka on pienempi kuin 1, tulkitaan arvoksi num_cpus – 1.

palauttaa

jokainen luettelon alkio on aiheenesityksen pari ja sen koherenssipisteet. Aiheesittelyt ovat sanojen jakaumia, jotka esitetään listana sanapareista ja niiden todennäköisyyksistä.

Return type

list of (list of (Int, str), float)

update(corpus, chunkoze=None, decay=None, offset=None, passes=None, update_every=None, eval_every=None, iterations=None, gamma_threshold=None, chunks_as_numpy=False)¶

June the model with new documents, by EM-iteroidaan Corpuksen yli, kunnes aiheet lähentyvät toisiaan tai kunnes sallittujen iteraatioiden enimmäismäärä saavutetaan. corpus on toistettavissa.

hajautetussa tilassa e-vaihe jakautuu konerykelmään.

huomautuksia

Tämä päivitys tukee myös jo koulutetun mallin päivittämistä uusilla asiakirjoilla; nämä kaksi mallia yhdistetään sitten suhteessa vanhojen ja uusien asiakirjojen määrään. Tämä ominaisuus on vielä kokeellinen ei-stationaryinput virtoja. Stationary input (no topic drift in new documents), on other hand, this equals theonline update of Matthew D. Hoffman, David M. Blei, Francis Bach:”Online Learning For Latent Dirichlet Allocation NIPS’10”.ja on taattu lähentyä tahansa hajoaminen (0.5, 1.0). Lisäksi pienempien corpus-kokojen kohdalla kasvavasta offsetista voi olla hyötyä (KS.samassa paperissa oleva taulukko 1).

parametrit

  • corpus (iterable of list of (Int, float), optional) – Stream of document vectors or sparse matrix of shape (num_documents, num_terms) used to update themodel.

  • chunksize (int, vapaaehtoinen) – kussakin koulutuskappaleessa käytettävien asiakirjojen lukumäärä.

  • hajoaminen (liukuva, valinnainen) –

    luku välillä (0, 5, 1] painoon, mikä prosenttiosuus aiemmasta lambda-arvosta unohtuu, kun kutakin uutta asiakirjaa tarkastellaan. Vastaa Kappa fromMatthew D. Hoffman, David M. Blei, Francis Bach: ”Online Learning For Latent Dirichlet Allocation NIPS ’10”.

    offset (float, valinnainen) –

    Hyper-parametri, joka määrää, kuinka paljon hidastamme ensimmäisiä askeleita muutaman ensimmäisen iteraation verran.Vastaa Tau_0: AA Matthew D. Hoffmanilta, David M. Bleiltä, Francis Bachilta: ”Online Learning For Latent Dirichlet Allocation NIPS ’10”.

  • kulkee (int, vapaaehtoinen) – korpuksen läpi suoritettavien läpimenojen määrä koulutuksen aikana.

  • update_every (int, valinnainen) – kunkin päivityksen iteroitavien asiakirjojen lukumäärä.Aseta arvoon 0 eräoppimiselle, > 1 online-iteratiiviselle oppimiselle.

  • eval_every (int, valinnainen) – lokin hämmennystä arvioidaan joka ikinen päivitys. Tämän asettaminen yhteen hidastaa harjoittelua ~2x: llä.

  • iteraatioita (int, valinnainen) – maksimimäärä iteraatioita korpuksen läpi pääteltäessä korpuksen aihejakaumaa.

  • gamma_threshold (float, valinnainen) – pienin muutos gammaparametrien arvossa iteroinnin jatkamiseksi.

  • chunks_as_numpy (bool, valinnainen) – tulisiko jokaisen päättelyvaiheeseen siirretyn kimpaleen olla numpy.ndarray tai ei. Numpy voi joissakin settingsturn termi IDs osaksi kelluu, nämä muunnetaan takaisin kokonaislukuja päättely, joka aiheuttaa aperformance osuma. Hajautetussa laskennassa voi olla suotavaa pitää palaset numpyina.ndarray.

update_alpha(gammat, rho)¶

Päivitä Dirichlet ’ n parametrit ennen dokumenttikohtaisia aihepainoja.

parametrit

  • gammat (numpy.ndarray) – edellinen aihe paino parametrit.

  • rho (float) – Oppimisaste.

palauttaa

sarjan alfaparametreja.

Paluutyyppi

numpy.ndarray

update_eta(lambdat, rho)¶

Päivitä Dirichlet ’ n parametrit ennen aihekohtaisia sanapainoja.

parametrit

  • lambdat (numpy.ndarray) – edellinen lambda parametrit.

  • rho (float) – Oppimisaste.

palauttaa

päivitetyt eta-parametrit.

Paluutyyppi

numpy.ndarray

classgensim.models.ldamodel.LdaState(eta, shape, dtype=<class ” numpy.float32 ”>)¶

emäkset: gensim.utils.SaveLoad

kapseloi tiedot LdaModel objektien hajautettua laskentaa varten.

tämän luokan objektit lähetetään verkon yli, joten yritä pitää ne nojassa liikenteen vähentämiseksi.

parametrit

  • eta (numpy.ndarray) – kullekin termille annetut aiemmat todennäköisyydet.

  • muoto (tuple of (int, int)) – riittävän tilaston muoto: (aiheiden lukumäärä, termien määrä sanastossa).

  • dtype (type) – ohittaa numpy array-oletustyypit.

(event_name, log_level=20, **event)¶

Liitä tapahtuma tämän olion lifecycle_events-attribuuttiin ja kirjaudu tapahtuma myös log_level-attribuuttiin.

tapahtumat ovat tärkeitä hetkiä kohteen elämän aikana, kuten ”malli luotu”,”malli tallennettu”, ”malli ladattu” jne.

lifecycle_events-attribuutti säilyy objektin save()ja load() operaatioissa. Sillä ei ole vaikutusta mallin käyttöön,mutta se on hyödyllinen virheenkorjauksen ja tuen aikana.

Set self.lifecycle_events = Ei mitään tämän käyttäytymisen poistamiseksi. Puhelut add_lifecycle_event()eivät Tallenna tapahtumia itseen.lifecycle_ events sitten.

parametrit

  • event_name (str) – tapahtuman nimi. Voi olla mikä tahansa etiketti, esim. ”luotu”, ”tallennettu” jne.

  • tapahtuma (dict) –

    avainarvon kartoitus itselle.lifecycle_ events. Sen pitäisi olla JSON-sarjamuotoinen, joten pidä se yksinkertaisena.Voi olla tyhjä.

    tämä menetelmä lisää automaattisesti seuraavat avainarvot tapahtumaan, joten niitä ei tarvitse määritellä:

    • datetime: nykyinen päivämäärä & aika

    • gensim: nykyinen Gensim-versio

      python: nykyinen Python-versio

    • p> laituri: nykyinen laituri
    • tapahtuma: tapahtuman nimi

  • log_level (int) – kirjaa myös koko tapahtuman dict, määritetyllä lokitasolla. Aseta epätosi, jos haluat olla kirjaamatta ollenkaan.

blend(rhot, other, targetsize=None)¶

Yhdistä nykytila toiseen käyttäen painotettua keskiarvoa riittäviä tilastoja varten.

dokumenttien määrä venyy molemmissa valtion olioissa niin, että ne ovat keskenään vertailukelpoisia.Tämä menettely vastaa stokastinen gradientti päivitys fromHoffman et al. : ”Online Learning For Latent Dirichlet ’n Allocation”, katso yhtälöt (5) ja (9).

parametrit

  • rhot (float) – toisen tilan Paino lasketussa keskiarvossa. Arvo 0,0 tarkoittaa, että otheris täysin huomiotta. Arvo 1.0 tarkoittaa itse on täysin huomiotta.

  • muu (LdaState) – olio, johon nykyinen yhdistetään.

  • targetsize (int, valinnainen) – määrä asiakirjoja venyttää molemmat valtiot.

blend2(rhot, other, targetsize=None)¶

Yhdistä nykytila toiseen käyttäen painotettua summaa riittäviä tilastoja varten.

toisin kuin blend(), riittäviä tilastoja ei skaalata tai yhdistellä.

parametrit

  • rhot (float) – Unused.

  • muu (LdaState) – olio, johon nykyinen yhdistetään.

  • targetsize (int, valinnainen) – määrä asiakirjoja venyttää molemmat valtiot.

get_Elogbeta()¶

Hanki loki (posterioriset) todennäköisyydet jokaiselle aihealueelle.

palauttaa

Posterior probabilities for each topic.

Paluutyyppi

numpy.ndarray

get_lambda()¶

saavat posteriorin parametrit Yli aiheiden, joita kutsutaan myös ”aiheiksi”.

palauttaa

posteriorisen todennäköisyyden parametrit aiheiden suhteen.

Paluutyyppi

numpy.ndarray

classmethodload(fname, *args, **kwargs)¶

lataa aiemmin tallennettu tila levyltä.

ohittaa load pakottamalla dtype-parametrin varmistamaan taaksepäin yhteensopivuus.

parametrit

  • fname (str) – polku tiedostoon, joka sisältää tarvittavan objektin.

  • args (object) – paikkaparametrit lisättäväksi luokkaan:~gensim.utils.SaveLoad.load

  • kwargs (object) – Key-word-parametrit, jotka lisätään luokkaan:~gensim.utils.SaveLoad.load

palauttaa

annetusta tiedostosta ladatun tilan.

Return type

LdaState

merge(other)¶

Yhdistä e-vaiheen tulos yhdeltä solmulta toisen solmun tulokseen (summaa riittävät tilastot).

yhdistäminen on triviaalia ja kaikkien klusterisolmujen yhdistämisen jälkeen meillä on sama tulos kuin jos laskenta suoritettaisiin yhdellä solmulla (noapproksimaatio).

parametrit

muut (LdaState) – olio, johon nykyinen yhdistetään.

reset()¶

valmista tila uuteen EM-iteraatioon (Nollaa riittävät tilastot).

save(fname_or_handle, erikseen=ei mitään, sep_limit=10485760, ignore=frozenset({}), pickle_protocol=4)¶

Tallenna objekti tiedostoon.

parametrit

  • fname_or_handle (Str tai file-like) – polku tulostetiedostoon tai jo avattuun tiedostomaiseen objektiin. Jos objekti on tiedostokahva, mitään erityistä array käsittelyä ei suoriteta, kaikki attribuutit tallennetaan samaan tiedostoon.

  • erikseen (luettelo str tai ei mitään, valinnainen) –

    Jos ei ole, havaitaan automaattisesti suuri numpy / scipy.Tallenna Tallennettavaan objektiin harvalukuiset ryhmät ja tallenna ne erillisiin tiedostoihin. Tämä estää suurten kohteiden muistivirheet ja mahdollistaa myös suurten ryhmien kartoittamisen tehokkaaseen lataukseen ja suurten ryhmien jakamisen RAM-muistissa useiden prosessien välillä.

    Jos STR: n luettelo: tallenna nämä attribuutit erillisiin tiedostoihin. Tässä tapauksessa ei suoriteta automaattista kokotarkistusta.

  • sep_limit (int, valinnainen) – Älä säilytä tätä pienempiä ryhmiä erikseen. Tavuina.

  • ohita (str: n frozenset, valinnainen) – attribuutit, joita ei pitäisi tallentaa lainkaan.

  • pickle_protocol (int, valinnainen) – protokollanumero suolakurkkua varten.

Katso myös

load()

Lataa objekti tiedostosta.

gensim.models.ldamodel.update_dir_prior(prior, N, logphat, rho)¶

Update a given prior using Newton ’ s method, described injection. Huang: ”Dirichlet’ n Jakaumaparametrien suurin Todennäköisyysarvio”.

parametrit

  • prior (liukulukuluettelo) – prior kunkin mahdollisen tuloksen osalta edellisessä iteraatiossa (päivitetään).

  • n (int) – havaintojen määrä.

  • logphat (liukulukujen luettelo) – Log-todennäköisyydet nykyiselle estimoinnille, jota kutsutaan myös ”havaituksi riittäväksi tilastoksi”.

  • rho (float) – Oppimisaste.

palauttaa

päivitetyn Priorin.

Paluutyyppi

float-luettelo

Vastaa

Sähköpostiosoitettasi ei julkaista.