Maybaygiare.org

Blog Network

Description des mots

Description des mots

L’idée du moteur de description des Mots est venue lorsque je construisais le moteur pour les Mots liés (c’est comme un thésaurus, mais vous donne un ensemble beaucoup plus large de mots liés, plutôt que de simples synonymes). En jouant avec les vecteurs de mots et l’API « HasProperty » de conceptnet, je me suis un peu amusé à essayer d’obtenir les adjectifs qui décrivent généralement un mot. J’ai finalement réalisé qu’il y avait une bien meilleure façon de le faire: analyser les livres!

Le projet Gutenberg était le corpus initial, mais l’analyseur est devenu de plus en plus gourmand et j’ai fini par l’alimenter quelque part autour de 100 gigaoctets de fichiers texte – principalement de la fiction, y compris de nombreuses œuvres contemporaines. L’analyseur examine simplement chaque livre et extrait les différentes descriptions de noms.

J’espère que c’est plus qu’une simple nouveauté et que certaines personnes le trouveront utile pour leur écriture et leur brainstorming, mais une petite chose intéressante à essayer est de comparer deux noms qui sont similaires, mais différents d’une manière significative – par exemple, le genre est intéressant: « femme » contre « homme » et « garçon » contre « fille ». Sur une analyse rapide initiale, il semble que les auteurs de fiction sont au moins 4 fois plus susceptibles de décrire les femmes (par opposition aux hommes) avec des termes liés à la beauté (en ce qui concerne leur poids, leurs caractéristiques et leur attrait général). En fait, « belle » est peut-être l’adjectif le plus utilisé pour les femmes dans toute la littérature mondiale, ce qui est tout à fait conforme à la représentation générale unidimensionnelle des femmes dans de nombreux autres médias. Si quelqu’un veut faire des recherches supplémentaires à ce sujet, faites-le moi savoir et je peux vous donner beaucoup plus de données (par exemple, il y a environ 25000 entrées différentes pour « femme » – trop nombreuses pour être montrées ici).

Le bleu des résultats représente leur fréquence relative. Vous pouvez survoler un élément pendant une seconde et le score de fréquence devrait apparaître. Le tri « unicité » est par défaut, et grâce à mon algorithme compliqué ™, il les ordonne par l’unicité des adjectifs à ce nom particulier par rapport aux autres noms (c’est en fait assez simple). Comme vous pouvez vous y attendre, vous pouvez cliquer sur le bouton « Trier par fréquence d’utilisation » des adjectifs par leur fréquence d’utilisation pour ce nom.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.