manapság akár videót néz a YouTube-on, filmet a Netflix-en vagy terméket az Amazon-on, ajánlásokat fog kapni további megtekinthető, tetsző vagy megvásárolható dolgokra. Köszönheti a gépi tanulási algoritmusok és ajánlórendszerek megjelenését ehhez a fejlesztéshez.
az ajánlórendszerek hatóköre messzemenő, ezért nullázunk egy fontos megközelítést, az úgynevezett kollaboratív szűrést, amely a rendszer által más felhasználóktól gyűjtött interakciók és adatok felhasználásával szűri az információkat. Ez azon az elképzelésen alapul, hogy azok az emberek, akik egyetértettek bizonyos elemek értékelésében, valószínűleg a jövőben is egyetértenek.
gyors alapozó az Ajánlórendszerekről
az ajánlórendszer az információszűrés alosztálya, amely arra törekszik, hogy megjósolja a felhasználó által adott elemet, például terméket, filmet, dalt stb.
az ajánlórendszerek személyre szabott információkat nyújtanak azáltal, hogy megtanulják a felhasználó érdekeit az adott felhasználóval való interakció nyomai révén. Hasonlóan a gépi tanulási algoritmusokhoz, az ajánló rendszer előrejelzést készít a felhasználó múltbeli viselkedése alapján. Pontosabban, úgy tervezték, hogy a tapasztalatok alapján megjósolja a felhasználói preferenciákat egy elemkészletre.
matematikailag egy ajánlási feladat be van állítva:
- felhasználók halmaza (U)
- az U
- számára ajánlott elemek halmaza (I) Ismerje meg a felhasználó korábbi interakciós adatain alapuló függvényt, amely megjósolja az I. elem u
az Ajánlórendszereket nagyjából két típusba sorolják a következtetésekhez használt adatok alapján:
- tartalomalapú szűrés, amely elemattribútumokat használ.
- kollaboratív szűrés, amely az Elemattribútumok mellett felhasználói viselkedést (interakciókat) is használ.
néhány kulcsfontosságú példa a munkahelyi ajánlórendszerekre:
- termék ajánlások az Amazon és más bevásárló oldalak
- film és TV show ajánlások Netflix
- cikk ajánlások híroldalak
mi az együttműködési szűrés?
Az együttműködő szűrés a rendszer által más felhasználóktól gyűjtött interakciók és adatok felhasználásával szűri az információkat. Ez azon az elképzelésen alapul, hogy azok az emberek, akik egyetértettek bizonyos elemek értékelésében, valószínűleg a jövőben is egyetértenek.
a koncepció egyszerű: amikor új filmet akarunk nézni, gyakran kérünk ajánlásokat a barátainktól. Természetesen nagyobb a bizalmunk a barátaink ajánlásaiban, akik hasonló ízekkel rendelkeznek, mint a sajátunk.
a legtöbb együttműködő szűrőrendszer az úgynevezett hasonlósági index alapú technikát alkalmazza. A szomszédságon alapuló megközelítésben számos felhasználót választanak ki az aktív felhasználóhoz való hasonlóságuk alapján. Az aktív felhasználó következtetése a kiválasztott felhasználók értékelésének súlyozott átlagának kiszámításával történik.
a kollaboratív szűrőrendszerek a felhasználók és az elemek közötti kapcsolatra összpontosítanak. Az elemek hasonlóságát az határozza meg, hogy azok a felhasználók, akik mindkét elemet értékelték, hasonlóak-e az elemek értékeléséhez.
az együttműködésen alapuló szűrésnek két osztálya van:
- felhasználó alapú, amely a célfelhasználók és a többi felhasználó közötti hasonlóságot méri.
- Elemalapú, amely a felhasználókat megcélzó elemek és más elemek hasonlóságát méri.
Collaborative szűrés Python
Az együttműködési módszereket általában egy segédprogram mátrix segítségével dolgozzák ki. Az ajánló modell feladata, hogy megtanuljon egy olyan funkciót, amely előrejelzi az egyes felhasználókhoz való illeszkedés vagy hasonlóság hasznosságát. A segédprogram mátrix általában nagyon ritka, hatalmas és eltávolította az értékeket.
a következő mátrixokban minden sor egy felhasználót képvisel, míg az oszlopok a Pixar különböző filmjeinek felelnek meg. A koszinusz hasonlóság a legegyszerűbb algoritmus, amely a vektorok hasonlóságának megtalálásához szükséges. Az utolsó, amely az első mátrixot követő segédprogrammátrix, csak részleges adatokat tartalmaz, amelyek szükségesek ahhoz, hogy megjósolják a felhasználó által adott “gyökér” várható minősítésének valószínűségét.
a következő mátrixokban minden sor egy felhasználót képvisel, míg az oszlopok különböző filmeknek felelnek meg, kivéve az utolsót, amely rögzíti a felhasználó és a célfelhasználó közötti hasonlóságot. Minden cella azt a minősítést képviseli, amelyet a felhasználó ad a filmnek.
koszinusz_hasonlóság (p, q) = p.q
|p|.|q|
cosine_similarity(joe, beck) =
amikor egy új felhasználó csatlakozik a platformhoz, a legegyszerűbb algoritmust alkalmazzuk, amely kiszámítja a sorok (felhasználók) vagy oszlopok (filmek) koszinusz-vagy korrelációs hasonlóságát, és olyan elemeket ajánl, amelyek k-legközelebbi szomszédok.
ezek sok egyenletek, hogy képes kezelni a kérdést hasonlóság intézkedések, néhány tartalmazza:
- Pearson hasonlóság
- Jaccard hasonlóság
- Spearman rang korreláció
- átlagos négyzetes különbségek
- közelség-hatás-Népszerűség hasonlóság
Kapcsolódótovábbi információ az Adattudományról