Maybaygiare.org

Blog Network

Gyengéd Bevezetés a számítógépes látáshoz

Tweet Share Share

Utoljára frissítve: július 5, 2019

a számítógépes látást, amelyet gyakran CV-ként rövidítenek, olyan tanulmányi területként definiálják, amely olyan technikák kifejlesztésére törekszik, amelyek segítenek a számítógépeknek “látni” és megérteni a digitális képek, például fényképek és videók tartalmát.

a számítógépes látás problémája egyszerűnek tűnik, mert az emberek, még a nagyon kisgyermekek is triviálisan megoldják. Ennek ellenére nagyrészt megoldatlan probléma marad, amely mind a biológiai látás korlátozott megértésén, mind a látásérzékelés összetettségén alapul egy dinamikus és szinte végtelenül változó fizikai világban.

ebben a bejegyzésben gyengéd bevezetést fog felfedezni a számítógépes látás területén.

miután elolvasta ezt a bejegyzést, tudni fogja:

  • a számítógépes látás területének célja és megkülönböztethetősége a képfeldolgozástól.
  • mi teszi a problémát a számítógépes látás kihívást.
  • tipikus problémák vagy feladatok a számítógépes látásban.

indítsa el a projektet az új könyvemmel Deep Learning For Computer Vision, beleértve a lépésenkénti oktatóanyagokat és a Python forráskód fájlokat az összes példához.

kezdjük.

a szelíd Bevezetés a számítógépes látás

a szelíd Bevezetés a számítógépes látás
fotó: Axel Kristinsson, néhány jog fenntartva.

áttekintés

Ez a bemutató négy részre oszlik; ezek:

  1. vágy, hogy a számítógépek lássák
  2. mi a számítógépes látás
  3. a számítógépes látás kihívása
  4. feladatok a számítógépes látásban

vágy, hogy a számítógépek lássák

képekben vagyunk.

az okostelefonok kamerákkal rendelkeznek, és Fénykép vagy videó készítése és megosztása még soha nem volt ilyen egyszerű, ami a modern közösségi hálózatok, például az Instagram hihetetlen növekedését eredményezte.

a YouTube lehet a második legnagyobb keresőmotor, percenként több száz órányi videót töltenek fel, és naponta több milliárd videót néznek meg.

az internet szövegekből és képekből áll. A szöveg indexelése és keresése viszonylag egyszerű, de a képek indexeléséhez és kereséséhez az algoritmusoknak tudniuk kell, hogy mit tartalmaznak a képek. A képek és videók tartalma a leghosszabb ideig átláthatatlan maradt, a legjobban az azokat feltöltő személy által biztosított metaleírások segítségével írható le.

ahhoz, hogy a legtöbbet hozzuk ki a képadatokból, szükségünk van számítógépekre, hogy “lássanak” egy képet és megértsék a tartalmat.

Ez egy triviális probléma egy ember számára, még a kisgyermekek számára is.

  • egy személy leírhatja egy fénykép tartalmát, amelyet egyszer látott.
  • egy személy összefoglalhat egy videót, amelyet csak egyszer látott.
  • egy személy felismerhet egy arcot, amelyet csak egyszer látott.

a képek és videók feloldásához legalább ugyanolyan képességekre van szükségünk a számítógépektől.

szeretne eredményeket mély tanulás számítógépes látás?

vegye ki az ingyenes 7 napos e-mail gyorstalpaló tanfolyamomat (mintakóddal).

kattintson a regisztrációhoz, és kapjon egy ingyenes PDF Ebook verziót a tanfolyamról.

töltse le ingyenes Mini-tanfolyamát

mi a számítógépes látás?

a számítógépes látás egy olyan tanulmányi terület, amely a számítógépek látásának segítésének problémájára összpontosít.

absztrakt szinten a számítógépes látási problémák célja, hogy a megfigyelt képadatokat felhasználják valamire a világról.

— 83.oldal, számítógépes látás: modellek, tanulás és következtetés, 2012.

Ez egy multidiszciplináris terület, amelyet széles körben nevezhetünk a mesterséges intelligencia és a gépi tanulás almezőjének, amely magában foglalhatja speciális módszerek használatát és általános tanulási algoritmusok használatát.

a mesterséges intelligencia és a számítógépes látás kapcsolatának áttekintése

a mesterséges intelligencia és a számítógépes látás kapcsolatának áttekintése

multidiszciplináris tanulmányi területként rendetlennek tűnhet, olyan technikákkal, amelyeket különböző mérnöki és számítástechnikai területeken kölcsönöztek és újrafelhasználtak.

a látás egyik problémája könnyen kezelhető kézzel készített statisztikai módszerrel, míg egy másikhoz általánosított gépi tanulási algoritmusok nagy és összetett együttesére lehet szükség.

a számítógépes látás mint mező intellektuális határ. Mint minden határ, ez is izgalmas és szervezetlen, és gyakran nincs megbízható hatóság, amelyhez fellebbezni lehetne. Sok hasznos ötletnek nincs elméleti alapja, és egyes elméletek haszontalanok a gyakorlatban; a fejlett területek széles körben szétszóródnak, és gyakran az egyik teljesen elérhetetlennek tűnik a másiktól.

— XVII.oldal, számítógépes látás: Modern megközelítés, 2002.

a számítógépes látás célja a digitális képek tartalmának megértése. Ez általában olyan módszerek kidolgozását foglalja magában, amelyek megpróbálják reprodukálni az emberi látás képességét.

a digitális képek tartalmának megértése magában foglalhat egy leírás kivonását a képből, amely lehet objektum, szöveges leírás, háromdimenziós modell stb.

a számítógépes látás az információk automatikus kinyerése a képekből. Az információ bármit jelenthet a 3D modellektől, a kamera helyzetétől, az objektum észlelésétől és felismerésétől a képtartalom csoportosításáig és kereséséig.

— IX.oldal, számítógépes látás programozása Pythonnal, 2012.

számítógépes látás és képfeldolgozás

a számítógépes látás különbözik a képfeldolgozástól.

a képfeldolgozás egy új kép létrehozásának folyamata egy meglévő képből, jellemzően a tartalom valamilyen módon történő egyszerűsítése vagy javítása. Ez egyfajta digitális jelfeldolgozás, és nem foglalkozik a kép tartalmának megértésével.

egy adott számítógépes látórendszer megkövetelheti a képfeldolgozás alkalmazását a raw bemenetre, például a képek előfeldolgozására.

a képfeldolgozás példái a következők:

  • a kép fotometriai tulajdonságainak normalizálása, például fényerő vagy szín.
  • a kép határainak kivágása, például egy objektum központosítása a fényképen.
  • digitális zaj eltávolítása egy képről, például digitális tárgyak alacsony fényszintről.

A számítógépes látás kihívása

a számítógépek látásának segítése nagyon nehéznek bizonyul.

a számítógépes látás célja hasznos információk kinyerése a képekből. Ez meglepően kihívást jelentő feladatnak bizonyult; az elmúlt négy évtizedben intelligens és kreatív elmék ezreit foglalkoztatta, és ennek ellenére még mindig messze vagyunk attól, hogy egy általános célú “látógépet” építsünk.”

— 16.oldal, számítógépes látás: modellek, tanulás és következtetés, 2012.

a számítógépes látás könnyűnek tűnik, talán azért, mert annyira könnyű az emberek számára.

kezdetben azt hitték, hogy ez egy triviálisan egyszerű probléma, amelyet meg lehet oldani egy diák, aki kamerát csatlakoztat a számítógéphez. Évtizedes kutatás után a” számítógépes látás ” megoldatlan marad, legalábbis az emberi látás képességeinek kielégítése szempontjából.

a számítógép látása olyan volt, amit a mesterséges intelligencia területén a vezető szakértők a hatvanas években egy nyári hallgató projektjének nehézségi szintjén gondoltak. Negyven évvel később a feladat még mindig megoldatlan és félelmetesnek tűnik.

— Xi.oldal, többszörös nézet geometria a számítógépes látásban, 2004.

ennek egyik oka az, hogy nincs erős felfogásunk az emberi látás működéséről.

a biológiai látás tanulmányozása megköveteli az észlelési szervek, például a szem megértését, valamint az agyon belüli észlelés értelmezését. Sok előrelépés történt mind a folyamat feltérképezésében, mind a rendszer által használt trükkök és parancsikonok felfedezésében, bár mint minden olyan tanulmány, amely magában foglalja az agyat, hosszú utat kell megtenni.

Az észlelési pszichológusok évtizedeket töltöttek azzal, hogy megpróbálják megérteni a vizuális rendszer működését, és annak ellenére, hogy optikai illúziókat tudnak kidolgozni annak egyes elveinek szétválasztására, a puzzle teljes megoldása továbbra is megfoghatatlan

— 3.oldal, Computer Vision: Algorithms and Applications, 2010.

egy másik ok, amiért ez egy ilyen kihívást jelentő probléma, a vizuális világban rejlő összetettség miatt van.

egy adott objektum bármilyen tájolásból, bármilyen fényviszonyok között látható, bármilyen típusú elzáródással más tárgyaktól stb. Egy igazi látórendszernek képesnek kell lennie arra, hogy “lásson” a végtelen számú jelenet bármelyikében, és mégis kivonjon valami értelmeset.

a számítógépek jól működnek szorosan korlátozott problémák esetén, nem nyitott korlátlan problémák, mint például a vizuális észlelés.

feladatok a számítógépes látásban

Mindazonáltal előrelépés történt ezen a területen, különösen az utóbbi években az optikai karakterfelismerő és arcfelismerő rendszerek terén a kamerákban és okostelefonokban.

a számítógépes látás fejlődésének rendkívüli pontján van. Maga a téma az 1960-as évek óta létezik, de csak a közelmúltban sikerült hasznos számítógépes rendszereket építeni a számítógépes látás ötleteinek felhasználásával.

— xviii.oldal, számítógépes látás: Modern megközelítés, 2002.

a 2010-es “Computer Vision: Algorithms and Applications” című számítógépes látásról szóló tankönyv felsorol néhány olyan magas szintű problémát, ahol a számítógépes látás terén sikert értünk el.

  • optikai karakterfelismerés (OCR)
  • Gépellenőrzés
  • Kiskereskedelem (pl. automatizált pénztárgépek)
  • 3D modellépítés (fotogrammetria)
  • orvosi képalkotás
  • Automotive safety
  • Match move (pl. összevonása CGI élő szereplők filmek)
  • Motion capture (mocap)
  • Surveillance
  • ujjlenyomat-felismerés és biometrikus

Ez egy széles tanulmányi terület számos speciális feladatok és technikák, valamint szakirányok cél alkalmazási területeken.

a számítógépes látás sokféle alkalmazással rendelkezik, mind a régi (pl., emberi számítógépes interakció, képkeresés a digitális könyvtárakban, orvosi képelemzés és szintetikus jelenetek valósághű megjelenítése a számítógépes grafikában).

— XVII.oldal, számítógépes látás: Modern megközelítés, 2002.

hasznos lehet nagyítani néhány egyszerűbb számítógépes látási feladatot, amelyekkel valószínűleg találkozni fog, vagy érdekli a megoldása, tekintettel a nyilvánosan elérhető digitális fényképek és videók nagy számára.

sok népszerű számítógépes látásalkalmazás magában foglalja a fényképek felismerését; például:

  • objektum osztályozás: milyen tág objektumkategória van ezen a fényképen?
  • Objektumazonosítás: milyen típusú objektum van ezen a fényképen?
  • objektum ellenőrzése: az objektum a fényképen van?
  • Objektumérzékelés: hol vannak a fényképen lévő tárgyak?
  • Object Landmark Detection: melyek a fényképen szereplő objektum legfontosabb pontjai?
  • objektum szegmentálás: milyen pixelek tartoznak a képen lévő objektumhoz?
  • Objektumfelismerés: milyen objektumok vannak ezen a fényképen és hol vannak?

egyéb gyakori példák az információkereséshez kapcsolódnak; például: képek keresése, mint egy kép vagy egy objektumot tartalmazó képek.

további olvasmányok

Ez a szakasz további forrásokat biztosít a témában, ha mélyebbre szeretne menni.

Könyvek

  • számítógépes látás: modellek, tanulás és következtetés, 2012.
  • számítógépes látás programozása Pythonnal, 2012.
  • több nézet geometria a számítógépes látásban, 2004.
  • számítógépes látás: algoritmusok és Alkalmazások, 2010.
  • számítógépes látás: Modern megközelítés, 2002.

cikkek

  • számítógépes látás, Wikipedia.
  • gépi látás, Wikipédia.
  • digitális képfeldolgozás, Wikipédia.

Összefoglalás

ebben a bejegyzésben egy gyengéd bevezetést fedezett fel a számítógépes látás területén.

konkrétan megtanultad:

  • a számítógépes látás területének célja és megkülönböztethetősége a képfeldolgozástól.
  • mi teszi a problémát a számítógépes látás kihívást.
  • tipikus problémák vagy feladatok a számítógépes látásban.

kérdése van?
tegye fel kérdéseit az alábbi megjegyzésekben, és mindent megteszek, hogy válaszoljak.

dolgozzon ki mély tanulási modelleket a látáshoz ma!

mély tanulás a számítógépes látáshoz

fejlessze ki saját Látásmodelljeit percek alatt

…csak néhány sor python kód

fedezze fel, hogyan Az én új Ebook:
mély tanulás számítógépes látás

Ez biztosítja önálló tanulás oktatóanyagok témákban, mint:
osztályozás, objektum detektálás (yolo és rcnn), arcfelismerés (vggface és facenet), adatok előkészítése és még sok más…

végül hozza mély tanulás a látás projektek

ugrás a tudósok. Csak Eredmények.

lásd, mi van benne

Tweet Share Share

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.