Computer Vision, ofte forkortet som CV, defineres som et fagområde, der søger at udvikle teknikker til at hjælpe computere med at “se” og forstå indholdet af digitale billeder som fotografier og videoer.
problemet med computersyn synes simpelt, fordi det er trivielt løst af mennesker, selv meget små børn. Ikke desto mindre forbliver det stort set et uløst problem baseret både på den begrænsede forståelse af biologisk vision og på grund af kompleksiteten af synsopfattelsen i en dynamisk og næsten uendeligt varierende fysisk verden.
i dette indlæg vil du opdage en blid introduktion til feltet computersyn.
efter at have læst dette indlæg, vil du vide:
- målet med feltet computersyn og dets særpræg fra billedbehandling.
- hvad gør problemet med computersyn udfordrende.
- typiske problemer eller opgaver, der forfølges i computersyn.
kickstart dit projekt med min nye bog Deep Learning For Computer Vision, herunder trin-for-trin tutorials og Python kildekode filer for alle eksempler.
lad os komme i gang.
en blid introduktion til computersyn
foto af Aksel Kristinsson, nogle rettigheder forbeholdes.
- oversigt
- ønske om computere at se
- ønsker resultater med dyb læring til computersyn?
- Hvad er Computer Vision?
- Computer Vision og billedbehandling
- udfordring af Computer Vision
- opgaver i computersyn
- yderligere læsning
- bøger
- artikler
- Resume
- udvikle dybe læringsmodeller til Vision i dag!
- udvikle dine egne Visionsmodeller i minutter
- endelig bringe dyb læring til dine Visionsprojekter
oversigt
denne tutorial er opdelt i fire dele; de er:
- ønske om computere at se
- hvad er Computer Vision
- udfordring af Computer Vision
- opgaver i Computer Vision
ønske om computere at se
vi er oversvømmet i billeder.
Smartphones har kameraer, og det har aldrig været lettere at tage et foto eller en video og dele det, hvilket resulterer i den utrolige vækst i moderne sociale netværk som Instagram.
YouTube er muligvis den næststørste søgemaskine, og hundreder af timers video uploades hvert minut, og milliarder af videoer ses hver dag.
internettet består af tekst og billeder. Det er relativt ligetil at indeksere og Søge tekst, men for at indeksere og søge billeder skal algoritmer vide, hvad billederne indeholder. I længst tid er indholdet af billeder og video forblevet uigennemsigtigt, bedst beskrevet ved hjælp af metabeskrivelserne fra den person, der uploadede dem.
for at få mest muligt ud af billeddata har vi brug for computere til at “se” et billede og forstå indholdet.
dette er et trivielt problem for et menneske, selv små børn.
- en person kan beskrive indholdet af et fotografi, de har set en gang.
- en person kan opsummere en video, som de kun har set en gang.
- en person kan genkende et ansigt, som de kun har set en gang før.
Vi kræver mindst de samme muligheder fra computere for at låse vores billeder og videoer op.
ønsker resultater med dyb læring til computersyn?
Tag mit gratis 7-dages e-mail-crashkursus nu (med prøvekode).
Klik for at tilmelde dig og også få en gratis PDF Ebook version af kurset.
Hent din gratis Mini-kursus
Hvad er Computer Vision?
Computer vision er et fagområde med fokus på problemet med at hjælpe computere til at se.
på et abstrakt niveau er målet med computersynsproblemer at bruge de observerede billeddata til at udlede noget om verden.
— side 83, Computer Vision: modeller, læring og indledning, 2012.
det er et tværfagligt felt, der stort set kunne kaldes et underfelt af kunstig intelligens og maskinindlæring, som kan involvere brugen af specialiserede metoder og gøre brug af generelle læringsalgoritmer.
oversigt over forholdet mellem kunstig intelligens og computersyn
som et tværfagligt studieområde kan det se rodet ud med teknikker lånt og genbrugt fra en række forskellige ingeniør-og computervidenskabsfelter.
et bestemt synsproblem kan let løses med en håndlavet statistisk metode, mens et andet kan kræve et stort og komplekst ensemble af generaliserede maskinlæringsalgoritmer.
Computer vision som et felt er en intellektuel grænse. Som enhver grænse er det spændende og uorganiseret, og der er ofte ingen pålidelig myndighed at appellere til. Mange nyttige ideer har ingen teoretisk grundforbindelse, og nogle teorier er ubrugelige i praksis; udviklede områder er bredt spredt, og ofte ser man helt utilgængelig ud fra den anden.
— Computer Vision: en moderne tilgang, 2002.
målet med computersyn er at forstå indholdet af digitale billeder. Dette indebærer typisk at udvikle metoder, der forsøger at reproducere evnen til menneskelig vision.
forståelse af indholdet af digitale billeder kan involvere udtrækning af en beskrivelse fra billedet, som kan være et objekt, en tekstbeskrivelse, en tredimensionel model osv.
Computer vision er den automatiske ekstraktion af information fra billeder. Oplysninger kan betyde alt fra 3d-modeller, kameraposition, objektdetektering og genkendelse til gruppering og søgning af billedindhold.
— side ik, programmering Computer Vision med Python, 2012.
Computer Vision og billedbehandling
Computer vision adskiller sig fra billedbehandling.
billedbehandling er processen med at oprette et nyt billede fra et eksisterende billede, typisk forenkle eller forbedre indholdet på en eller anden måde. Det er en type digital signalbehandling og er ikke optaget af at forstå indholdet af et billede.
et givet computersynssystem kan kræve, at billedbehandling anvendes på rå input, f.eks. forbehandling af billeder.
eksempler på billedbehandling omfatter:
- normalisering fotometriske egenskaber af billedet, såsom lysstyrke eller farve.
- beskæring af billedets grænser, f.eks. centrering af et objekt på et fotografi.fjernelse af digital støj fra et billede, f.eks. digitale artefakter fra lave lysniveauer.
udfordring af Computer Vision
at hjælpe computere med at se viser sig at være meget svært.
målet med computersyn er at udtrække nyttige oplysninger fra billeder. Dette har vist sig at være en overraskende udfordrende opgave; det har besat tusinder af intelligente og kreative sind i løbet af de sidste fire årtier, og på trods af dette er vi stadig langt fra at være i stand til at bygge en almindelig “seende maskine.”
— side 16, Computer Vision: modeller, læring og indledning, 2012.
Computer vision virker let, måske fordi det er så ubesværet for mennesker.
oprindeligt blev det antaget at være et trivielt simpelt problem, der kunne løses af en studerende, der forbinder et kamera til en computer. Efter årtiers forskning forbliver” computersyn ” uløst, i det mindste med hensyn til at imødekomme kapaciteten i menneskelig vision.
at lave en computer se var noget, som førende eksperter inden for kunstig intelligens troede at være på sværhedsgraden af en sommerstudents projekt tilbage i tresserne. Fyrre år senere er opgaven stadig uløst og virker formidabel.
— Side ti, flere Visningsgeometri i computersyn, 2004.
en af grundene er, at vi ikke har en stærk forståelse af, hvordan menneskets vision fungerer.
at studere biologisk syn kræver en forståelse af opfattelsesorganerne som øjnene samt fortolkningen af opfattelsen i hjernen. Der er gjort store fremskridt, både med at kortlægge processen og med hensyn til at opdage de tricks og genveje, der bruges af systemet, selvom der som enhver undersøgelse, der involverer hjernen, er en lang vej at gå.
perceptuelle psykologer har brugt årtier på at forstå, hvordan det visuelle system fungerer, og selvom de kan udtænke optiske illusioner for at drille nogle af dets principper fra hinanden, forbliver en komplet løsning på dette puslespil undvigende
— Side 3, Computer Vision: Algorithms and Applications, 2010.
en anden grund til, at det er et så udfordrende problem, er på grund af kompleksiteten i den visuelle verden.
et givet objekt kan ses fra enhver orientering, under alle lysforhold, med enhver form for okklusion fra andre objekter og så videre. Et ægte visionssystem skal være i stand til at” se ” i et uendeligt antal scener og stadig udtrække noget meningsfuldt.
computere fungerer godt for tæt begrænsede problemer, ikke åbne ubegrænsede problemer som visuel opfattelse.
opgaver i computersyn
ikke desto mindre har der været fremskridt på området, især i de senere år med råvaresystemer til optisk tegngenkendelse og ansigtsgenkendelse i kameraer og smartphones.
Computer vision er på et ekstraordinært tidspunkt i sin udvikling. Selve emnet har eksisteret siden 1960 ‘ erne, men først for nylig har det været muligt at opbygge nyttige computersystemer ved hjælp af ideer fra computersyn.
— Computer Vision: en moderne tilgang, 2002.
2010-lærebogen om computer vision med titlen “Computer Vision: Algorithms and Applications” indeholder en liste over nogle problemer på højt niveau, hvor vi har set succes med computer vision.
- optisk tegngenkendelse (OCR)
- maskininspektion
- Retail (f. eks. automatiske kassettebånd)
- 3D-modelbygning (fotogrammetri)
- medicinsk billeddannelse
- Automotive safety
- Match move (f. eks. film)
- Motion capture (mocap)
- overvågning
- Fingeraftryksgenkendelse og biometri
det er et bredt studieområde med mange specialiserede opgaver og teknikker samt specialiseringer til at målrette applikationsdomæner.
Computer vision har en bred vifte af applikationer, både gamle (f. eks. i digitale biblioteker, medicinsk billedanalyse og den realistiske gengivelse af syntetiske scener i computergrafik).
— Computer Vision: en moderne tilgang, 2002.
det kan være nyttigt at uddybe nogle af de mere enklere computervisionsopgaver, som du sandsynligvis vil støde på eller være interesseret i at løse i betragtning af det store antal offentligt tilgængelige digitale fotografier og videoer, der er tilgængelige.
mange populære computer vision applikationer involverer forsøger at genkende ting i fotografier; for eksempel:
- Objektklassificering: hvilken bred kategori af objekt er på dette fotografi?
- objektidentifikation: hvilken type af et givet objekt er på dette fotografi?
- Objektbekræftelse: er objektet på fotografiet?
- objektdetektering: hvor er objekterne på fotografiet?
- Object Landmark Detection: Hvad er nøglepunkterne for objektet på fotografiet?
- Objektsegmentering: hvilke billedpunkter hører til objektet i billedet?
- objektgenkendelse: hvilke objekter er der på dette fotografi, og hvor er de?
andre almindelige eksempler er relateret til informationssøgning; for eksempel: at finde billeder som et billede eller billeder, der indeholder et objekt.
yderligere læsning
dette afsnit giver flere ressourcer om emnet, hvis du ønsker at gå dybere.
bøger
- Computer Vision: modeller, læring og indledning, 2012.
- programmering Computer Vision med Python, 2012.
- flere Visningsgeometri i computersyn, 2004.
- Computer Vision: algoritmer og applikationer, 2010.
- Computer Vision: en moderne tilgang, 2002.
artikler
- Computer vision.
- maskinsyn.
- Digital billedbehandling.
Resume
i dette indlæg opdagede du en blid introduktion til feltet computersyn.
specifikt lærte du:
- målet med feltet computersyn og dets særpræg fra billedbehandling.
- hvad gør problemet med computersyn udfordrende.
- typiske problemer eller opgaver, der forfølges i computersyn.
har du spørgsmål?
stil dine spørgsmål i kommentarerne nedenfor, og jeg vil gøre mit bedste for at svare.
udvikle dybe læringsmodeller til Vision i dag!
udvikle dine egne Visionsmodeller i minutter
…med blot et par linjer python kode
Opdag hvordan i min nye e-bog:
Deep Learning For Computer Vision
det giver selvstudie tutorials om emner som:
klassificering, objektdetektering (yolo og rcnn), ansigtsgenkendelse (vggface og facenet), data forberedelse og meget mere…
endelig bringe dyb læring til dine Visionsprojekter
Spring akademikerne over. Bare Resultater.
se hvad der er indeni