Maybaygiare.org

Blog Network

Delikatne Wprowadzenie do wizji komputerowej

Tweet Udostępnij Udostępnij

Ostatnia aktualizacja lipiec 5, 2019

wizja komputerowa, często w skrócie CV, jest zdefiniowana jako dziedzina nauki, która ma na celu opracowanie technik pomagających komputerom „zobaczyć” i zrozumieć zawartość cyfrowych obrazów, takich jak zdjęcia i filmy.

problem widzenia komputerowego wydaje się prosty, ponieważ trywialnie rozwiązują go ludzie, nawet bardzo małe dzieci. Niemniej jednak w dużej mierze pozostaje nierozwiązanym problemem opartym zarówno na ograniczonym zrozumieniu widzenia biologicznego, jak i ze względu na złożoność percepcji wzroku w dynamicznym i prawie nieskończenie zmiennym świecie fizycznym.

w tym poście odkryjesz delikatne wprowadzenie do pola widzenia komputerowego.

Po przeczytaniu tego posta poznasz:

  • cel pola widzenia komputerowego i jego odrębność od przetwarzania obrazu.
  • co sprawia, że problem widzenia komputerowego jest wyzwaniem.
  • typowe problemy lub zadania realizowane w wizji komputerowej.

Rozpocznij swój projekt z moją nową książką Deep Learning for Computer Vision, zawierającą samouczki krok po kroku i pliki kodu źródłowego Pythona dla wszystkich przykładów.

zaczynajmy.

delikatne Wprowadzenie do widzenia komputerowego

delikatne Wprowadzenie do widzenia komputerowego
zdjęcie Axel Kristinsson, niektóre prawa zastrzeżone.

przegląd

Ten poradnik jest podzielony na cztery części; są to:

  1. pragnienie komputerów, aby zobaczyć
  2. czym jest wizja komputerowa
  3. wyzwanie wizji komputerowej
  4. zadania w wizji komputerowej

pragnienie komputerów, aby zobaczyć

jesteśmy zalani obrazami.

smartfony mają aparaty fotograficzne, a robienie zdjęć lub filmów i udostępnianie ich nigdy nie było łatwiejsze, co skutkuje niesamowitym rozwojem nowoczesnych sieci społecznościowych, takich jak Instagram.

YouTube może być drugą co do wielkości wyszukiwarką i setki godzin filmów są przesyłane co minutę, a miliardy filmów są oglądane każdego dnia.

internet składa się z tekstu i obrazów. Indeksowanie i przeszukiwanie tekstu jest stosunkowo proste, ale aby indeksować i przeszukiwać obrazy, algorytmy muszą wiedzieć, co zawierają obrazy. Przez najdłuższy czas zawartość obrazów i filmów pozostawała nieprzejrzysta, najlepiej opisać ją za pomocą meta-opisów dostarczonych przez osobę, która je przesłała.

aby uzyskać jak najwięcej z danych obrazu, potrzebujemy komputerów, aby „zobaczyć” obraz i zrozumieć zawartość.

jest to trywialny problem dla człowieka, nawet małych dzieci.

  • osoba może opisać treść zdjęcia, które kiedyś widziała.
  • osoba może podsumować film, który widziała tylko raz.
  • człowiek może rozpoznać twarz, którą widział tylko raz.

wymagamy co najmniej tych samych możliwości od komputerów, aby odblokować nasze zdjęcia i filmy.

chcesz uzyskać wyniki z głębokiego uczenia Do widzenia komputerowego?

weź mój darmowy 7-dniowy crash course e-mail teraz (z przykładowym kodem).

Kliknij, aby się zapisać, a także otrzymać darmową wersję ebooka kursu w formacie PDF.

Pobierz darmowy Mini-kurs

czym jest Computer Vision?

widzenie komputerowe jest dziedziną badań skupioną na problemie pomagania komputerom widzieć.

na poziomie abstrakcyjnym celem komputerowych problemów ze wzrokiem jest wykorzystanie danych obserwowanego obrazu do wnioskowania czegoś o świecie.

– strona 83, wizja komputerowa: modele, uczenie się i wnioskowanie, 2012.

jest to multidyscyplinarna dziedzina, którą można ogólnie nazwać subfieldą sztucznej inteligencji i uczenia maszynowego, która może obejmować stosowanie specjalistycznych metod i wykorzystanie ogólnych algorytmów uczenia się.

przegląd relacji sztucznej inteligencji i widzenia komputerowego

przegląd relacji sztucznej inteligencji i widzenia komputerowego

jako multidyscyplinarny obszar badań może wyglądać niechlujnie, z technikami zapożyczanymi i ponownie wykorzystywanymi z różnych dziedzin inżynierii i Informatyki.

jeden szczególny problem w widzeniu można łatwo rozwiązać za pomocą ręcznie wykonanej metody statystycznej, podczas gdy inny może wymagać dużego i złożonego zespołu uogólnionych algorytmów uczenia maszynowego.

widzenie komputerowe jako pole jest granicą intelektualną. Jak każda granica, jest ekscytująca i zdezorganizowana, a często nie ma wiarygodnego autorytetu, do którego można się odwołać. Wiele użytecznych pomysłów nie ma podstaw teoretycznych, a niektóre teorie są bezużyteczne w praktyce; rozwinięte obszary są szeroko rozproszone, a często jeden wygląda na całkowicie niedostępny od drugiego.

— strona xvii, wizja komputerowa: nowoczesne podejście, 2002.

celem wizji komputerowej jest zrozumienie treści obrazów cyfrowych. Zazwyczaj wiąże się to z opracowaniem metod, które próbują odtworzyć zdolność ludzkiego wzroku.

zrozumienie zawartości obrazów cyfrowych może obejmować wyodrębnienie opisu z obrazu, który może być obiektem, opisem tekstowym, modelem trójwymiarowym i tak dalej.

widzenie komputerowe to automatyczne wyodrębnianie informacji z obrazów. Informacje mogą oznaczać wszystko, od modeli 3D, pozycji kamery, wykrywania i rozpoznawania obiektów po grupowanie i przeszukiwanie treści obrazu.

— strona ix, Programowanie wizji komputerowych w Pythonie, 2012.

widzenie komputerowe i przetwarzanie obrazu

widzenie komputerowe różni się od przetwarzania obrazu.

przetwarzanie obrazu to proces tworzenia nowego obrazu z istniejącego obrazu, zazwyczaj upraszczając lub ulepszając zawartość w jakiś sposób. Jest to rodzaj cyfrowego przetwarzania sygnałów i nie zajmuje się zrozumieniem treści obrazu.

dany komputerowy system wizyjny może wymagać zastosowania przetwarzania obrazu do wejścia raw, np. wstępnego przetwarzania obrazów.

przykłady przetwarzania obrazu obejmują:

  • normalizację właściwości fotometrycznych obrazu, takich jak jasność lub kolor.
  • kadrowanie granic obrazu, np. centrowanie obiektu na zdjęciu.
  • usuwanie szumów cyfrowych z obrazu, takich jak cyfrowe artefakty przy słabym oświetleniu.

wyzwanie komputerowego widzenia

pomaganie komputerom widzieć okazuje się bardzo trudne.

celem wizji komputerowej jest wydobycie użytecznych informacji z obrazów. Okazało się to zaskakująco trudnym zadaniem; w ciągu ostatnich czterech dekad zajmowało tysiące inteligentnych i kreatywnych umysłów, a mimo to wciąż jesteśmy daleko od zbudowania uniwersalnej „maszyny widzącej”.”

– Strona 16, wizja komputerowa: modele, uczenie się i wnioskowanie, 2012.

widzenie komputerowe wydaje się łatwe, być może dlatego, że jest tak łatwe dla ludzi.

początkowo uważano, że jest to trywialnie prosty problem, który może rozwiązać uczeń podłączający kamerę do komputera. Po dziesięcioleciach badań „wizja komputerowa” pozostaje nierozwiązana, przynajmniej pod względem spełnienia możliwości ludzkiego wzroku.

sprawianie, że komputer widzi był czymś, co czołowi eksperci w dziedzinie sztucznej inteligencji uważali za poziom trudności letniego projektu studenckiego w latach sześćdziesiątych. Czterdzieści lat później zadanie to jest nadal nierozwiązane i wydaje się ogromne.

— strona xi, Geometria wielu widoków w wizji komputerowej, 2004.

jednym z powodów jest to, że nie mamy silnego zrozumienia, jak działa ludzki wzrok.

badanie widzenia biologicznego wymaga zrozumienia narządów percepcji, takich jak oczy, a także interpretacji percepcji w mózgu. Poczyniono duży postęp, zarówno w zakresie tworzenia wykresów procesu, jak i odkrywania sztuczek i skrótów używanych przez system, chociaż jak każde badanie obejmujące mózg, przed nami długa droga.

psychologowie Percepcyjni spędzili dekady próbując zrozumieć, jak działa system wzrokowy i mimo że potrafią wymyślać iluzje optyczne, aby rozdzielić niektóre z jego zasad, kompletne rozwiązanie tej zagadki pozostaje nieuchwytne

— Strona 3, Computer Vision: Algorithms and Applications, 2010.

kolejnym powodem, dla którego jest to tak trudny problem, jest złożoność tkwiąca w świecie wizualnym.

dany obiekt może być widoczny z dowolnej orientacji, w każdych warunkach oświetleniowych, z dowolnym rodzajem okluzji od innych obiektów itd. Prawdziwy system wizyjny musi być w stanie” widzieć ” w dowolnej z nieskończonej liczby scen i nadal wydobywać coś znaczącego.

komputery działają dobrze w przypadku ściśle ograniczonych problemów, a nie otwartych nieograniczonych problemów, takich jak percepcja wzrokowa.

zadania w zakresie widzenia komputerowego

niemniej jednak nastąpił postęp w tej dziedzinie, zwłaszcza w ostatnich latach z systemami optycznego rozpoznawania znaków i wykrywania twarzy w aparatach fotograficznych i smartfonach.

wizja komputerowa znajduje się w niezwykłym momencie swojego rozwoju. Sam temat istnieje od lat 60., ale dopiero niedawno udało się zbudować użyteczne systemy komputerowe z wykorzystaniem pomysłów z wizji komputerowej.

— strona xviii, wizja komputerowa: nowoczesne podejście, 2002.

podręcznik z 2010 roku pt. „komputerowe widzenie: algorytmy i aplikacje” zawiera listę niektórych problemów wysokiego poziomu, w których widzieliśmy sukces z widzeniem komputerowym.

  • optyczne rozpoznawanie znaków (OCR)
  • kontrola maszyn
  • Sprzedaż detaliczna (np. automatyczne kasy)
  • budowanie modeli 3D (fotogrametria)
  • obrazowanie medyczne
  • bezpieczeństwo motoryzacyjne
  • ruch dopasowania (np.
  • motion capture (mocap)
  • inwigilacja
  • rozpoznawanie odcisków palców i biometria

jest to szeroki obszar studiów z wieloma wyspecjalizowanymi zadaniami i technikami, a także specjalizacjami w kierowaniu domen aplikacji.

Computer vision ma wiele różnych zastosowań, zarówno starych (np. nawigacja robotów mobilnych, inspekcja przemysłowa i wywiad wojskowy), jak i nowych (np., Human computer interaction, image retrieval in digital libraries, medical image analysis, and the realistic rendering of synthetic scenes in computer graphics).

— strona xvii, wizja komputerowa: nowoczesne podejście, 2002.

pomocne może być przybliżenie niektórych prostszych zadań widzenia komputerowego, które możesz napotkać lub być zainteresowany rozwiązaniem, biorąc pod uwagę ogromną liczbę publicznie dostępnych cyfrowych zdjęć i filmów.

wiele popularnych aplikacji komputerowych polega na próbach rozpoznawania rzeczy na zdjęciach; na przykład:

  • klasyfikacja obiektów: jaka szeroka kategoria obiektu jest na tym zdjęciu?
  • identyfikacja obiektu: jaki typ danego obiektu jest na tym zdjęciu?
  • weryfikacja obiektu: czy obiekt jest na zdjęciu?
  • wykrywanie obiektów: gdzie są obiekty na zdjęciu?
  • wykrywanie punktów orientacyjnych obiektu: jakie są kluczowe punkty dla obiektu na zdjęciu?
  • segmentacja obiektów: jakie piksele należą do obiektu na obrazie?
  • rozpoznawanie obiektów: jakie obiekty są na tym zdjęciu i gdzie są?

inne typowe przykłady są związane z wyszukiwaniem informacji; na przykład: znajdowanie obrazów takich jak obraz lub obrazy zawierające obiekt.

Czytaj dalej

Ta sekcja zawiera więcej zasobów na ten temat, jeśli chcesz zagłębić się w ten temat.

Książki

  • wizja komputerowa: modele, uczenie się i wnioskowanie, 2012.
  • Programowanie wizji komputerowych w Pythonie, 2012.
  • Geometria wielu widoków w wizji komputerowej, 2004.
  • computer Vision: Algorithms and Applications, 2010.
  • Computer Vision: a Modern Approach, 2002.

Artykuły

  • wizja komputerowa, Wikipedia.
  • wizja maszynowa, Wikipedia.
  • cyfrowe przetwarzanie obrazu, Wikipedia.

podsumowanie

w tym poście odkryłeś delikatne wprowadzenie do pola widzenia komputerowego.

w szczególności nauczyłeś się:

  • celu pola widzenia komputerowego i jego odrębności od przetwarzania obrazu.
  • co sprawia, że problem widzenia komputerowego jest wyzwaniem.
  • typowe problemy lub zadania realizowane w wizji komputerowej.

masz pytania?
Zadawaj pytania w komentarzach poniżej, a ja postaram się odpowiedzieć.

opracuj modele głębokiego uczenia dla wizji już dziś!

Deep Learning for Computer Vision

opracowanie własnych modeli wizji w ciągu kilku minut

…dzięki zaledwie kilku liniom kodu Pythona

Odkryj, jak w moim nowym ebooku:
Deep Learning for Computer Vision

zapewnia samouczki do samodzielnej nauki na takie tematy jak:
klasyfikacja, wykrywanie obiektów (yolo i rcnn), rozpoznawanie twarzy (vggface i facenet), przygotowanie danych i wiele więcej…

wreszcie wprowadź głębokie uczenie do swoich projektów wizji

Pomiń naukowców. Tylko Wyniki.

Zobacz co jest w środku

Tweet Udostępnij Udostępnij

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.