Last Updated on July5,2019
コンピュータビジョンは、しばしばCVと略され、コンピュータが写真やビデオなどのデジタル画像の内容をコンピュータが”見て”理解するのを助ける技術を開発しようとする研究分野と定義されています。
コンピュータビジョンの問題は、人々、非常に幼い子供たちによって自明に解決されるため、単純に見えます。 それにもかかわらず、生物学的視覚の限られた理解と、動的でほぼ無限に変化する物理的な世界における視覚知覚の複雑さの両方に基づいて、未解決の
この記事では、コンピュータビジョンの分野への穏やかな紹介を発見するでしょう。
この記事を読んだ後、あなたは知っているでしょう:
- コンピュータビジョンの分野の目標と画像処理からのその明確さ。
- 何がコンピュータビジョンの問題を困難にします。
- コンピュータビジョンで追求される典型的な問題やタスク。
ステップバイステップのチュートリアルやすべての例のPythonソースコードファイルを含む、私の新しい本Deep Learning for Computer Visionでプロジェクトを開始します。
始めましょう。
コンピュータビジョンへの穏やかな紹介
アクセルKristinsonによる写真、some rights reserved。
概要
このチュートリアルは4つの部分に分かれています。:
- コンピュータが見るための欲求
- コンピュータビジョンとは何ですか
- コンピュータビジョンの挑戦
- コンピュータビジョンのタスク
コンピュータが見るための欲求
私たちは、画像にあふれています。
スマートフォンにはカメラがあり、写真やビデオを撮って共有することはかつてないほど簡単で、Instagramのような現代のソーシャルネットワークの信じら
YouTubeは二番目に大きい検索エンジンであり、数百時間のビデオが毎分アップロードされ、数十億のビデオが毎日視聴されています。
インターネットはテキストと画像で構成されています。 テキストを索引付けして検索するのは比較的簡単ですが、画像を索引付けして検索するには、アルゴリズムが画像に含まれるものを知る必要があ 最長の時間のために、画像やビデオの内容は、最高のそれらをアップロードした人によって提供されたメタ記述を使用して説明し、不透明なままでした。
画像データを最大限に活用するには、画像を”見て”コンテンツを理解するコンピュータが必要です。これは、人間にとっても、幼い子供にとっても些細な問題です。
- 人は、彼らが一度見た写真の内容を記述することができます。
- 人は一度しか見たことのないビデオを要約することができます。
- 人は、彼らが前に一度だけ見た顔を認識することができます。
私たちは、私たちの画像やビデオのロックを解除するために、コンピュータから少なくとも同じ機能を必要とします。
コンピュータビジョンのための深い学習で結果をしたいですか?
今私の無料の7日間の電子メールクラッシュコースを取る(サンプルコード付き)。
クリックしてサインアップし、コースの無料のPDF電子ブック版を取得します。
無料のミニコースをダウンロードしてください
コンピュータビジョンとは何ですか?
コンピュータビジョンは、コンピュータが見るのを助ける問題に焦点を当てた研究分野です。
抽象的なレベルでは、コンピュータビジョンの問題の目標は、観測された画像データを使用して世界について何かを推測することです。P>
—ページ83、コンピュータビジョン:モデル、学習、および推論、2012。
それは広く人工知能と機械学習のサブフィールドと呼ばれることができる学際的な分野であり、特殊な方法の使用を含み、一般的な学習アルゴリズ
人工知能とコンピュータビジョンの関係の概要
研究の学際的な領域として、それは異種のエンジニアリングとコンピュータサイエンスの分野の範囲から借りて再利用された技術で、乱雑に見えることができます。
視覚の特定の問題は、手作りの統計的方法で簡単に対処することができますが、別の問題は、一般化された機械学習アルゴリズムの大規模で複雑な
フィールドとしてのコンピュータビジョンは知的フロンティアです。 あらゆるフロンティアのように、それは刺激的で混乱しており、しばしばアピールする信頼できる権限はありません。 多くの有用なアイデアは理論的な根拠を持たず、いくつかの理論は実際には役に立たない;開発された領域は広く散在しており、しばしば一方は他方から完全にアクセスできないように見える。p>
—ページxvii,Computer Vision:A Modern Approach,2002.
コンピュータビジョンの目標は、デジタル画像の内容を理解することです。 典型的には、これは人間の視覚の能力を再現しようとする方法を開発することを含む。
デジタル画像のコンテンツを理解するには、オブジェクト、テキストの説明、三次元モデルなどの画像から説明を抽出する必要があります。
コンピュータビジョンは、画像からの情報の自動抽出です。 情報は、3Dモデル、カメラの位置、オブジェクトの検出と認識から、画像コンテンツのグループ化と検索に至るまで、何でも意味します。
—Page ix,Programming Computer Vision with Python,2012.
コンピュータビジョンと画像処理
コンピュータビジョンは、画像処理とは異なります。
画像処理は、既存の画像から新しい画像を作成するプロセスであり、通常は何らかの方法でコンテンツを簡素化または強化します。 これはデジタル信号処理の一種であり、画像の内容を理解することには関係ありません。
特定のコンピュータビジョンシステムは、例えば前処理画像などの生の入力に画像処理を適用する必要があります。
画像処理の例には、次のものが含まれます。
- 明るさや色などの画像の測光特性を正規化します。
- 画像の測光特性を正規化します。
- 写真内のオブジェクトのセンタリングなど、画像の境界をトリミングします。
- 低照度レベルからのデジタルアーティファクトなど、画像からデジタルノイズを除去します。
コンピュータビジョンの挑戦
コンピュータを見るのを助けることは非常に難しいことが判明しました。
コンピュータビジョンの目標は、画像から有用な情報を抽出することです。 これは驚くほど困難な作業を証明しています; それは最後の四十年にわたるたくさんの理性的で、創造的な心を占め、これにもかかわらず私達は一般目的の”見る機械を造れることからまだ遠い。”
—ページ16、コンピュータビジョン:モデル、学習、および推論、2012。
コンピュータビジョンは、それが人間のためにとても楽であるため、おそらく、簡単に思えます。
当初は、カメラをコンピュータに接続する学生によって解決できる簡単な問題であると考えられていました。 数十年の研究の後、”コンピュータビジョン”は、少なくとも人間のビジョンの能力を満たすという点で、未解決のままです。
コンピュータを見ることは、人工知能の分野の主要な専門家が六十年代に戻って夏の学生のプロジェクトの難易度のレベルにあ 40年後、この任務はまだ未解決であり、手ごわいようです。
—Page xi,Computer Visionの複数のビュージオメトリ,2004.一つの理由は、私たちは人間のビジョンがどのように機能するかを強く把握していないということです。
生物学的視覚を研究するには、目のような知覚器官の理解と、脳内の知覚の解釈が必要です。 多くの進歩は、プロセスをチャート化し、脳を含む任意の研究のように、行くには長い道のりがあるが、システムで使用されるトリックやショートカットを発見するという点で、両方で、行われています。
知覚心理学者は、視覚システムがどのように機能するかを理解しようと数十年を費やしてきたと、彼らはその原則のいくつかを離れていじめるために錯視を考案することができますにもかかわらず、このパズルへの完全な解決策はとらえどころのないまま
—ページ3、Computer Vision:Algorithms and Applications、2010。
それがこのような挑戦的な問題であるもう一つの理由は、視覚的な世界に固有の複雑さのためです。
与えられたオブジェクトは、任意の向き、任意の照明条件、他のオブジェクトからの任意のタイプのオクルージョンなどから見ることができます。 真のビジョンシステムは、無限の数のシーンのいずれかで”見る”ことができ、意味のあるものを抽出することができなければなりません。
コンピュータは、視覚のような無限の問題を開くのではなく、緊密に制約された問題に対してうまく機能します。
コンピュータビジョンのタスク
それにもかかわらず、特に近年、カメラやスマートフォンの光学文字認識や顔検出のためのコモディティシステ
コンピュータビジョンは、その開発の異常な時点であります。 この主題自体は1960年代から存在していたが、コンピュータビジョンのアイデアを使って有用なコンピュータシステムを構築することができたのはごく最近のことである。
—ページxviii、コンピュータビジョン:現代のアプローチ、2002。
コンピュータビジョンに関する2010年の教科書”Computer Vision:Algorithms and Applications”は、コンピュータビジョンで成功したいくつかの高レベルの問題のリストを提供しています。
- 光学式文字認識(OCR)
- 機械検査
- 小売(自動チェックアウトなど)
- 3Dモデル構築(写真測量)
- 医療画像
- 自動車安全
- マッチムーブ(例 映画の中で生きている俳優とCGIをマージ)
- モーションキャプチャ(mocap)
- 監視
- 指紋認識とバイオメトリクス
これは、多くの専門的なタスクと技術
コンピュータビジョンは、古い(例えば、移動ロボットナビゲーション、産業検査、および軍事インテリジェンス)と新しい(例えば、移動ロボットナビゲーション、産業検査、および軍事インテリジェンス)の両方のアプリケーションの多種多様を持っています。 人間のコンピュータ相互作用、デジタルライブラリにおける画像検索、医用画像解析、およびコンピュータグラフィックスにおける合成シーンの現実的なレp>
—ページxvii,Computer Vision:A Modern Approach,2002.
公開されているデジタル写真やビデオの膨大な数を考えると、あなたが遭遇したり、解決に興味がある可能性が高い、より簡単なコンピュータビジョ
多くの一般的なコンピュータビジョンアプリケーションは、写真の中のものを認識しようとしています。:
- オブジェクトの分類:この写真にはどのようなオブジェクトの広範なカテゴリがありますか?
- オブジェクト識別:この写真にはどのタイプのオブジェクトがありますか?
- オブジェクトの検証:写真のオブジェクトですか?
- オブジェクト検出:写真内のオブジェクトはどこにありますか?
- オブジェクトのランドマーク検出:写真内のオブジェクトのための重要なポイントは何ですか?
- オブジェクトのセグメンテーション:どのピクセルが画像内のオブジェクトに属していますか?
- 物体認識:この写真にはどのような物体があり、どこにありますか?
他の一般的な例は、情報検索に関連しています。
さらに読む
このセクションでは、より深く行くために探している場合は、トピックに関するより多くのリソースを提供します。
書籍
- コンピュータビジョン:モデル、学習、および推論、2012。
- Pythonによるコンピュータビジョンのプログラミング、2012年。
- Computer Vision、2004年の複数のビュージオメトリ。
- Computer Vision:Algorithms and Applications,2010.
- Computer Vision:A Modern Approach,2002.
記事
- コンピュータビジョン、ウィキペディア。
- マシンビジョン、Wikipedia。
- デジタル画像処理、Wikipedia。
概要
この記事では、コンピュータビジョンの分野への穏やかな紹介を発見しました。
具体的には、あなたが学んだ:
- コンピュータビジョンの分野の目標と画像処理からのその明確さ。
- 何がコンピュータビジョンの問題を困難にします。
- コンピュータビジョンで追求される典型的な問題やタスク。
何か質問がありますか?
- 画像の測光特性を正規化します。
質問がありますか?
以下のコメントであなたの質問をすると、私は答えるために最善を尽くします。
今日のビジョンのための深い学習モデルを開発!
数分で独自のビジョンモデルを開発
。..pythonコードのわずか数行で
どのように私の新しい電子ブックで発見:
コンピュータビジョンのためのディープラーニング
それはのようなトピックに自..
最後に、あなたのビジョンプロジェクトに深い学習をもたらす
学者をスキップします。 ちょうど結果。