Ide-ide terbaru dari pengenalan pola. Kasing sederhana, pemisahan satu dimensi

Secara umum, tiga metode pengenalan pola dapat dibedakan: Metode enumerasi. Dalam hal ini, perbandingan dibuat dengan database, di mana untuk setiap jenis objek semua kemungkinan modifikasi tampilan disajikan. Misalnya, untuk pengenalan gambar optik, Anda dapat menerapkan metode enumerasi jenis objek pada berbagai sudut, skala, perpindahan, deformasi, dll. Untuk huruf, Anda perlu mengulangi font, properti font, dll. kasus pengenalan gambar suara, masing-masing, perbandingan dengan beberapa pola terkenal (misalnya, kata yang diucapkan oleh beberapa orang).

Pendekatan kedua adalah analisis yang lebih mendalam dari karakteristik gambar. Dalam hal pengenalan optik, ini mungkin penentuan berbagai karakteristik geometris. Sampel suara dalam hal ini dikenai frekuensi, analisis amplitudo, dll.

Metode selanjutnya adalah penggunaan jaringan syaraf tiruan (JST). Metode ini memerlukan sejumlah besar contoh tugas pengenalan selama pelatihan, atau struktur jaringan saraf khusus yang memperhitungkan kekhususan tugas ini. Namun, itu dibedakan oleh efisiensi dan produktivitas yang lebih tinggi.

4. Sejarah pengenalan pola

Mari kita pertimbangkan secara singkat formalisme matematika dari pengenalan pola. Sebuah objek dalam pengenalan pola dijelaskan oleh seperangkat karakteristik dasar (fitur, properti). Karakteristik utama dapat dari sifat yang berbeda: mereka dapat diambil dari himpunan terurut dari jenis garis nyata, atau dari himpunan diskrit (yang, bagaimanapun, juga dapat diberkahi dengan struktur). Pemahaman tentang objek ini konsisten baik dengan kebutuhan aplikasi praktis pengenalan pola dan dengan pemahaman kita tentang mekanisme persepsi manusia terhadap suatu objek. Memang, kami percaya bahwa ketika seseorang mengamati (mengukur) suatu objek, informasi tentangnya datang melalui sejumlah sensor yang terbatas (saluran yang dianalisis) ke otak, dan setiap sensor dapat dikaitkan dengan karakteristik objek yang sesuai. Selain fitur yang sesuai dengan pengukuran objek kami, ada juga fitur yang dipilih, atau sekelompok fitur, yang kami sebut fitur klasifikasi, dan mencari tahu nilainya untuk vektor X yang diberikan adalah tugas yang alami. dan sistem pengenalan buatan bekerja.

Jelas bahwa untuk menetapkan nilai fitur-fitur ini, perlu memiliki informasi tentang bagaimana fitur-fitur yang diketahui terkait dengan yang mengklasifikasikan. Informasi tentang hubungan ini diberikan dalam bentuk preseden, yaitu serangkaian deskripsi objek dengan nilai fitur klasifikasi yang diketahui. Dan menurut informasi preseden ini, diperlukan untuk membangun aturan keputusan yang akan mengatur deskripsi arbitrer objek dari nilai fitur klasifikasinya.

Pemahaman tentang masalah pengenalan pola ini telah ditetapkan dalam sains sejak tahun 50-an abad terakhir. Dan kemudian diperhatikan bahwa produksi seperti itu sama sekali bukan hal baru. Metode analisis data statistik yang terbukti baik, yang secara aktif digunakan untuk banyak tugas praktis, seperti, misalnya, diagnosa teknis, dihadapkan dengan formulasi seperti itu dan sudah ada. Oleh karena itu, langkah pertama pengenalan pola dilewatkan di bawah tanda pendekatan statistik, yang mendikte masalah utama.

Pendekatan statistik didasarkan pada gagasan bahwa ruang awal objek adalah ruang probabilistik, dan fitur (karakteristik) objek adalah variabel acak yang diberikan padanya. Kemudian tugas ilmuwan data adalah mengajukan hipotesis statistik tentang distribusi fitur, atau lebih tepatnya tentang ketergantungan klasifikasi fitur pada yang lain, dari beberapa pertimbangan. Hipotesis statistik, sebagai suatu peraturan, adalah seperangkat fungsi distribusi fitur yang ditentukan secara parametrik. Hipotesis statistik yang khas dan klasik adalah hipotesis normalitas distribusi ini (ada banyak sekali variasi hipotesis semacam itu dalam statistik). Setelah merumuskan hipotesis, tinggal menguji hipotesis ini pada data preseden. Pemeriksaan ini terdiri dalam memilih beberapa distribusi dari set distribusi yang diberikan (parameter hipotesis distribusi) dan menilai keandalan (interval kepercayaan) dari pilihan ini. Sebenarnya, fungsi distribusi ini adalah jawaban untuk masalah tersebut, hanya objek yang diklasifikasikan tidak secara unik, tetapi dengan beberapa kemungkinan milik kelas. Ahli statistik juga telah mengembangkan pembenaran asimtotik untuk metode tersebut. Pembenaran semacam itu dibuat sesuai dengan skema berikut: kualitas fungsional tertentu dari pilihan distribusi (interval kepercayaan) ditetapkan dan ditunjukkan bahwa dengan peningkatan jumlah preseden, pilihan kami dengan probabilitas yang cenderung 1 menjadi benar dalam arti fungsional ini (interval kepercayaan cenderung 0). Ke depan, kita dapat mengatakan bahwa pandangan statistik dari masalah pengenalan ternyata sangat bermanfaat tidak hanya dalam hal algoritma yang dikembangkan (yang mencakup metode analisis klaster dan diskriminan, regresi nonparametrik, dll.), tetapi juga kemudian memimpin Vapnik untuk membuat teori pengakuan statistik yang mendalam.

Namun demikian, ada argumen kuat yang mendukung fakta bahwa masalah pengenalan pola tidak direduksi menjadi statistik. Masalah seperti itu, pada prinsipnya, dapat dipertimbangkan dari sudut pandang statistik, dan hasil penyelesaiannya dapat ditafsirkan secara statistik. Untuk melakukan ini, hanya perlu mengasumsikan bahwa ruang objek dari masalah adalah probabilistik. Tetapi dari sudut pandang instrumentalisme, kriteria keberhasilan interpretasi statistik dari metode pengenalan tertentu hanya dapat menjadi pembenaran untuk metode ini dalam bahasa statistik sebagai cabang matematika. Pembenaran di sini berarti pengembangan persyaratan dasar untuk masalah yang menjamin keberhasilan dalam menerapkan metode ini. Namun, saat ini, untuk sebagian besar metode pengenalan, termasuk yang langsung muncul dalam kerangka pendekatan statistik, pembenaran yang memuaskan seperti itu belum ditemukan. Selain itu, algoritma statistik yang paling umum digunakan saat ini, seperti diskriminan linier Fisher, jendela Parzen, algoritma EM, tetangga terdekat, belum lagi jaringan kepercayaan Bayesian, memiliki sifat heuristik yang sangat menonjol dan mungkin memiliki interpretasi yang berbeda dari statistik. Dan akhirnya, untuk semua hal di atas, harus ditambahkan bahwa selain perilaku asimtotik metode pengenalan, yang merupakan masalah utama statistik, praktik pengenalan menimbulkan pertanyaan tentang kompleksitas komputasi dan struktural metode yang jauh melampaui kerangka teori probabilitas saja.

Secara total, bertentangan dengan aspirasi ahli statistik untuk menganggap pengenalan pola sebagai bagian dari statistik, ide-ide yang sama sekali berbeda dimasukkan ke dalam praktik dan ideologi pengakuan. Salah satunya disebabkan oleh penelitian di bidang pengenalan pola visual dan didasarkan pada analogi berikut.

Seperti yang telah dicatat, dalam kehidupan sehari-hari orang terus-menerus memecahkan (seringkali secara tidak sadar) masalah mengenali berbagai situasi, gambar pendengaran dan visual. Kemampuan komputer seperti itu, paling banter, adalah masalah masa depan. Dari sini, beberapa pelopor pengenalan pola menyimpulkan bahwa solusi dari masalah ini pada komputer harus, secara umum, mensimulasikan proses berpikir manusia. Upaya paling terkenal untuk mendekati masalah dari sisi ini adalah studi terkenal F. Rosenblatt tentang perceptrons.

Pada pertengahan 50-an, tampaknya ahli neurofisiologi telah memahami prinsip-prinsip fisik otak (dalam buku "The New Mind of the King", fisikawan teoretis Inggris terkenal R. Penrose dengan menarik mempertanyakan model jaringan saraf otak, memperkuat peran penting efek mekanika kuantum dalam fungsinya , meskipun, bagaimanapun, model ini dipertanyakan sejak awal. Berdasarkan penemuan ini, F. Rosenblatt mengembangkan model untuk belajar mengenali pola visual, yang disebutnya perceptron. Perceptron Rosenblatt adalah fungsi berikut (Gbr. 1):

Gambar 1. Skema Perceptron

Pada input, perceptron menerima vektor objek, yang dalam karya Rosenblatt adalah vektor biner yang menunjukkan piksel layar mana yang dihitamkan oleh gambar dan mana yang tidak. Selanjutnya, masing-masing tanda diumpankan ke input neuron, yang tindakannya merupakan perkalian sederhana dengan bobot neuron tertentu. Hasilnya diumpankan ke neuron terakhir, yang menambahkannya dan membandingkan jumlah totalnya dengan ambang tertentu. Bergantung pada hasil perbandingan, objek input X diakui perlu atau tidak. Kemudian tugas pembelajaran pengenalan pola adalah memilih bobot neuron dan nilai threshold sehingga perceptron akan memberikan jawaban yang benar pada gambar visual preseden. Rosenblatt percaya bahwa fungsi yang dihasilkan akan baik dalam mengenali gambar visual yang diinginkan bahkan jika objek input tidak termasuk dalam preseden. Dari pertimbangan bionik, ia juga menemukan metode untuk memilih bobot dan ambang batas, yang tidak akan kita bahas. Anggap saja pendekatannya berhasil dalam sejumlah masalah pengenalan dan memunculkan seluruh lini penelitian tentang algoritma pembelajaran berdasarkan jaringan saraf, di mana perceptron adalah kasus khusus.

Selanjutnya, berbagai generalisasi perceptron ditemukan, fungsi neuron menjadi rumit: sekarang neuron tidak hanya dapat mengalikan angka input atau menambahkannya dan membandingkan hasilnya dengan ambang batas, tetapi menerapkan fungsi yang lebih kompleks padanya. Gambar 2 menunjukkan salah satu komplikasi neuron ini:

Beras. 2 Diagram jaringan saraf.

Selain itu, topologi jaringan saraf bisa jauh lebih rumit daripada yang dipertimbangkan oleh Rosenblatt, misalnya, ini:

Beras. 3. Diagram jaringan saraf Rosenblatt.

Komplikasi menyebabkan peningkatan jumlah parameter yang dapat disesuaikan selama pelatihan, tetapi pada saat yang sama meningkatkan kemampuan untuk menyesuaikan dengan pola yang sangat kompleks. Penelitian di bidang ini sekarang berlangsung di dua bidang yang terkait erat - baik berbagai topologi jaringan dan berbagai metode penyetelan sedang dipelajari.

Jaringan saraf saat ini tidak hanya alat untuk memecahkan masalah pengenalan pola, tetapi telah digunakan dalam penelitian tentang memori asosiatif dan kompresi gambar. Meskipun penelitian ini sangat tumpang tindih dengan masalah pengenalan pola, ini adalah bagian terpisah dari sibernetika. Untuk pengenalan saat ini, jaringan saraf tidak lebih dari serangkaian pemetaan yang sangat spesifik dan ditentukan secara parametrik, yang dalam hal ini tidak memiliki keunggulan signifikan dibandingkan banyak model pembelajaran serupa lainnya yang akan dicantumkan secara singkat di bawah ini.

Sehubungan dengan penilaian peran jaringan saraf untuk pengenalan yang tepat (yaitu, bukan untuk bionik, yang sangat penting sekarang), saya ingin mencatat yang berikut: jaringan saraf, menjadi objek yang sangat kompleks untuk matematika analisis, dengan penggunaan yang tepat, memungkinkan kita menemukan hukum yang sangat non-sepele dalam data. Kesulitan mereka untuk analisis, dalam kasus umum, dijelaskan oleh struktur kompleks mereka dan, sebagai akibatnya, kemungkinan yang hampir tidak ada habisnya untuk menggeneralisasi berbagai keteraturan. Tetapi keuntungan ini, seperti yang sering terjadi, merupakan sumber kesalahan potensial, kemungkinan pelatihan ulang. Seperti yang akan dibahas nanti, pandangan ganda tentang prospek model pembelajaran apa pun adalah salah satu prinsip pembelajaran mesin.

Arah populer lainnya dalam pengenalan adalah aturan logis dan pohon keputusan. Dibandingkan dengan metode pengenalan yang disebutkan di atas, metode ini paling aktif menggunakan gagasan untuk mengekspresikan pengetahuan kita tentang bidang subjek dalam bentuk struktur yang mungkin paling alami (pada tingkat sadar) - aturan logis. Aturan logika dasar berarti pernyataan seperti "jika fitur yang tidak diklasifikasikan berada dalam rasio X, maka fitur yang diklasifikasikan berada dalam rasio Y". Contoh aturan seperti itu dalam diagnosa medis adalah sebagai berikut: jika usia pasien lebih dari 60 tahun dan dia sebelumnya pernah mengalami serangan jantung, maka jangan lakukan operasi - risiko hasil negatif tinggi.

Untuk mencari aturan logika dalam data, diperlukan 2 hal: menentukan ukuran “informatif” aturan dan ruang aturan. Dan tugas menemukan aturan setelah itu berubah menjadi tugas pencacahan lengkap atau sebagian dalam ruang aturan untuk menemukan yang paling informatif dari mereka. Definisi konten informasi dapat diperkenalkan dalam berbagai cara, dan kami tidak akan membahasnya, mengingat ini juga merupakan beberapa parameter model. Ruang pencarian didefinisikan dengan cara standar.

Setelah menemukan aturan yang cukup informatif, fase “perakitan” aturan ke dalam pengklasifikasi akhir dimulai. Tanpa membahas secara mendalam masalah yang muncul di sini (dan jumlahnya cukup banyak), kami mencantumkan 2 metode utama "perakitan". Jenis pertama adalah daftar linier. Jenis kedua adalah voting berbobot, ketika bobot tertentu diberikan untuk setiap aturan, dan objek diberikan oleh pengklasifikasi ke kelas yang jumlah aturannya paling banyak dipilih.

Faktanya, fase pembuatan aturan dan fase "perakitan" dilakukan bersama-sama dan, ketika membangun pemungutan suara atau daftar berbobot, pencarian aturan pada bagian-bagian dari data kasus dipanggil lagi dan lagi untuk memastikan kesesuaian yang lebih baik antara data dan model.

Metode iterasi. Pada metode ini dilakukan perbandingan dengan database tertentu, dimana untuk setiap objek terdapat pilihan yang berbeda untuk memodifikasi tampilan. Misalnya, untuk pengenalan gambar optik, Anda dapat menerapkan metode iterasi pada sudut atau skala yang berbeda, offset, deformasi, dll. Untuk huruf, Anda dapat mengulangi font atau propertinya. Dalam hal pengenalan pola suara, ada perbandingan dengan beberapa pola yang dikenal (sebuah kata yang diucapkan oleh banyak orang). Selanjutnya, analisis yang lebih dalam dari karakteristik gambar dilakukan. Dalam hal pengenalan optik, ini mungkin definisi karakteristik geometris. Sampel suara dalam hal ini dikenai analisis frekuensi dan amplitudo.

Cara selanjutnya adalah penggunaan jaringan syaraf tiruan(IN). Ini membutuhkan sejumlah besar contoh tugas pengenalan, atau struktur jaringan saraf khusus yang memperhitungkan kekhususan tugas ini. Namun, bagaimanapun, metode ini ditandai dengan efisiensi dan produktivitas yang tinggi.

Metode berdasarkan perkiraan kepadatan distribusi nilai fitur. Dipinjam dari teori klasik keputusan statistik, di mana objek studi dianggap sebagai realisasi dari variabel acak multidimensi yang didistribusikan dalam ruang fitur menurut beberapa hukum. Mereka didasarkan pada skema pengambilan keputusan Bayesian, yang mengacu pada probabilitas awal objek milik kelas tertentu dan kepadatan distribusi fitur bersyarat.

Pengelompokan metode berdasarkan estimasi densitas distribusi nilai ciri berhubungan langsung dengan metode analisis diskriminan. Pendekatan Bayesian untuk pengambilan keputusan adalah salah satu metode parametrik yang paling berkembang dalam statistik modern, di mana ekspresi analitis dari hukum distribusi (hukum normal) dianggap diketahui dan hanya sejumlah kecil parameter (vektor rata-rata dan matriks kovarians). ) perlu diperkirakan. Kesulitan utama dalam menerapkan metode ini dianggap sebagai kebutuhan untuk mengingat seluruh set pelatihan untuk menghitung perkiraan kepadatan dan sensitivitas yang tinggi terhadap set pelatihan.

Metode berdasarkan asumsi tentang kelas fungsi keputusan. Dalam kelompok ini, jenis fungsi keputusan dianggap diketahui dan kualitas fungsionalnya diberikan. Berdasarkan fungsional ini, pendekatan optimal untuk fungsi keputusan ditemukan dari urutan pelatihan. Fungsi kualitas aturan keputusan biasanya dikaitkan dengan kesalahan. Keuntungan utama dari metode ini adalah kejelasan rumusan matematika dari masalah pengenalan. Kemungkinan mengekstraksi pengetahuan baru tentang sifat suatu objek, khususnya, pengetahuan tentang mekanisme interaksi atribut, secara mendasar dibatasi di sini oleh struktur interaksi tertentu, yang ditetapkan dalam bentuk fungsi keputusan yang dipilih.

Metode perbandingan prototipe. Ini adalah metode pengenalan ekstensional yang paling mudah dalam praktiknya. Ini berlaku ketika kelas yang dapat dikenali ditampilkan sebagai kelas geometris kompak. Kemudian pusat pengelompokan geometris (atau objek yang paling dekat dengan pusat) dipilih sebagai titik prototipe.

Untuk mengklasifikasikan objek tak tentu, prototipe yang paling dekat dengannya ditemukan, dan objek tersebut termasuk dalam kelas yang sama dengannya. Jelas, tidak ada gambar umum yang terbentuk dalam metode ini. Berbagai jenis jarak dapat digunakan sebagai ukuran.

Metode k tetangga terdekat. Metode ini terletak pada kenyataan bahwa ketika mengklasifikasikan objek yang tidak diketahui, ditemukan sejumlah (k) ruang fitur terdekat secara geometris dari tetangga terdekat lainnya yang sudah diketahui milik suatu kelas. Keputusan untuk menetapkan objek yang tidak diketahui dibuat dengan menganalisis informasi tentang tetangga terdekatnya. Kebutuhan untuk mengurangi jumlah objek dalam sampel pelatihan (preseden diagnostik) adalah kerugian dari metode ini, karena ini mengurangi keterwakilan sampel pelatihan.

Berdasarkan fakta bahwa algoritma pengenalan yang berbeda berperilaku berbeda pada sampel yang sama, muncul pertanyaan tentang aturan keputusan sintetis yang akan menggunakan kekuatan semua algoritma. Untuk ini, ada metode sintetis atau seperangkat aturan keputusan yang menggabungkan aspek paling positif dari masing-masing metode.

Sebagai kesimpulan dari tinjauan metode pengenalan, kami menyajikan esensi di atas dalam tabel ringkasan, menambahkan beberapa metode lain yang digunakan dalam praktik.

Tabel 1. Tabel klasifikasi metode pengenalan, perbandingan area aplikasi dan batasannya

Klasifikasi metode pengenalan

Area aplikasi

Keterbatasan (kekurangan)

Metode pengenalan intensif

Metode berdasarkan perkiraan kepadatan

Masalah dengan distribusi yang diketahui (normal), kebutuhan untuk mengumpulkan statistik yang besar

Kebutuhan untuk menghitung keseluruhan set pelatihan selama pengenalan, sensitivitas tinggi terhadap non-representatif dari set pelatihan dan artefak

Metode berbasis asumsi

Kelas harus dapat dipisahkan dengan baik

Bentuk fungsi keputusan harus diketahui terlebih dahulu. Ketidakmungkinan untuk mempertimbangkan pengetahuan baru tentang korelasi antar fitur

Metode Boolean

Masalah dimensi kecil

Ketika memilih aturan keputusan logis, enumerasi lengkap diperlukan. Intensitas tenaga kerja yang tinggi

Metode Linguistik

Tugas menentukan tata bahasa untuk serangkaian pernyataan (deskripsi objek) tertentu sulit untuk diformalkan. Masalah teoretis yang belum terselesaikan

Metode pengenalan ekstensional

Metode perbandingan prototipe

Masalah dimensi kecil ruang fitur

Ketergantungan yang tinggi dari hasil klasifikasi pada metrik. Metrik optimal tidak diketahui

k metode tetangga terdekat

Ketergantungan yang tinggi dari hasil klasifikasi pada metrik. Kebutuhan untuk enumerasi lengkap dari sampel pelatihan selama pengakuan. Kompleksitas komputasi

Algoritma Perhitungan Nilai (ABO)

Masalah dimensi kecil dalam hal jumlah kelas dan fitur

Ketergantungan hasil klasifikasi pada metrik. Kebutuhan untuk enumerasi lengkap dari sampel pelatihan selama pengakuan. Kompleksitas teknis yang tinggi dari metode ini

Aturan keputusan kolektif (CRC) adalah metode sintetis.

Masalah dimensi kecil dalam hal jumlah kelas dan fitur

Kompleksitas teknis metode yang sangat tinggi, sejumlah masalah teoretis yang belum terselesaikan, baik dalam menentukan bidang kompetensi metode tertentu, maupun dalam metode tertentu itu sendiri.

Minggu, 29 Mar 2015

Saat ini, ada banyak tugas di mana diperlukan untuk membuat beberapa keputusan tergantung pada keberadaan objek dalam gambar atau untuk mengklasifikasikannya. Kemampuan untuk "mengenali" dianggap sebagai properti utama makhluk biologis, sementara sistem komputer tidak sepenuhnya memiliki properti ini.

Pertimbangkan elemen umum dari model klasifikasi.

Kelas- satu set objek yang memiliki sifat umum. Untuk objek dari kelas yang sama, kehadiran "kesamaan" diasumsikan. Untuk tugas pengenalan, jumlah kelas yang sewenang-wenang dapat ditentukan, lebih dari 1. Jumlah kelas dilambangkan dengan angka S. Setiap kelas memiliki label pengidentifikasi kelasnya sendiri.

Klasifikasi- proses pemberian label kelas ke objek, menurut beberapa deskripsi properti objek ini. Classifier adalah perangkat yang menerima sekumpulan fitur dari suatu objek sebagai input dan menghasilkan label kelas sebagai hasilnya.

Verifikasi- proses mencocokkan instance objek dengan model objek tunggal atau deskripsi kelas.

Di bawah jalan kita akan memahami nama area di ruang atribut, di mana banyak objek atau fenomena dunia material ditampilkan. tanda- deskripsi kuantitatif dari properti tertentu dari objek atau fenomena yang diteliti.

ruang fitur ini adalah ruang dimensi-N yang ditentukan untuk tugas pengenalan yang diberikan, di mana N adalah sejumlah fitur terukur yang tetap untuk objek apa pun. Vektor dari ruang fitur x yang sesuai dengan objek masalah pengenalan adalah vektor berdimensi-N dengan komponen (x_1,x_2,…,x_N), yang merupakan nilai fitur untuk objek yang diberikan.

Dengan kata lain, pengenalan pola dapat didefinisikan sebagai penugasan data awal ke kelas tertentu dengan mengekstraksi fitur atau properti penting yang mencirikan data ini dari massa umum detail yang tidak relevan.

Contoh masalah klasifikasi adalah:

  • pengenalan karakter;
  • pengenalan suara;
  • menegakkan diagnosis medis;
  • Prakiraan Cuaca;
  • pengenalan wajah
  • klasifikasi dokumen, dll.

Paling sering, bahan sumbernya adalah gambar yang diterima dari kamera. Tugas dapat dirumuskan sebagai mendapatkan vektor fitur untuk setiap kelas dalam gambar yang dipertimbangkan. Proses tersebut dapat dilihat sebagai proses pengkodean, yang terdiri dari pemberian nilai untuk setiap fitur dari ruang fitur untuk setiap kelas.

Jika kita mempertimbangkan 2 kelas objek: dewasa dan anak-anak. Sebagai fitur, Anda dapat memilih tinggi dan berat badan. Sebagai berikut dari gambar, kedua kelas ini membentuk dua set yang tidak berpotongan, yang dapat dijelaskan oleh fitur yang dipilih. Namun, tidak selalu mungkin untuk memilih parameter terukur yang benar sebagai fitur kelas. Misalnya, parameter yang dipilih tidak cocok untuk membuat kelas pemain sepak bola dan pemain bola basket yang tidak tumpang tindih.

Tugas pengenalan kedua adalah pemilihan fitur atau properti karakteristik dari gambar asli. Tugas ini dapat dikaitkan dengan preprocessing. Jika kita mempertimbangkan tugas pengenalan suara, kita dapat membedakan fitur-fitur seperti vokal dan konsonan. Atribut harus menjadi properti karakteristik dari kelas tertentu, sementara menjadi umum untuk kelas ini. Tanda yang menjadi ciri perbedaan antara – tanda antar kelas. Fitur umum untuk semua kelas tidak membawa informasi yang berguna dan tidak dianggap sebagai fitur dalam masalah pengenalan. Pilihan fitur adalah salah satu tugas penting yang terkait dengan pembangunan sistem pengenalan.

Setelah fitur ditentukan, maka perlu ditentukan prosedur keputusan yang optimal untuk klasifikasi. Pertimbangkan sistem pengenalan pola yang dirancang untuk mengenali berbagai kelas M, dilambangkan sebagai m_1,m_2,…,m 3. Kemudian kita dapat mengasumsikan bahwa ruang gambar terdiri dari M daerah, masing-masing berisi titik-titik yang sesuai dengan gambar dari satu kelas. Kemudian masalah pengenalan dapat dianggap sebagai konstruksi batas yang memisahkan kelas M berdasarkan vektor pengukuran yang diterima.

Penyelesaian masalah preprocessing citra, ekstraksi ciri dan masalah mendapatkan solusi dan klasifikasi yang optimal biasanya dikaitkan dengan kebutuhan untuk mengevaluasi sejumlah parameter. Hal ini menyebabkan masalah estimasi parameter. Selain itu, jelas bahwa ekstraksi fitur dapat menggunakan informasi tambahan berdasarkan sifat kelas.

Perbandingan objek dapat dilakukan atas dasar representasi mereka dalam bentuk vektor pengukuran. Lebih mudah untuk mewakili data pengukuran sebagai bilangan real. Kemudian persamaan vektor ciri dari dua objek dapat digambarkan dengan menggunakan jarak Euclidean.

di mana d adalah dimensi dari vektor fitur.

Ada 3 kelompok metode pengenalan pola:

  • Perbandingan sampel. Golongan ini meliputi klasifikasi menurut mean terdekat, klasifikasi menurut jarak ke tetangga terdekat. Metode pengenalan struktural juga dapat dimasukkan dalam kelompok pembanding sampel.
  • Metode Statistik. Sesuai dengan namanya, metode statistik menggunakan beberapa informasi statistik ketika memecahkan masalah pengenalan. Metode menentukan milik suatu objek ke kelas tertentu berdasarkan probabilitas.Dalam beberapa kasus, ini turun untuk menentukan probabilitas a posteriori suatu objek milik kelas tertentu, asalkan fitur dari objek ini telah mengambil yang sesuai nilai-nilai. Contohnya adalah metode aturan keputusan Bayesian.
  • Jaringan saraf. Kelas terpisah dari metode pengenalan. Ciri khas dari orang lain adalah kemampuan untuk belajar.

Klasifikasi menurut cara terdekat

Dalam pendekatan klasik pengenalan pola, di mana objek yang tidak diketahui untuk klasifikasi direpresentasikan sebagai vektor fitur dasar. Sistem pengenalan berbasis fitur dapat dikembangkan dengan berbagai cara. Vektor-vektor ini dapat diketahui sistem terlebih dahulu sebagai hasil pelatihan atau diprediksi secara real time berdasarkan beberapa model.

Algoritma klasifikasi sederhana terdiri dari pengelompokan data referensi kelas menggunakan vektor harapan kelas (mean).

di mana x(i,j) adalah fitur referensi ke-j dari kelas i, n_j adalah jumlah vektor referensi dari kelas i.

Kemudian objek yang tidak diketahui akan menjadi milik kelas i jika lebih dekat dengan vektor harapan kelas i daripada dengan vektor harapan kelas lain. Metode ini cocok untuk masalah di mana titik-titik setiap kelas terletak secara kompak dan jauh dari titik-titik kelas lainnya.

Kesulitan akan muncul jika kelas memiliki struktur yang sedikit lebih kompleks, misalnya seperti pada gambar. Dalam hal ini, kelas 2 dibagi menjadi dua bagian yang tidak tumpang tindih, yang digambarkan dengan buruk oleh nilai rata-rata tunggal. Selain itu, kelas 3 terlalu memanjang, sampel kelas 3 dengan nilai koordinat x_2 yang besar lebih dekat dengan nilai rata-rata kelas 1 daripada kelas 3.

Masalah yang dijelaskan dalam beberapa kasus dapat diselesaikan dengan mengubah perhitungan jarak.

Kami akan mempertimbangkan karakteristik "hamburan" nilai kelas - _i, di sepanjang setiap arah koordinat i. Standar deviasi sama dengan akar kuadrat dari varians. Jarak Euclidean berskala antara vektor x dan vektor harapan x_c adalah

Rumus jarak ini akan mengurangi jumlah kesalahan klasifikasi, tetapi pada kenyataannya, sebagian besar masalah tidak dapat diwakili oleh kelas yang begitu sederhana.

Klasifikasi berdasarkan jarak ke tetangga terdekat

Pendekatan lain untuk klasifikasi adalah dengan menetapkan vektor fitur x yang tidak diketahui ke kelas yang vektor ini paling dekat dengan sampel terpisah. Aturan ini disebut aturan tetangga terdekat. Klasifikasi tetangga terdekat bisa lebih efisien bahkan ketika kelasnya kompleks atau ketika kelas tumpang tindih.

Pendekatan ini tidak memerlukan asumsi tentang model distribusi vektor fitur dalam ruang. Algoritme hanya menggunakan informasi tentang sampel referensi yang diketahui. Metode solusi didasarkan pada penghitungan jarak x ke setiap sampel dalam database dan mencari jarak minimum. Keuntungan dari pendekatan ini jelas:

  • kapan saja Anda dapat menambahkan sampel baru ke database;
  • struktur data pohon dan kisi mengurangi jumlah jarak yang dihitung.

Selain itu, solusinya akan lebih baik jika Anda mencari di database bukan untuk satu tetangga terdekat, tetapi untuk k. Kemudian, untuk k > 1, ini memberikan sampel terbaik dari distribusi vektor dalam ruang d-dimensi. Namun, efisiensi penggunaan nilai k tergantung pada apakah ada cukup di setiap wilayah ruang. Jika ada lebih dari dua kelas, maka lebih sulit untuk membuat keputusan yang tepat.

literatur

  • M.Castrilon, . O. Deniz, . D. Hernández dan J. Lorenzo, “Perbandingan detektor fitur wajah dan wajah berdasarkan kerangka kerja deteksi objek umum Viola-Jones,” International Journal of Computer Vision, no.22, pp. 481-494, 2011.
  • Y.-Q. Wang, "Analisis Algoritma Deteksi Wajah Viola-Jones," Jurnal IPOL, 2013.
  • L. Shapiro dan D. Stockman, Visi komputer, Binom. Lab Pengetahuan, 2006.
  • Z.N.G., Metode pengenalan dan penerapannya, radio Soviet, 1972.
  • J. Tu, R. Gonzalez, Prinsip Matematika Pengenalan Pola, Moskow: "Mir" Moskow, 1974.
  • Khan, H. Abdullah dan M. Shamian Bin Zainal, "Algoritme deteksi mata dan mulut yang efisien menggunakan kombinasi viola jones dan deteksi piksel warna kulit" International Journal of Engineering and Applied Sciences, no. Vol. 3 tidak 4, 2013.
  • V. Gaede dan O. Gunther, "Metode Akses Multidimensi," Survei Komputasi ACM, hal. 170-231, 1998.
  • tutorial

Untuk waktu yang lama saya ingin menulis artikel umum yang berisi dasar-dasar Pengenalan Gambar, semacam panduan tentang metode dasar, memberi tahu kapan harus menerapkannya, tugas apa yang mereka selesaikan, apa yang bisa dilakukan di malam hari sambil berlutut, dan apa yang lebih baik untuk tidak dipikirkan tanpa memiliki tim yang terdiri dari 20 orang.

Saya telah menulis beberapa artikel tentang Pengenalan Optik untuk waktu yang lama, jadi beberapa kali sebulan berbagai orang menulis kepada saya dengan pertanyaan tentang topik ini. Terkadang Anda merasa bahwa Anda hidup bersama mereka di dunia yang berbeda. Di satu sisi, Anda memahami bahwa seseorang kemungkinan besar adalah seorang profesional dalam topik terkait, tetapi hanya tahu sedikit tentang metode pengenalan optik. Dan hal yang paling menjengkelkan adalah dia mencoba menerapkan metode dari bidang pengetahuan terdekat, yang logis, tetapi tidak berfungsi sepenuhnya dalam Pengenalan Gambar, tetapi tidak memahami ini dan sangat tersinggung jika dia mulai mengatakan sesuatu kepadanya dari awal. sangat mendasar. Dan mengingat menceritakan dari dasar adalah banyak waktu, yang seringkali tidak ada, itu menjadi lebih menyedihkan.

Artikel ini dirancang agar seseorang yang belum pernah berurusan dengan metode pengenalan gambar dapat, dalam 10-15 menit, membuat di kepalanya gambaran dasar tertentu tentang dunia yang sesuai dengan topik, dan memahami ke arah mana ia harus menggali. Banyak metode yang dijelaskan di sini dapat diterapkan pada radar dan pemrosesan audio.
Saya akan mulai dengan beberapa prinsip yang selalu kami sampaikan kepada calon pelanggan, atau orang yang ingin mulai melakukan Pengenalan Optik:

  • Saat memecahkan masalah, selalu lakukan dari yang paling sederhana. Jauh lebih mudah untuk menggantung label oranye pada seseorang daripada mengikuti seseorang, menyorotnya dalam kaskade. Jauh lebih mudah untuk mengambil kamera dengan resolusi lebih tinggi daripada mengembangkan algoritme resolusi super.
  • Pernyataan masalah yang ketat dalam metode pengenalan optik adalah urutan besarnya lebih penting daripada dalam masalah pemrograman sistem: satu kata tambahan di TK dapat menambahkan 50% dari pekerjaan.
  • Dalam masalah pengenalan, tidak ada solusi universal. Anda tidak dapat membuat algoritme yang hanya akan "mengenali prasasti apa pun." Tanda di jalan dan selembar teks pada dasarnya adalah objek yang berbeda. Mungkin saja membuat algoritme umum (contoh yang bagus dari Google), tetapi ini akan membutuhkan banyak pekerjaan dari tim besar dan terdiri dari lusinan subrutin yang berbeda.
  • OpenCV adalah alkitab, yang memiliki banyak metode, dan dengannya Anda dapat menyelesaikan 50% dari volume hampir semua masalah, tetapi OpenCV hanyalah sebagian kecil dari apa yang dapat dilakukan dalam kenyataan. Dalam satu penelitian, tertulis dalam kesimpulan: "Masalahnya tidak diselesaikan dengan metode OpenCV, oleh karena itu, tidak dapat dipecahkan." Cobalah untuk menghindari hal ini, jangan malas dan dengan bijaksana mengevaluasi tugas saat ini setiap kali dari awal, tanpa menggunakan template OpenCV.
Sangat sulit untuk memberikan semacam saran universal, atau memberi tahu cara membuat semacam struktur di mana Anda dapat membangun solusi untuk masalah penglihatan komputer yang sewenang-wenang. Tujuan artikel ini adalah untuk menyusun apa yang dapat digunakan. Saya akan mencoba memecah metode yang ada menjadi tiga kelompok. Kelompok pertama adalah pra-penyaringan dan persiapan gambar. Kelompok kedua adalah pemrosesan logis dari hasil penyaringan. Kelompok ketiga adalah algoritma pengambilan keputusan berdasarkan pemrosesan logis. Batas antar kelompok sangat arbitrer. Untuk memecahkan suatu masalah, jauh dari selalu perlu menerapkan metode dari semua kelompok; kadang-kadang dua cukup, dan kadang-kadang bahkan satu.

Daftar metode yang disajikan di sini tidak lengkap. Saya mengusulkan untuk menambahkan dalam komentar metode kritis yang saya tidak menulis dan atribut 2-3 kata yang menyertainya untuk masing-masing.

Bagian 1. Penyaringan

Dalam grup ini, saya menempatkan metode yang memungkinkan Anda memilih area yang menarik dalam gambar tanpa menganalisisnya. Sebagian besar metode ini menerapkan beberapa jenis transformasi seragam ke semua titik dalam gambar. Pada tingkat pemfilteran, citra tidak dianalisis, tetapi titik-titik yang difilter dapat dianggap sebagai area dengan karakteristik khusus.
Binerisasi ambang batas, pemilihan area histogram
Transformasi paling sederhana adalah binarisasi gambar dengan ambang batas. Untuk gambar RGB dan skala abu-abu, ambang batas adalah nilai warna. Ada masalah ideal di mana transformasi seperti itu sudah cukup. Misalkan Anda ingin memilih item secara otomatis pada selembar kertas putih:




Pilihan ambang di mana binarisasi berlangsung sangat menentukan proses binarisasi itu sendiri. Dalam hal ini, gambar dibinerisasi dengan warna rata-rata. Biasanya, binarisasi dilakukan dengan algoritma yang secara adaptif memilih ambang batas. Algoritma semacam itu bisa menjadi pilihan harapan atau mode. Dan Anda dapat memilih puncak histogram terbesar.

Binarisasi dapat memberikan hasil yang sangat menarik ketika bekerja dengan histogram, termasuk situasi jika kita mempertimbangkan gambar tidak dalam RGB, tetapi dalam HSV. Misalnya, segmen warna yang menarik. Berdasarkan prinsip ini, dimungkinkan untuk membuat detektor label dan detektor kulit manusia.
Pemfilteran klasik: Fourier, LPF, HPF
Metode penyaringan klasik dari radar dan pemrosesan sinyal dapat berhasil diterapkan dalam berbagai tugas Pengenalan Pola. Metode tradisional di radar, yang hampir tidak pernah digunakan dalam gambar dalam bentuk murni, adalah transformasi Fourier (lebih khusus, FFT). Salah satu dari sedikit pengecualian di mana transformasi Fourier 1D digunakan adalah kompresi gambar. Untuk analisis gambar, transformasi satu dimensi biasanya tidak cukup, Anda perlu menggunakan transformasi dua dimensi yang jauh lebih intensif sumber daya.

Hanya sedikit orang yang benar-benar menghitungnya, biasanya jauh lebih cepat dan lebih mudah menggunakan konvolusi wilayah yang diinginkan dengan filter siap pakai yang dipertajam ke frekuensi tinggi (HPF) atau rendah (LPF). Metode seperti itu, tentu saja, tidak memungkinkan analisis spektrum, tetapi dalam tugas pemrosesan video tertentu, biasanya bukan analisis yang diperlukan, tetapi hasil.


Contoh paling sederhana dari filter yang menekankan frekuensi rendah (filter Gaussian) dan frekuensi tinggi (filter Gabor).
Untuk setiap titik gambar, sebuah jendela dipilih dan dikalikan dengan filter dengan ukuran yang sama. Hasil dari konvolusi tersebut adalah nilai baru dari titik tersebut. Saat mengimplementasikan LPF dan HPF, gambar jenis ini diperoleh:



Wavelet
Tetapi bagaimana jika kita menggunakan beberapa fungsi karakteristik arbitrer untuk konvolusi dengan sinyal? Maka akan disebut "Transformasi Wavelet". Definisi wavelet ini tidak benar, tetapi secara tradisional, di banyak tim, analisis wavelet adalah pencarian pola arbitrer dalam gambar menggunakan konvolusi dengan model pola ini. Ada satu set fungsi klasik yang digunakan dalam analisis wavelet. Ini termasuk wavelet Haar, wavelet Morlet, wavelet topi Meksiko, dan seterusnya. Primitif Haar, yang tentangnya ada beberapa artikel saya sebelumnya ( , ), merujuk pada fungsi seperti itu untuk ruang dua dimensi.


Di atas adalah 4 contoh wavelet klasik. Wavelet Haar 3D, wavelet Meyer 2D, wavelet Topi Meksiko, wavelet Daubechies. Contoh yang baik untuk menggunakan interpretasi yang diperluas dari wavelet adalah masalah menemukan kilatan di mata, di mana kilau itu sendiri adalah wavelet:

Wavelet klasik biasanya digunakan untuk , atau untuk klasifikasinya (akan dijelaskan di bawah).
Korelasi
Setelah interpretasi bebas dari wavelet di pihak saya, perlu disebutkan korelasi aktual yang mendasarinya. Saat memfilter gambar, ini adalah alat yang sangat diperlukan. Aplikasi klasik adalah korelasi aliran video untuk menemukan offset atau aliran optik. Detektor pergeseran paling sederhana juga, dalam arti tertentu, merupakan korelator perbedaan. Di mana gambar tidak berkorelasi, ada gerakan.

Pemfilteran fungsi
Kelas filter yang menarik adalah fungsi penyaringan. Ini adalah filter matematika murni yang memungkinkan Anda mendeteksi fungsi matematika sederhana dalam gambar (garis, parabola, lingkaran). Gambar akumulatif dibangun, di mana untuk setiap titik gambar asli, satu set fungsi yang menghasilkannya digambar. Transformasi yang paling klasik adalah transformasi Hough untuk garis. Dalam transformasi ini, untuk setiap titik (x;y), satu set titik (a;b) dari garis y=ax+b digambar, yang persamaannya benar. Dapatkan gambar yang indah:


(nilai tambah pertama untuk orang yang pertama menemukan tangkapan dalam gambar dan definisi semacam itu dan menjelaskannya, nilai tambah kedua untuk orang yang pertama mengatakan apa yang ditunjukkan di sini)
Transformasi Hough memungkinkan Anda menemukan fungsi yang dapat diparameterisasi. Misalnya lingkaran. Ada transformasi yang dimodifikasi yang memungkinkan Anda untuk mencari file . Transformasi ini sangat disukai para matematikawan. Tetapi saat memproses gambar, sayangnya, tidak selalu berhasil. Kecepatan sangat lambat, sensitivitas sangat tinggi terhadap kualitas binarisasi. Bahkan dalam situasi ideal, saya lebih suka bertahan dengan metode lain.
Rekan dari transformasi Hough untuk garis adalah transformasi Radon. Ini dihitung melalui FFT, yang memberikan peningkatan kinerja dalam situasi di mana ada banyak poin. Selain itu, dapat diterapkan pada gambar non-binerisasi.
Penyaringan kontur
Kelas filter yang terpisah adalah filter perbatasan dan kontur. Path sangat berguna ketika kita ingin berpindah dari bekerja dengan gambar ke bekerja dengan objek di gambar itu. Ketika suatu objek cukup kompleks, tetapi dibedakan dengan baik, maka seringkali satu-satunya cara untuk bekerja dengannya adalah dengan memilih konturnya. Ada sejumlah algoritma yang memecahkan masalah pemfilteran kontur:

Yang paling umum digunakan adalah Kenny, yang bekerja dengan baik dan yang implementasinya di OpenCV (Sobel juga ada, tetapi dia mencari kontur yang lebih buruk).



Filter lainnya
Di atas adalah filter, modifikasi yang membantu menyelesaikan 80-90% tugas. Tapi selain itu, ada filter yang lebih jarang digunakan dalam tugas lokal. Ada lusinan filter seperti itu, saya tidak akan mencantumkan semuanya. Yang menarik adalah filter iteratif (misalnya ), serta transformasi ridgelet dan curvlet, yang merupakan paduan penyaringan dan analisis wavelet klasik di bidang transformasi radon. Transformasi beamlet bekerja dengan baik pada batas transformasi wavelet dan analisis logis, memungkinkan Anda untuk menyorot kontur:

Tetapi transformasi ini sangat spesifik dan disesuaikan untuk tugas-tugas langka.

Bagian 2. Pemrosesan logis dari hasil penyaringan

Penyaringan memberikan satu set data yang cocok untuk diproses. Namun seringkali Anda tidak bisa begitu saja mengambil dan menggunakan data ini tanpa memprosesnya. Di bagian ini, akan ada beberapa metode klasik yang memungkinkan Anda beralih dari gambar ke properti objek, atau ke objek itu sendiri.
Morfologi
Transisi dari filtering ke logika, menurut saya, adalah metode morfologi matematika ( , ). Faktanya, ini adalah operasi paling sederhana untuk meningkatkan dan mengikis gambar biner. Metode ini memungkinkan Anda untuk menghilangkan noise dari gambar biner dengan menambah atau mengurangi elemen yang tersedia. Berdasarkan morfologi matematika, terdapat algoritma contouring, tetapi biasanya mereka menggunakan beberapa jenis algoritma hybrid atau algoritma dalam hubungannya.
analisis kontur
Di bagian penyaringan, algoritma untuk mendapatkan batas telah disebutkan. Batas yang dihasilkan cukup sederhana diubah menjadi kontur. Untuk algoritma Canny ini terjadi secara otomatis, untuk algoritma lain diperlukan binarisasi tambahan. Anda bisa mendapatkan kontur untuk algoritma biner, misalnya, dengan algoritma kumbang.
Kontur merupakan ciri khas suatu objek. Seringkali ini memungkinkan Anda untuk mengidentifikasi objek di sepanjang kontur. Ada alat matematika yang kuat yang memungkinkan Anda melakukan ini. Alat tersebut disebut analisis kontur ( , ).

Sejujurnya, saya belum pernah berhasil menerapkan analisis kontur dalam masalah nyata. Kondisi yang terlalu ideal diperlukan. Entah tidak ada perbatasan, atau ada terlalu banyak kebisingan. Namun, jika Anda perlu mengenali sesuatu dalam kondisi ideal, maka analisis kontur adalah pilihan yang bagus. Ia bekerja sangat cepat, matematika yang indah dan logika yang dapat dimengerti.
Poin tunggal
Keypoint adalah karakteristik unik dari suatu objek yang memungkinkan objek untuk diasosiasikan dengan dirinya sendiri atau dengan kelas objek yang serupa. Ada lusinan cara untuk memilih titik tersebut. Beberapa metode menyorot titik khusus dalam bingkai yang berdekatan, beberapa setelah jangka waktu yang lama dan saat pencahayaan berubah, beberapa memungkinkan Anda menemukan titik khusus yang tetap demikian bahkan ketika objek berputar. Mari kita mulai dengan metode yang memungkinkan kita menemukan poin khusus yang tidak begitu stabil, tetapi dihitung dengan cepat, dan kemudian kita akan meningkatkan kompleksitas:
Kelas satu. Poin tunggal yang stabil selama beberapa detik. Titik tersebut digunakan untuk memandu objek antara bingkai video yang berdekatan, atau untuk menyatukan gambar dari kamera tetangga. Titik-titik ini termasuk maxima lokal dari gambar, sudut dalam gambar (detektor terbaik, mungkin, detektor Haris), titik di mana dispersi maxima tercapai, gradien tertentu, dll.
Kelas kedua. Titik tunggal yang stabil saat mengubah pencahayaan dan gerakan kecil objek. Poin-poin tersebut berfungsi terutama untuk pelatihan dan klasifikasi tipe objek selanjutnya. Misalnya, pengklasifikasi pejalan kaki atau pengklasifikasi wajah adalah produk dari sistem yang dibangun hanya pada titik-titik tersebut. Beberapa dari wavelet yang disebutkan sebelumnya mungkin menjadi dasar untuk poin tersebut. Misalnya, Haar primitif, pencarian silau, pencarian fitur spesifik lainnya. Titik-titik ini termasuk titik-titik yang ditemukan dengan metode histogram gradien arah (HOG).
Kelas ke tiga. titik stabil. Saya hanya tahu tentang dua metode yang memberikan stabilitas lengkap dan tentang modifikasinya. ini dan . Mereka memungkinkan Anda untuk menemukan poin-poin penting bahkan ketika Anda memutar gambar. Perhitungan poin tersebut membutuhkan waktu lebih lama dari metode lain, tetapi untuk waktu yang agak terbatas. Sayangnya, metode ini dipatenkan. Meskipun, di Rusia tidak mungkin untuk mematenkan algoritma, jadi gunakan untuk pasar domestik.

Bagian 3. Pelatihan

Bagian ketiga dari cerita akan dikhususkan untuk metode yang tidak bekerja secara langsung dengan gambar, tetapi yang memungkinkan Anda untuk membuat keputusan. Pada dasarnya, ini adalah berbagai metode pembelajaran mesin dan pengambilan keputusan. Baru-baru ini, Yandyks memposting di Habr tentang topik ini, ada pilihan yang sangat bagus. Ini dia dalam versi teks. Untuk studi serius tentang subjek, saya sangat menyarankan Anda melihatnya. Disini saya akan mencoba mengidentifikasi beberapa metode dasar yang digunakan secara khusus dalam pengenalan pola.
Dalam 80% situasi, esensi pembelajaran dalam masalah pengenalan adalah sebagai berikut:
Ada sampel uji di mana ada beberapa kelas objek. Biarlah ada / tidaknya seseorang di foto. Untuk setiap gambar, terdapat sekumpulan fitur yang telah ditonjolkan oleh beberapa fitur, baik itu Haar, HOG, SURF, atau beberapa wavelet. Algoritma pembelajaran harus membangun model seperti itu, yang menurutnya akan dapat menganalisis gambar baru dan memutuskan objek mana yang ada dalam gambar.
Bagaimana itu dilakukan? Setiap gambar uji adalah titik di ruang fitur. Koordinatnya adalah bobot setiap fitur dalam gambar. Biarkan tanda-tanda kami menjadi: "Kehadiran mata", "Kehadiran hidung", "Kehadiran dua tangan", "Kehadiran telinga", dll. Kami akan mengalokasikan semua tanda ini dengan detektor yang kami miliki, yang dilatih pada bagian tubuh yang mirip dengan manusia. Untuk seseorang di ruang seperti itu, titik yang benar adalah . Untuk monyet, titik untuk kuda. Pengklasifikasi dilatih pada sampel contoh. Tetapi tidak semua foto menunjukkan tangan, yang lain tidak memiliki mata, dan pada foto ketiga monyet memiliki hidung manusia karena kesalahan pengklasifikasi. Pengklasifikasi manusia yang dapat dilatih secara otomatis membagi ruang fitur sedemikian rupa untuk mengatakan: jika fitur pertama terletak pada kisaran 0,5 Pada intinya, tujuan dari pengklasifikasi adalah untuk menggambar area ruang fitur yang merupakan karakteristik dari objek klasifikasi. Ini adalah bagaimana aproksimasi berturut-turut untuk jawaban untuk salah satu pengklasifikasi (AdaBoost) dalam ruang dua dimensi akan terlihat seperti:


Ada banyak pengklasifikasi. Masing-masing bekerja lebih baik dalam beberapa tugasnya. Tugas memilih pengklasifikasi untuk tugas tertentu sebagian besar merupakan seni. Berikut adalah beberapa gambar bagus tentang topik ini.
Kasing sederhana, pemisahan satu dimensi
Mari kita ambil contoh kasus klasifikasi yang paling sederhana, ketika ruang fitur adalah satu dimensi, dan kita perlu memisahkan 2 kelas. Situasi ini terjadi lebih sering daripada yang terlihat: misalnya, ketika Anda perlu membedakan dua sinyal, atau membandingkan pola dengan sampel. Katakanlah kita memiliki sampel pelatihan. Dalam hal ini, gambar diperoleh, di mana sumbu X akan menjadi ukuran kesamaan, dan sumbu Y akan menjadi jumlah peristiwa dengan ukuran tersebut. Ketika objek yang diinginkan mirip dengan dirinya sendiri, diperoleh Gaussian kiri. Bila tidak mirip - benar. Nilai X=0,4 memisahkan sampel sehingga keputusan yang salah meminimalkan kemungkinan membuat keputusan yang salah. Ini adalah pencarian pemisah seperti itu yang merupakan tugas klasifikasi.


Catatan kecil. Kriteria yang meminimalkan kesalahan tidak akan selalu optimal. Grafik berikut adalah grafik sistem pengenalan iris mata nyata. Untuk sistem seperti itu, kriteria dipilih sedemikian rupa untuk meminimalkan kemungkinan salah masuknya orang luar ke objek. Probabilitas seperti itu disebut "kesalahan jenis pertama", "probabilitas alarm palsu", "positif palsu". Dalam literatur bahasa Inggris "False Access Rate".
) AdaBusta adalah salah satu pengklasifikasi yang paling umum. Misalnya, kaskade Haar dibangun di atasnya. Biasanya digunakan ketika klasifikasi biner diperlukan, tetapi tidak ada yang menghalangi pengajaran untuk lebih banyak kelas.
SVM ( , , , ) Salah satu pengklasifikasi paling kuat dengan banyak implementasi. Pada prinsipnya, pada tugas-tugas pembelajaran yang saya temui, cara kerjanya mirip dengan adabusta. Ini dianggap cukup cepat, tetapi pelatihannya lebih sulit daripada Adabusta dan membutuhkan pilihan inti yang benar.

Ada juga jaringan saraf dan regresi. Tetapi untuk mengklasifikasikan mereka secara singkat dan menunjukkan perbedaannya, diperlukan artikel yang jauh lebih besar dari ini.
________________________________________________
Saya harap saya dapat memberikan gambaran singkat tentang metode yang digunakan tanpa menyelami matematika dan deskripsi. Mungkin ini akan membantu seseorang. Meskipun, tentu saja, artikelnya tidak lengkap dan tidak ada sepatah kata pun tentang bekerja dengan gambar stereo, atau tentang LSM dengan filter Kalman, atau tentang pendekatan Bayesian yang adaptif.
Jika Anda menyukai artikel ini, maka saya akan mencoba membuat bagian kedua dengan pilihan contoh bagaimana masalah ImageRecognition yang ada diselesaikan.

Dan akhirnya

Apa yang harus dibaca?
1) Suatu ketika saya sangat menyukai buku "Digital Image Processing" oleh B. Yana, yang ditulis dengan sederhana dan jelas, tetapi pada saat yang sama hampir semua matematika diberikan. Baik untuk membiasakan diri dengan metode yang ada.
2) Klasik dari genre ini adalah R Gonzalez, R. Woods "Pemrosesan Gambar Digital". Untuk beberapa alasan, itu lebih sulit bagi saya daripada yang pertama. Lebih sedikit matematika, tetapi lebih banyak metode dan gambar.
3) "Pemrosesan dan analisis gambar dalam masalah penglihatan mesin" - ditulis berdasarkan kursus yang diajarkan di salah satu departemen PhysTech. Banyak metode dan deskripsi rincinya. Tapi menurut saya, buku ini memiliki dua kekurangan besar: buku ini sangat fokus pada paket perangkat lunak yang menyertainya, dalam buku itu terlalu sering deskripsi metode sederhana berubah menjadi hutan matematika, dari mana sulit untuk mengambilnya. keluar diagram struktural dari metode. Tetapi penulis telah membuat situs yang nyaman, di mana hampir semua konten disajikan - wiki.technicalvision.ru Tambahkan tag