Tuesday, June 2, 2020

Machine Learning

Machine Learning 

Anda dengan mudah menemukan contoh di mana konsep Machine Learning dan DeepPembelajaran digunakan secara bergantian di media. Namun, para ahli umumnyabedakan mereka. Jika Anda telah memutuskan untuk mempelajari bidang ini, penting bagi Andamengerti apa arti kata-kata ini, dan yang lebih penting, bagaimana kata-kata ituberbeda.Apa yang terjadi pada Anda ketika Anda mendengar istilah "Pembelajaran Mesin" untukpertama kali? Apakah Anda memikirkan sesuatu yang mirip dengan Gambar  1-1 ? Maka kamuharus mengakui bahwa Anda berpikiran harfiah.

Gambar 1-1. Pembelajaran Mesin atau Kecerdasan Buatan? Atas perkenan EuclideanManajemen Teknologi (www.euclidean.com)Angka 1-1 menggambarkan Intelegensi Buatan lebih dari MesinBelajar Memahami Pembelajaran Mesin dengan cara ini akan menghasilkankebingungan serius. Meskipun Machine Learning memang merupakan cabang BuatanKecerdasan, itu menyampaikan ide yang jauh berbeda dari apa gambar iniberarti.

Secara umum, Kecerdasan Buatan, Pembelajaran Mesin, dan Pembelajaran Mendalam adalahterkait sebagai berikut:“Deep Learning adalah sejenis Machine Learning, danMachine Learning adalah sejenis Inteligensi Buatan. ”Bagaimana itu? Sederhana, bukan? Klasifikasi ini mungkin tidak sem absolut sepertihukum alam, tetapi diterima secara luas.Mari kita gali sedikit lebih jauh. Kecerdasan Buatan adalah kata yang sangat umumyang mungkin menyiratkan banyak hal berbeda. Ini dapat menunjukkan segala bentuk teknologiyang mencakup beberapa aspek cerdas daripada menunjukkan teknologi tertentubidang. Sebaliknya, Pembelajaran Mesin mengacu pada bidang tertentu. Dengan kata lain,kami menggunakan Machine Learning untuk menunjukkan kelompok teknologi buatan tertentuIntelijen. Machine Learning sendiri mencakup banyak teknologi juga. Satu darimereka adalah Deep Learning, yang merupakan subjek buku ini.Fakta bahwa Deep Learning adalah jenis Machine Learning sangat penting,dan itulah mengapa kita akan melalui tinjauan panjang tentang bagaimana BuatanKecerdasan, Pembelajaran Mesin, dan Pembelajaran Mendalam saling berhubungan. Pembelajaran yang mendalamtelah menjadi sorotan baru-baru ini karena telah memecahkan beberapa masalah dengan mahiryang telah menantang Kecerdasan Buatan. Kinerjanya tentu luar biasadi banyak bidang. Namun, ia menghadapi keterbatasan juga. Batasan DeepBelajar berasal dari konsep fundamentalnya yang telah diwarisileluhurnya, Pembelajaran Mesin. Seperti jenis Machine Learning, Deep Learningtidak bisa menghindari masalah mendasar yang dihadapi Pembelajaran Mesin. Itu adalahmengapa kita perlu mengulas Machine Learning sebelum membahas konsep Deep Belajar.

Apa itu Pembelajaran Mesin?


Singkatnya, Machine Learning adalah teknik pemodelan yang melibatkan data. Inidefinisi mungkin terlalu pendek untuk pemula untuk menangkap artinya. Jadi, biarkan sayamenguraikan ini sedikit. Machine Learning adalah teknik yang menggambarkan"model" dari "data." Di sini, data secara harfiah berarti informasi sepertidokumen, audio, gambar, dll. "model" adalah produk akhir dari MachineBelajarSebelum kita melangkah lebih jauh ke dalam model, izinkan saya sedikit menyimpang. Bukankah itu anehdefinisi Machine Learning hanya membahas konsep data danmodel dan tidak ada hubungannya dengan "belajar"? Nama itu sendiri mencerminkan bahwateknik menganalisis data dan menemukan model dengan sendirinya daripada memilikimanusia melakukannya. Kami menyebutnya "belajar" karena prosesnya menyerupai dilatihdengan data untuk memecahkan masalah menemukan model. Karena itu, datanyayang digunakan Pembelajaran Mesin dalam proses pemodelan disebut data "pelatihan".Angka 1-2 menggambarkan apa yang terjadi dalam proses Pembelajaran Mesin.

Sekarang, mari kita lanjutkan diskusi kita tentang model. Sebenarnya, modelnya adalahtidak lebih dari apa yang ingin kita capai sebagai produk akhir. Misalnya, jikakami sedang mengembangkan sistem penyaringan otomatis untuk menghapus email spam, email spamfilter adalah model yang sedang kita bicarakan. Dalam pengertian ini, kita dapat mengatakan modelnyaadalah apa yang sebenarnya kita gunakan. Beberapa menyebut model sebagai hipotesis . Istilah ini sepertinya lebihintuitif bagi mereka yang memiliki latar belakang statistik.Machine Learning bukan satu-satunya teknik pemodelan. Dalam bidangDinamika, orang telah menggunakan teknik pemodelan tertentu, yang mempekerjakanHukum Newton dan menggambarkan gerak benda sebagai rangkaian persamaan yang disebutpersamaan gerak, untuk waktu yang lama. Di bidang Kecerdasan Buatan, kamimemiliki sistem pakar, yang merupakan model penyelesaian masalah yang didasarkan padapengetahuan dan keterampilan para ahli. Modelnya bekerja sebaik para ahlidiri.Namun, ada beberapa area di mana hukum dan penalaran logis tidaksangat berguna untuk pemodelan. Masalah umum dapat ditemukan di mana kecerdasan beradayang terlibat, seperti pengenalan gambar, pengenalan ucapan, dan bahasa alamipengolahan. Biarkan saya memberi Anda sebuah contoh. Lihatlah Gambar 1-3 dan mengidentifikasiangka.

Saya yakin Anda telah menyelesaikan tugas dalam waktu singkat. Kebanyakan orang melakukannya. Sekarang,mari kita buat komputer melakukan hal yang sama. Apa yang kita lakukan? Jika kita menggunakan tradisionalteknik pemodelan, kita perlu menemukan beberapa aturan atau algoritma untuk membedakanangka-angka tertulis. Hmm, kenapa kita tidak menerapkan aturan yang baru saja Anda gunakanuntuk mengidentifikasi angka-angka di otak Anda? Cukup mudah, bukan? Yah, tidak juga.Sebenarnya, ini adalah masalah yang sangat menantang. Ada suatu masa ketika penelitipikir itu pasti sepotong kue untuk komputer untuk melakukan ini, karena sangat mudah untukbahkan manusia dan komputer dapat menghitung jauh lebih cepat daripada manusia.Yah, tidak butuh waktu lama sampai mereka menyadari salah penilaian mereka.Bagaimana Anda bisa mengidentifikasi angka-angka tanpa spesifikasi yang jelas atausebuah aturan? Sulit untuk dijawab, bukan? Tapi kenapa? Itu karena kita belum pernah belajarspesifikasi seperti itu. Sejak usia muda, kami baru mengetahui bahwa ini adalah 0, danbahwa ini adalah 1. Kami hanya berpikir itu adalah apa dan menjadi lebih baik dalam membedakanangka saat kami menghadapi berbagai nomor. Apakah saya benar?Bagaimana dengan komputer? Mengapa kita tidak membiarkan komputer melakukan hal yang samabenda? Itu dia! Selamat! Anda baru saja memahami konsep MesinBelajar Machine Learning telah diciptakan untuk memecahkan masalah yang terjadimodel analitik hampir tidak tersedia. Gagasan utama Machine Learningadalah untuk mencapai model menggunakan data pelatihan ketika persamaan dan hukum tidakmenjanjikan.

 

Tantangan dengan Pembelajaran Mesin

Kami baru saja menemukan bahwa Machine Learning adalah teknik yang digunakan untuk menemukan (atau belajar)model dari data. Sangat cocok untuk masalah yang melibatkan kecerdasan,seperti pengenalan gambar dan pengenalan suara, di mana hukum fisik ataupersamaan matematika gagal menghasilkan model. Di satu sisi, pendekatannyayang menggunakan Pembelajaran Mesin adalah apa yang membuat proses bekerja. Di samping itu,itu membawa masalah yang tak terhindarkan. Bagian ini memberikan masalah mendasarWajah Pembelajaran Mesin.

Data yang digunakan untuk pemodelan di Machine Learning dan datadisediakan dalam aplikasi bidang berbeda. Mari kita tambahkan blok lain untuk inigambar, seperti yang ditunjukkan pada Gambar 1-5, untuk menggambarkan situasi ini dengan lebih baik.

Perbedaan dari data pelatihan dan data input adalah strukturalmenantang yang dihadapi Machine Learning. Tidak berlebihan untuk mengatakan bahwa setiapmasalah Machine Learning berasal dari ini. Misalnya, bagaimana denganmenggunakan data pelatihan, yang terdiri dari catatan tulisan tangan dari satuorang? Akankah model tersebut berhasil mengenali tulisan tangan orang lain?Kemungkinannya akan sangat rendah.Pendekatan No Machine Learning dapat mencapai tujuan yang diinginkan dengan yang salahdata pelatihan. Ideologi yang sama berlaku untuk Deep Learning. Karena itupenting untuk pendekatan Pembelajaran Mesin untuk mendapatkan data pelatihan yang tidak bias itumencerminkan karakteristik data lapangan secara memadai. Proses yang digunakan untuk membuatkinerja model konsisten terlepas dari data pelatihan atau inputdata disebut generalisasi . Keberhasilan Pembelajaran Mesin sangat bergantung padaseberapa baik generalisasi tercapai.

Overfitting

Salah satu penyebab utama korupsi dari proses generalisasi adalahoverfitting . Ya, istilah baru lainnya. Namun, tidak perlu frustrasi. Itusama sekali bukan konsep baru. Akan lebih mudah dipahami dengan studi kasusdaripada hanya dengan kalimat.Pertimbangkan masalah klasifikasi yang ditunjukkan pada Gambar 1-6. Kita harus membelahdata posisi (atau koordinat) menjadi dua kelompok. Poin pada gambar adalahdata pelatihan. Tujuannya adalah untuk menentukan kurva yang mendefinisikan bataskedua kelompok menggunakan data pelatihan.

Meskipun kami melihat beberapa outlier yang menyimpang dari area yang memadai, namunkurva yang ditunjukkan pada Gambar  1-7 tampaknya bertindak sebagai batas yang masuk akal antarakelompok.

Ketika kita menilai kurva ini, ada beberapa poin yang tidak benardiklasifikasikan menurut perbatasan. Bagaimana dengan pengelompokan poin secara sempurnamenggunakan kurva yang kompleks, seperti yang ditunjukkan pada Gambar  1-8 ?

Model ini menghasilkan kinerja pengelompokan yang sempurna untuk data pelatihan.Bagaimana kelihatannya? Apakah Anda menyukai model ini dengan lebih baik? Apakah itu mencerminkan dengan benarperilaku umum?Sekarang, mari kita gunakan model ini di dunia nyata. Input baru ke model adalahditunjukkan menggunakan simbol ■ , seperti yang ditunjukkan pada Gambar 1-9.

Model bebas kesalahan yang bangga ini mengidentifikasi data baru sebagai kelas ∆. Namun,tren umum dari data pelatihan memberi tahu kita bahwa ini diragukan. Pengelompokan itu

asuk akal. Apa yang terjadi pada model yang menghasilkan100% akurasi untuk data pelatihan?Mari kita lihat lagi poin data. Beberapa outlier menembusarea kelompok lain dan mengganggu batas. Dengan kata lain, data inimengandung banyak kebisingan. Masalahnya adalah bahwa tidak ada cara untuk Pembelajaran Mesinuntuk membedakan ini. Sebagai Machine Learning mempertimbangkan semua data, bahkan kebisingan,akhirnya menghasilkan model yang tidak tepat (kurva dalam hal ini). Ini akan menjadisen dolar dan pound-bodoh. Seperti yang Anda perhatikan di sini, data pelatihannya adalahtidak sempurna dan mungkin mengandung jumlah kebisingan yang bervariasi. Jika Anda percaya itu setiapelemen data pelatihan benar dan sesuai dengan model dengan tepat, Anda akan mendapatkanmodel dengan generalisasi yang lebih rendah. Ini disebut overfitting .Tentu saja, karena sifatnya, Machine Learning harus melakukan segala upayauntuk mendapatkan model yang sangat baik dari data pelatihan. Namun, model yang berfungsidari data pelatihan mungkin tidak mencerminkan data lapangan dengan benar. Ini tidak berartibahwa kita harus membuat model itu kurang akurat daripada data pelatihan dengan sengaja.Ini akan merusak strategi dasar Pembelajaran Mesin.Sekarang kita menghadapi dilema — mengurangi kesalahan yang disebabkan oleh data pelatihanoverfitting yang menurunkan generalisasi. Apa yang kita lakukan? Kami menghadapinya, daritentu saja! Bagian selanjutnya memperkenalkan teknik yang mencegah overfitting.

Menghadapi OverfittingOverfitting secara signifikan mempengaruhi tingkat kinerja Machine Learning.Kita dapat mengetahui siapa yang pro dan siapa yang amatir dengan menonton masing-masingpendekatan dalam menangani overfitting. Bagian ini memperkenalkan dua tipikalmetode yang digunakan untuk menghadapi overfitting: regularisasi dan validasi.Regularisasi adalah metode numerik yang berupaya membangun modelstruktur sesederhana mungkin. Model yang disederhanakan dapat menghindari efekoverfitting dengan biaya kinerja yang kecil. Masalah pengelompokanbagian sebelumnya dapat digunakan sebagai contoh yang baik. Model yang kompleks (atau kurva)cenderung overfitting. Sebaliknya, meskipun gagal untuk mengklasifikasikan dengan benar beberapapoin, kurva sederhana mencerminkan karakteristik keseluruhan gruplebih baik. Jika Anda mengerti cara kerjanya, itu sudah cukup untuk saat ini. Kami akan mengunjungi kembaliregularisasi dengan rincian lebih lanjut dalam "Fungsi Biaya danBagian Belajar Aturan ”.Kami dapat mengatakan bahwa model pengelompokan terlalu dilengkapi karena pelatihandata sederhana, dan modelnya dapat dengan mudah divisualisasikan. Namun, ini bukankasus untuk sebagian besar situasi, karena data memiliki dimensi yang lebih tinggi. Kami tidak dapat menggambarmodel dan secara intuitif mengevaluasi efek overfitting untuk data tersebut. Karena itu,kita membutuhkan metode lain untuk menentukan apakah model yang dilatih ini dilengkapi secara berlebihanatau tidak. Di sinilah validasi berperan.Validasi adalah proses yang menyimpan bagian dari data dan penggunaan pelatihanitu untuk memantau kinerja. Set validasi tidak digunakan untuk pelatihanproses. Karena kesalahan pemodelan data pelatihan gagal menunjukkanoverfitting, kami menggunakan beberapa data pelatihan untuk memeriksa apakah model dilengkapi.Kita dapat mengatakan bahwa model ini dilengkapi berlebihan ketika model yang dilatih menghasilkan tingkat rendahkinerja untuk input data yang dipesan. Dalam hal ini, kami akan memodifikasi modeluntuk mencegah overfitting. Gambar  1-10 menggambarkan pembagian data pelatihanuntuk proses validasi.

Ketika validasi terlibat, proses pelatihan Machine Learninghasil dengan langkah-langkah berikut:1. Bagi data pelatihan menjadi dua kelompok: satu untukpelatihan dan yang lainnya untuk validasi. Sebagai aturan praktis,rasio dari set pelatihan ke set validasi adalah 8: 2.2. Latih model dengan set pelatihan.3. Mengevaluasi kinerja model menggunakanset validasi.Sebuah. Jika model menghasilkan kinerja yang memuaskan, selesaikanpelatihan.b. Jika kinerjanya tidak mencukupihasil, modifikasi model dan ulangi prosesdari Langkah 2.

Validasi silang adalah sedikit variasi dari proses validasi. Itu masih membelahdata pelatihan menjadi kelompok untuk pelatihan dan validasi, tetapi terus berubahdataset. Alih-alih mempertahankan set yang awalnya dibagi, validasi silangmengulangi pembagian data. Alasan untuk melakukan ini adalah bahwa model dapat melakukannyamenjadi terlalu lengkap bahkan untuk set validasi ketika sudah diperbaiki. Sebagai cross-validationmempertahankan keacakan dari dataset validasi, ia dapat lebih mendeteksioverfitting dari model. Angka 1-11 menjelaskan konsep validasi silang.Nuansa gelap menunjukkan data validasi, yang dipilih secara acakselama proses pelatihan.

Untuk membaca lebih lengkap bisa langsung download bukunya http://raboninco.com/ozsj

No comments:

Post a Comment

Types Of Machine Learning

Types Of Machine Learning Berbagai jenis teknik Pembelajaran Mesin telah dikembangkan untukmemecahkan masalah di berbagai bidang. Teknik Pem...