Machine Learning
Anda dengan mudah menemukan
contoh di mana konsep Machine Learning dan DeepPembelajaran digunakan secara
bergantian di media. Namun, para ahli umumnyabedakan mereka. Jika Anda telah
memutuskan untuk mempelajari bidang ini, penting bagi Andamengerti apa arti
kata-kata ini, dan yang lebih penting, bagaimana kata-kata ituberbeda.Apa yang
terjadi pada Anda ketika Anda mendengar istilah "Pembelajaran Mesin"
untukpertama kali? Apakah Anda memikirkan sesuatu yang mirip dengan Gambar 1-1 ? Maka kamuharus mengakui bahwa Anda
berpikiran harfiah.
Gambar 1-1. Pembelajaran
Mesin atau Kecerdasan Buatan? Atas perkenan EuclideanManajemen Teknologi
(www.euclidean.com)Angka 1-1 menggambarkan Intelegensi Buatan lebih dari
MesinBelajar Memahami Pembelajaran Mesin dengan cara ini akan
menghasilkankebingungan serius. Meskipun Machine Learning memang merupakan
cabang BuatanKecerdasan, itu menyampaikan ide yang jauh berbeda dari apa gambar
iniberarti.
Secara umum, Kecerdasan
Buatan, Pembelajaran Mesin, dan Pembelajaran Mendalam adalahterkait sebagai
berikut:“Deep Learning adalah sejenis Machine Learning, danMachine Learning
adalah sejenis Inteligensi Buatan. ”Bagaimana itu? Sederhana, bukan?
Klasifikasi ini mungkin tidak sem absolut sepertihukum alam, tetapi diterima
secara luas.Mari kita gali sedikit lebih jauh. Kecerdasan Buatan adalah kata
yang sangat umumyang mungkin menyiratkan banyak hal berbeda. Ini dapat
menunjukkan segala bentuk teknologiyang mencakup beberapa aspek cerdas daripada
menunjukkan teknologi tertentubidang. Sebaliknya, Pembelajaran Mesin mengacu
pada bidang tertentu. Dengan kata lain,kami menggunakan Machine Learning untuk
menunjukkan kelompok teknologi buatan tertentuIntelijen. Machine Learning
sendiri mencakup banyak teknologi juga. Satu darimereka adalah Deep Learning,
yang merupakan subjek buku ini.Fakta bahwa Deep Learning adalah jenis Machine Learning
sangat penting,dan itulah mengapa kita akan melalui tinjauan panjang tentang
bagaimana BuatanKecerdasan, Pembelajaran Mesin, dan Pembelajaran Mendalam
saling berhubungan. Pembelajaran yang mendalamtelah menjadi sorotan baru-baru
ini karena telah memecahkan beberapa masalah dengan mahiryang telah menantang
Kecerdasan Buatan. Kinerjanya tentu luar biasadi banyak bidang. Namun, ia
menghadapi keterbatasan juga. Batasan DeepBelajar berasal dari konsep
fundamentalnya yang telah diwarisileluhurnya, Pembelajaran Mesin. Seperti jenis
Machine Learning, Deep Learningtidak bisa menghindari masalah mendasar yang
dihadapi Pembelajaran Mesin. Itu adalahmengapa kita perlu mengulas Machine
Learning sebelum membahas konsep Deep Belajar.
Apa
itu Pembelajaran Mesin?
Singkatnya, Machine Learning
adalah teknik pemodelan yang melibatkan data. Inidefinisi mungkin terlalu
pendek untuk pemula untuk menangkap artinya. Jadi, biarkan sayamenguraikan ini
sedikit. Machine Learning adalah teknik yang menggambarkan"model"
dari "data." Di sini, data secara harfiah berarti informasi
sepertidokumen, audio, gambar, dll. "model" adalah produk akhir dari
MachineBelajarSebelum kita melangkah lebih jauh ke dalam model, izinkan saya
sedikit menyimpang. Bukankah itu anehdefinisi Machine Learning hanya membahas
konsep data danmodel dan tidak ada hubungannya dengan "belajar"? Nama
itu sendiri mencerminkan bahwateknik menganalisis data dan menemukan model
dengan sendirinya daripada memilikimanusia melakukannya. Kami menyebutnya
"belajar" karena prosesnya menyerupai dilatihdengan data untuk
memecahkan masalah menemukan model. Karena itu, datanyayang digunakan
Pembelajaran Mesin dalam proses pemodelan disebut data
"pelatihan".Angka 1-2 menggambarkan apa yang terjadi dalam proses
Pembelajaran Mesin.
Sekarang, mari kita
lanjutkan diskusi kita tentang model. Sebenarnya, modelnya adalahtidak lebih
dari apa yang ingin kita capai sebagai produk akhir. Misalnya, jikakami sedang
mengembangkan sistem penyaringan otomatis untuk menghapus email spam, email
spamfilter adalah model yang sedang kita bicarakan. Dalam pengertian ini, kita
dapat mengatakan modelnyaadalah apa yang sebenarnya kita gunakan. Beberapa
menyebut model sebagai hipotesis . Istilah ini sepertinya lebihintuitif bagi
mereka yang memiliki latar belakang statistik.Machine Learning bukan
satu-satunya teknik pemodelan. Dalam bidangDinamika, orang telah menggunakan
teknik pemodelan tertentu, yang mempekerjakanHukum Newton dan menggambarkan
gerak benda sebagai rangkaian persamaan yang disebutpersamaan gerak, untuk
waktu yang lama. Di bidang Kecerdasan Buatan, kamimemiliki sistem pakar, yang
merupakan model penyelesaian masalah yang didasarkan padapengetahuan dan
keterampilan para ahli. Modelnya bekerja sebaik para ahlidiri.Namun, ada
beberapa area di mana hukum dan penalaran logis tidaksangat berguna untuk pemodelan.
Masalah umum dapat ditemukan di mana kecerdasan beradayang terlibat, seperti
pengenalan gambar, pengenalan ucapan, dan bahasa alamipengolahan. Biarkan saya
memberi Anda sebuah contoh. Lihatlah Gambar 1-3 dan mengidentifikasiangka.
Saya yakin Anda telah
menyelesaikan tugas dalam waktu singkat. Kebanyakan orang melakukannya.
Sekarang,mari kita buat komputer melakukan hal yang sama. Apa yang kita
lakukan? Jika kita menggunakan tradisionalteknik pemodelan, kita perlu
menemukan beberapa aturan atau algoritma untuk membedakanangka-angka tertulis.
Hmm, kenapa kita tidak menerapkan aturan yang baru saja Anda gunakanuntuk
mengidentifikasi angka-angka di otak Anda? Cukup mudah, bukan? Yah, tidak
juga.Sebenarnya, ini adalah masalah yang sangat menantang. Ada suatu masa
ketika penelitipikir itu pasti sepotong kue untuk komputer untuk melakukan ini,
karena sangat mudah untukbahkan manusia dan komputer dapat menghitung jauh
lebih cepat daripada manusia.Yah, tidak butuh waktu lama sampai mereka
menyadari salah penilaian mereka.Bagaimana Anda bisa mengidentifikasi
angka-angka tanpa spesifikasi yang jelas atausebuah aturan? Sulit untuk
dijawab, bukan? Tapi kenapa? Itu karena kita belum pernah belajarspesifikasi
seperti itu. Sejak usia muda, kami baru mengetahui bahwa ini adalah 0, danbahwa
ini adalah 1. Kami hanya berpikir itu adalah apa dan menjadi lebih baik dalam
membedakanangka saat kami menghadapi berbagai nomor. Apakah saya
benar?Bagaimana dengan komputer? Mengapa kita tidak membiarkan komputer
melakukan hal yang samabenda? Itu dia! Selamat! Anda baru saja memahami konsep
MesinBelajar Machine Learning telah diciptakan untuk memecahkan masalah yang
terjadimodel analitik hampir tidak tersedia. Gagasan utama Machine
Learningadalah untuk mencapai model menggunakan data pelatihan ketika persamaan
dan hukum tidakmenjanjikan.
Tantangan dengan
Pembelajaran Mesin
Kami baru saja menemukan
bahwa Machine Learning adalah teknik yang digunakan untuk menemukan (atau
belajar)model dari data. Sangat cocok untuk masalah yang melibatkan
kecerdasan,seperti pengenalan gambar dan pengenalan suara, di mana hukum fisik
ataupersamaan matematika gagal menghasilkan model. Di satu sisi,
pendekatannyayang menggunakan Pembelajaran Mesin adalah apa yang membuat proses
bekerja. Di samping itu,itu membawa masalah yang tak terhindarkan. Bagian ini
memberikan masalah mendasarWajah Pembelajaran Mesin.
Data yang digunakan untuk
pemodelan di Machine Learning dan datadisediakan dalam aplikasi bidang berbeda.
Mari kita tambahkan blok lain untuk inigambar, seperti yang ditunjukkan pada
Gambar 1-5, untuk menggambarkan situasi ini dengan lebih baik.
Perbedaan dari data
pelatihan dan data input adalah strukturalmenantang yang dihadapi Machine
Learning. Tidak berlebihan untuk mengatakan bahwa setiapmasalah Machine
Learning berasal dari ini. Misalnya, bagaimana denganmenggunakan data
pelatihan, yang terdiri dari catatan tulisan tangan dari satuorang? Akankah
model tersebut berhasil mengenali tulisan tangan orang lain?Kemungkinannya akan
sangat rendah.Pendekatan No Machine Learning dapat mencapai tujuan yang
diinginkan dengan yang salahdata pelatihan. Ideologi yang sama berlaku untuk
Deep Learning. Karena itupenting untuk pendekatan Pembelajaran Mesin untuk
mendapatkan data pelatihan yang tidak bias itumencerminkan karakteristik data
lapangan secara memadai. Proses yang digunakan untuk membuatkinerja model
konsisten terlepas dari data pelatihan atau inputdata disebut generalisasi .
Keberhasilan Pembelajaran Mesin sangat bergantung padaseberapa baik
generalisasi tercapai.
Overfitting
Salah satu penyebab utama
korupsi dari proses generalisasi adalahoverfitting . Ya, istilah baru lainnya.
Namun, tidak perlu frustrasi. Itusama sekali bukan konsep baru. Akan lebih
mudah dipahami dengan studi kasusdaripada hanya dengan kalimat.Pertimbangkan
masalah klasifikasi yang ditunjukkan pada Gambar 1-6. Kita harus membelahdata
posisi (atau koordinat) menjadi dua kelompok. Poin pada gambar adalahdata
pelatihan. Tujuannya adalah untuk menentukan kurva yang mendefinisikan
bataskedua kelompok menggunakan data pelatihan.
Meskipun kami melihat
beberapa outlier yang menyimpang dari area yang memadai, namunkurva yang
ditunjukkan pada Gambar 1-7 tampaknya
bertindak sebagai batas yang masuk akal antarakelompok.
Ketika kita menilai kurva
ini, ada beberapa poin yang tidak benardiklasifikasikan menurut perbatasan. Bagaimana
dengan pengelompokan poin secara sempurnamenggunakan kurva yang kompleks,
seperti yang ditunjukkan pada Gambar 1-8
?
Model ini menghasilkan
kinerja pengelompokan yang sempurna untuk data pelatihan.Bagaimana
kelihatannya? Apakah Anda menyukai model ini dengan lebih baik? Apakah itu
mencerminkan dengan benarperilaku umum?Sekarang, mari kita gunakan model ini di
dunia nyata. Input baru ke model adalahditunjukkan menggunakan simbol ■ ,
seperti yang ditunjukkan pada Gambar 1-9.
Model bebas kesalahan yang
bangga ini mengidentifikasi data baru sebagai kelas ∆. Namun,tren umum dari
data pelatihan memberi tahu kita bahwa ini diragukan. Pengelompokan itu
asuk akal. Apa yang terjadi
pada model yang menghasilkan100% akurasi untuk data pelatihan?Mari kita lihat
lagi poin data. Beberapa outlier menembusarea kelompok lain dan mengganggu
batas. Dengan kata lain, data inimengandung banyak kebisingan. Masalahnya
adalah bahwa tidak ada cara untuk Pembelajaran Mesinuntuk membedakan ini.
Sebagai Machine Learning mempertimbangkan semua data, bahkan
kebisingan,akhirnya menghasilkan model yang tidak tepat (kurva dalam hal ini).
Ini akan menjadisen dolar dan pound-bodoh. Seperti yang Anda perhatikan di
sini, data pelatihannya adalahtidak sempurna dan mungkin mengandung jumlah
kebisingan yang bervariasi. Jika Anda percaya itu setiapelemen data pelatihan
benar dan sesuai dengan model dengan tepat, Anda akan mendapatkanmodel dengan
generalisasi yang lebih rendah. Ini disebut overfitting .Tentu saja, karena
sifatnya, Machine Learning harus melakukan segala upayauntuk mendapatkan model
yang sangat baik dari data pelatihan. Namun, model yang berfungsidari data
pelatihan mungkin tidak mencerminkan data lapangan dengan benar. Ini tidak
berartibahwa kita harus membuat model itu kurang akurat daripada data pelatihan
dengan sengaja.Ini akan merusak strategi dasar Pembelajaran Mesin.Sekarang kita
menghadapi dilema — mengurangi kesalahan yang disebabkan oleh data
pelatihanoverfitting yang menurunkan generalisasi. Apa yang kita lakukan? Kami
menghadapinya, daritentu saja! Bagian selanjutnya memperkenalkan teknik yang
mencegah overfitting.
Menghadapi
OverfittingOverfitting secara signifikan mempengaruhi tingkat kinerja Machine
Learning.Kita dapat mengetahui siapa yang pro dan siapa yang amatir dengan
menonton masing-masingpendekatan dalam menangani overfitting. Bagian ini
memperkenalkan dua tipikalmetode yang digunakan untuk menghadapi overfitting:
regularisasi dan validasi.Regularisasi adalah metode numerik yang berupaya
membangun modelstruktur sesederhana mungkin. Model yang disederhanakan dapat
menghindari efekoverfitting dengan biaya kinerja yang kecil. Masalah
pengelompokanbagian sebelumnya dapat digunakan sebagai contoh yang baik. Model
yang kompleks (atau kurva)cenderung overfitting. Sebaliknya, meskipun gagal
untuk mengklasifikasikan dengan benar beberapapoin, kurva sederhana
mencerminkan karakteristik keseluruhan gruplebih baik. Jika Anda mengerti cara
kerjanya, itu sudah cukup untuk saat ini. Kami akan mengunjungi
kembaliregularisasi dengan rincian lebih lanjut dalam "Fungsi Biaya
danBagian Belajar Aturan ”.Kami dapat mengatakan bahwa model pengelompokan
terlalu dilengkapi karena pelatihandata sederhana, dan modelnya dapat dengan
mudah divisualisasikan. Namun, ini bukankasus untuk sebagian besar situasi,
karena data memiliki dimensi yang lebih tinggi. Kami tidak dapat
menggambarmodel dan secara intuitif mengevaluasi efek overfitting untuk data
tersebut. Karena itu,kita membutuhkan metode lain untuk menentukan apakah model
yang dilatih ini dilengkapi secara berlebihanatau tidak. Di sinilah validasi
berperan.Validasi adalah proses yang menyimpan bagian dari data dan penggunaan
pelatihanitu untuk memantau kinerja. Set validasi tidak digunakan untuk
pelatihanproses. Karena kesalahan pemodelan data pelatihan gagal
menunjukkanoverfitting, kami menggunakan beberapa data pelatihan untuk
memeriksa apakah model dilengkapi.Kita dapat mengatakan bahwa model ini
dilengkapi berlebihan ketika model yang dilatih menghasilkan tingkat
rendahkinerja untuk input data yang dipesan. Dalam hal ini, kami akan
memodifikasi modeluntuk mencegah overfitting. Gambar 1-10 menggambarkan pembagian data pelatihanuntuk
proses validasi.
Ketika validasi terlibat,
proses pelatihan Machine Learninghasil dengan langkah-langkah berikut:1. Bagi
data pelatihan menjadi dua kelompok: satu untukpelatihan dan yang lainnya untuk
validasi. Sebagai aturan praktis,rasio dari set pelatihan ke set validasi
adalah 8: 2.2. Latih model dengan set pelatihan.3. Mengevaluasi kinerja model
menggunakanset validasi.Sebuah. Jika model menghasilkan kinerja yang memuaskan,
selesaikanpelatihan.b. Jika kinerjanya tidak mencukupihasil, modifikasi model
dan ulangi prosesdari Langkah 2.
Validasi silang adalah
sedikit variasi dari proses validasi. Itu masih membelahdata pelatihan menjadi
kelompok untuk pelatihan dan validasi, tetapi terus berubahdataset. Alih-alih
mempertahankan set yang awalnya dibagi, validasi silangmengulangi pembagian data.
Alasan untuk melakukan ini adalah bahwa model dapat melakukannyamenjadi terlalu
lengkap bahkan untuk set validasi ketika sudah diperbaiki. Sebagai
cross-validationmempertahankan keacakan dari dataset validasi, ia dapat lebih
mendeteksioverfitting dari model. Angka 1-11 menjelaskan konsep validasi
silang.Nuansa gelap menunjukkan data validasi, yang dipilih secara acakselama
proses pelatihan.
No comments:
Post a Comment