Thursday 17 August 2017

Bagan rata rata tertimbang pergerakan rata rata untuk mendeteksi konsep drift


Bagan rata-rata bergerak tertimbang secara eksponensial untuk mendeteksi drift konsep Mengelompokkan data streaming memerlukan pengembangan metode yang efisien secara komputasi dan mampu mengatasi perubahan dalam distribusi arus yang mendasarinya, sebuah fenomena yang dikenal dalam literatur sebagai drift konsep. Kami mengusulkan metode baru untuk mendeteksi drift konsep yang menggunakan grafik rata-rata pergerakan tertimbang secara eksponensial (FIFO) untuk memantau tingkat klasifikasi kesalahan pengklasifikasi streaming. Pendekatan kami modular dan karenanya dapat dijalankan secara paralel dengan classifier yang mendasari untuk menyediakan lapisan tambahan deteksi drift konsep. Selain itu, metode kami efisien secara komputasi dengan overhead O (1) dan bekerja secara online sepenuhnya tanpa perlu menyimpan data poin di memori. Tidak seperti banyak pendekatan yang ada terhadap deteksi drift konsep, metode kami memungkinkan tingkat deteksi positif palsu dikendalikan dan tetap konstan seiring berjalannya waktu. Highlights Kami menyajikan algoritma deteksi drift single pass dan computational efficient. Cocok untuk penyebaran pada data stream frekuensi tinggi. Memungkinkan tingkat deteksi positif palsu untuk dikendalikan, tidak seperti metode yang ada. Eksperimen pada data real dan sintetis menunjukkan hasil yang menggembirakan. Klasifikasi Streaming Konsep drift Change detectionDonate to arXiv arXiv. org gt stat gt arXiv: 1212.6018 Judul Belajar Mesin Statistik: Diagram Rata-rata Moved Moving Average untuk Mendeteksi Konsep Drift (Submitted on 25 Dec 2012) Abstrak: Klasifikasi data streaming memerlukan pengembangan metode yang Efisien secara komputasi dan mampu mengatasi perubahan dalam distribusi arus yang mendasarinya, sebuah fenomena yang dikenal dalam literatur sebagai konsep drift. Kami mengusulkan sebuah metode baru untuk mendeteksi drift konsep yang menggunakan grafik Exponentially Weighted Moving Average (EWMA) untuk memantau tingkat kesalahan klasifikasi dari pengklasifikasi streaming. Pendekatan kami modular dan karenanya dapat dijalankan secara paralel dengan classifier yang mendasari untuk menyediakan lapisan tambahan deteksi drift konsep. Selain itu, metode kami efisien secara komputasi dengan overhead O (1) dan bekerja secara online sepenuhnya tanpa perlu menyimpan data poin di memori. Tidak seperti banyak pendekatan yang ada terhadap deteksi drift konsep, metode kami memungkinkan tingkat deteksi positif palsu dikendalikan dan tetap konstan seiring berjalannya waktu. Pembelajaran Mesin (stat. ML) Learning (cs. LG) Applications (stat. AP) Di halaman ini, kami menyediakan kumpulan ensemble stream data yang dirancang untuk mengatasi drift konsep (Learn. NSE, Dynamic Weighted Mayoritas, Ensemble Building, dan RCD ), Detektor drift konsep (Paired Learners, ECDD, dan PHT) dan kumpulan data (Sine and Mixed). Parameter dan kertas yang sesuai dijelaskan di bawah ini. Dokumentasi Untuk menggunakan ekstensi ini, Anda perlu mendownload moa. jar dan sizeofag. jar, tersedia di situs kerangka kerja MOA. Kemudian, tambahkan file JAR di bawah di classpath saat meluncurkan MOA. Sebagai contoh, di Linux: java - cp EnsembleClassifiers. jar: moa. jar: weka. jar - javaagent: sizeofag. jar moa. gui. GUI File JAR pada dasarnya memiliki file kelas yang mengimplementasikan setiap classifier. Pilihan lainnya adalah dekompresi moa. jar, sertakan file sumber dalam paket moa. classifiers dan kompilasi ulang MOA. Ensemble Classifiers Recurring concept drifts (RCD) adalah framework yang dikembangkan untuk menghadapi konteks yang terulang kembali. Setelah identifikasi drift konsep dengan metode deteksi drift, ia menggunakan uji statistik non-parametrik multivariat untuk memeriksa apakah konteksnya baru atau yang lama yang terjadi lagi. Parameter yang digunakan dalam RCD adalah sebagai berikut: - l: Base learner. - b: Ukuran penyangga. Ini adalah contoh konteks aktual dan tersimpan dan digunakan oleh uji statistik untuk mengidentifikasi konteks reoccurring. - t: Uji frekuensi. Pada tahap pengujian, ini adalah tingkat uji statistik yang dilakukan untuk mempertahankan penggolong aktual mengenai konteks sekarang. - d: Metode deteksi drift untuk digunakan. - a: Uji statistik yang akan digunakan. - s: Kesamaan persentase minimum antara distribusi (p-value). - c: Jumlah maksimum pengklasifikasi untuk disimpan. - m: Ukuran kolam thread, menunjukkan berapa banyak tes simultan yang diperbolehkan. Referensi Paulo Mauricio Gonalves Jr. dan Roberto Souto Maior de Barros. RCD: Kerangka Drift Konsep Berulang. Pola Pengakuan Letters. 34 (9), halaman 1018-1025, 2013. Elsevier. URL dx. doi. org10.1016j. patrec.2013.02.005 Ensemble Building Classifier lebih cocok untuk menangani drift konsep berulang. Parameternya adalah: - l: Base learner. - e: Permitted error. - a: Faktor penerimaan. - c: Ukuran chunk. - r: Jumlah maksimum penggolong untuk disimpan dan dipilih saat membuat ansambel. - n: Jumlah maksimum pengklasifikasi dalam ansambel. Referensi Sasthakumar Ramamurthy dan Raj Bhatnagar. Melacak Konsep Berulang Drift di Streaming data menggunakan Ensemble Classifiers. Dalam Konferensi Internasional Keenam tentang Pembelajaran dan Aplikasi Mesin, hal. 404-409, 2007. URL dx. doi. org10.1109ICMLA.2007.80. Mayoritas Tertimbang Dinamis (sudah termasuk dalam MOA) Parameter yang tersedia untuk pengklasifikasi ini adalah yang ditunjukkan dalam makalah yang direferensikan: - l: Base learner. - p: Periode antara pemindahan pakar, pembuatan, dan pembaruan berat. - b: Faktor untuk menghukum kesalahan pengklasifikasi. - g: Fraksi minimum berat per penggolong. Referensi Jeremy Zico Kolter dan Marcus A. Maloof. Menggunakan ansambel ahli aditif untuk mengatasi drift konsep. Dalam Prosiding Konferensi Internasional Mesin Pembelajaran ke-22, ICML 05, halaman 449-456, New York, NY, AS, 2005. ACM. ISBN 1-59593-180-5. URL doi. acm. org10.11451102351.1102408 Jeremy Zico Kolter dan Marcus A. Maloof. Mayoritas tertimbang dinamis: Metode ensemble untuk konsep drifting. Journal of Machine Learning Research. 8: 2755-2790, Desember 2007. ISSN 1532-4435. URL dl. acm. orgcitation. cfmid1314498.1390333 Learn. NSE (Sudah termasuk dalam MOA) Parameter yang tersedia untuk pengklasifikasi ini adalah yang ditunjukkan dalam makalah yang direferensikan: - l: Base learner. - p: Ukuran lingkungan. Setelah berapa banyak contoh penggolong baru akan dibuat. - a: Kemiringan fungsi sigmoid yang mengendalikan jumlah periode sebelumnya diperhitungkan selama pembobotan. - b: Titik persimpangan setengah dari fungsi sigmoid yang mengendalikan jumlah periode sebelumnya diperhitungkan selama pembobotan. - s: Strategi pemangkasan klasifikasi yang akan digunakan (TIDAK: tidak ada pemangkasan, UMUR: berbasis usia, KESALAHAN: berbasis kesalahan). - e: ukuran maksimum Ensemble. Referensi Matius Karnick, Metin Ahiskali, Michael D. Muhlbaier, dan Robi Polikar. Konsep pembelajaran melayang di lingkungan nonstasioner dengan menggunakan ansambel pembukuan berbasiskan ap-proach. Dalam Konferensi Gabungan IEEE Internasional tentang Jaringan Syaraf Tiruan (IEEE World Congress on Computational Intelligence), IJCNN 08, halaman 3455-3462, Juni 2008a. URL dx. doi. org10.1109IJCNN.2008.4634290 Matius Karnick, Michael D. Muhlbaier, dan Robi Polikar. Pembelajaran inkremental di lingkungan non-stasioner dengan konsep drift menggunakan pendekatan multiple classifier. Dalam Konferensi Internasional tentang Pengenalan Pola 19, ICPR 08, halaman 1-4, Desember 2008b. URL dx. doi. org10.1109ICPR.2008.4761062 Michael Muhlbaier dan Robi Polikar. Pendekatan ansambel untuk pembelajaran inkremental di lingkungan nonstasioner. Di Michal Haindl, Josef Kittler, dan Fabio Roli, editor, Multiple Classifier Systems, volume 4472 dari Lecture Notes di Ilmu Komputer, halaman 490-500. Springer Berlin Heidelberg, 2007. ISBN 978-3-540-72481-0. URL dx. doi. org10.1007978-3-540-72523-749 Ryan Elwell dan Robi Polikar. Pembelajaran inkremental drift konsep di lingkungan non-stasioner. Transaksi IEEE pada Neural Networks, 22 (10): 1517-1531, Oktober 2011. ISSN 1045-9227. URL dx. doi. org10.1109TNN.2011.2160459 R. Elwell dan R. Polikar. Pembelajaran inkremental di lingkungan nonstasioner dengan hambatan yang terkendali. Dalam Konferensi Gabungan IEEE Internasional tentang Jaringan Syaraf Tiruan, IJCNN 09, halaman 771-778, Los Alamitos, CA, AS, Juni 2009b. Masyarakat Komputer IEEE. URL dx. doi. org10.1109IJCNN.2009.5178779 Concept Drift Detectors Metode deteksi drift virtual yang menggunakan uji statistik multivariat non parametrik. Parameternya adalah: - t: Uji statistik yang digunakan. - s: Ukuran jendela. - w: Warning threshold. - d: Tingkat perubahan. Metode deteksi drift untuk mengidentifikasi perubahan pada probabilitas sebelumnya dari kelas. Ini menggunakan uji statistik non-parametrik multivariat. Parameternya adalah: - t: Uji statistik yang digunakan. - s: Ukuran jendela. - w: Warning threshold. - d: Tingkat perubahan. ECDD (Sudah termasuk dalam MOA) EWMA untuk Concept Drift Detection (ECDD) adalah detektor drift yang menggunakan grafik rata-rata pergerakan tertimbang secara eksponensial (EWMA) untuk memantau tingkat kesalahan klasifikasi pengklasifikasi streaming. Ini dapat digunakan seperti DDM dan EDDM di kelas SingleClassifierDrift. Parameternya adalah: - a: Rata-rata panjang run. Menginformasikan tingkat false positive alarm per titik data. - m: Mengontrol berapa banyak bobot yang diberikan pada data yang lebih baru dibandingkan data yang lebih tua. Nilai yang lebih kecil berarti lebih sedikit bobot yang diberikan pada data terakhir. - w: Warning threshold. Referensi Gordon J. Ross, Niall M. Adams, Dimitris K. Tasoulis dan David J. Hand. Bagan rata-rata pergerakan tertimbang secara eksponensial untuk mendeteksi drift konsep. Pattern Recognition Letters, 33, halaman 191-198, 2012. Elsevier. URL dx. doi. org10.1016j. patrec.2011.08.019 Paduan Peserta didik (Sudah termasuk dalam MOA) Detektor pengganda dan detektor drift. Membuat dua pengklasifikasi: stabil dan reaktif. Yang pertama bertanggung jawab untuk mewakili konsep stabil yang sebenarnya, sementara yang reaktif dilatih pada data terbaru. Jika keakuratan reaktif lebih tinggi dari pada stabil, berarti konsep tersebut telah berubah. Penggolong stabil digantikan oleh reaktif, dan reaktif reseted. Parameternya adalah: - s: Stabil pelajar. - r: pelajar yang reaktif. - w: Ukuran jendela untuk pelajar yang reaktif. - t: Threashold untuk menciptakan pelajar baru yang stabil. Referensi Stephen H. Bach dan Marcus A. Maloof, Paduan Peserta untuk Konsep Drift, Dalam Konferensi Internasional IEEE ke-8 tentang Data Mining, hlm. 23-32, 2008. URL dx. doi. org10.1109ICDM.2008.119. PHT (Sudah termasuk dalam MOA) Uji Page-Hinkley (PHT) adalah teknik analisis sekuensial yang biasanya digunakan untuk memantau deteksi perubahan rata-rata sinyal Gaussian. Ini dapat digunakan seperti DDM dan EDDM di kelas SingleClassifierDrift. Parameternya adalah: - d: Deteksi ambang batas. - w: Warning threshold. - m: ambang batas. Referensi Metode DoF mendeteksi drift dengan mengolah data chunk by chunk, menghitung tetangga terdekat pada batch sebelumnya untuk setiap instance dalam batch saat ini dan membandingkan label yang sesuai. Peta jarak dibuat, mengaitkan indeks instance pada batch sebelumnya dan label yang dihitung oleh tetangga terdekat. Sebuah metrik bernama tingkat drift dihitung berdasarkan peta jarak. Rata-rata dan standar deviasi dari semua tingkat drift dihitung dan, jika nilai sekarang jauh dari rata-rata lebih dari standar deviasi, sebuah konsep drift dinaikkan. Parameternya adalah: - w: Ukuran jendela tiap data chunk. - s: Jumlah penyimpangan standar untuk mendeteksi drift. Referensi Parinaz Sobhani dan Hamid Beigy: Metode Deteksi Drift Baru untuk Data Streaming. Adaptive and Intelligent Systems, 2011: Volume 6943, pp 88-97. URL dx. doi. org10.1007978-3-642-23857-412. STEPD (Sudah termasuk dalam MOA) STEPD menghitung keakuratan pelajar dasar dalam kasus W yang paling baru dan membandingkannya dengan keseluruhan ketepatannya dari awal proses belajar. Parameternya adalah: - d: Tingkat signifikansi drift. - m: Tingkat signifikansi untuk peringatan. Referensi Kyosuke Nishida dan Koichiro Yamauchi: Mendeteksi Konsep Drift Menggunakan Uji Statistik. Discovery Science 2007: 264-269. URL dx. doi. org10.1007978-3-540-75488-627. Aliran data buatan Kumpulan data ini dijelaskan di Sobolewski dan Wozniak (2013). Ini digunakan untuk mensimulasikan drift konsep virtual, dengan menghasilkan atribut berdasarkan data gaussian dan drifts konsep dengan mengubah mean sebesar 5,0. Parameternya adalah: - i: Benih untuk generasi acak contoh. - n: Jumlah atribut yang akan dihasilkan. - d: Jumlah atribut dengan konsep drift. - c: Kelas dikaitkan dengan setiap instance. Referensi P. Sobolewski dan M. Wozniak, Studi Perbandingan Uji Statistik untuk Konsep Virtual Drift Detection. Heidelberg: Springer International Publishing, 2013, hlm. 329337. Online. Tersedia: dx. doi. org10.1007978-3-319-00969-832 Kumpulan data ini mensimulasikan drift konsep virtual dengan mengubah posisi empat lingkaran. Parameternya adalah: - i: Benih untuk generasi acak contoh. - f: Fungsi yang menggambarkan posisi lingkaran. - n: Persentase kebisingan. - s: Kurangi data hanya berisi 2 atribut numerik yang relevan. - b: Jumlah atribut yang tidak relevan. Sine (Sudah termasuk dalam MOA) Kumpulan data ini dapat digunakan untuk membuat empat versi Sine yang disajikan di Gama dkk. (2004), dua versi di Baena-Garca dkk. (2006). Parameternya didasarkan pada makalah yang menggunakan kumpulan data ini: - i: Benih untuk generasi acak contoh. - f: Fungsi klasifikasi digunakan (1 sampai 4). Satu (1) adalah pembalikan dua (2), dan tiga (3) adalah pembalikan empat (4). - s: Kurangi data hanya berisi 2 atribut numerik yang relevan. Jika tidak, dua atribut yang tidak relevan dibuat. - b: Saldo jumlah contoh setiap kelas. Referensi Joo Gama, Pedro Medas, Gladys Castillo dan Pedro Pereira Rodrigues. Belajar dengan Drift Detection. Di Bazzan, Ana L. C. dan Labidi, Sofiane, editor, Kemajuan dalam Kecerdasan Buatan - SBIA 2004, volume 3171 Catatan Kuliah dalam Ilmu Komputer, halaman 286-295. Springer Berlin Heidelberg, 2004. ISBN 978-3-540-23237-7. URL dx. doi. org10.1007978-3-540-28645-529. Manuel Baena-Garca, Jos del Campo-vila, Raul Fidalgo, Albert Bifet, Ricard Gavald dan Rafael Morales-Bueno. In: ECML PKDD 2006 Lokakarya Penemuan Pengetahuan dari Aliran Data. 18 Set 2006. Berlin, Jerman. URL eprints. pascal-network. orgarchive00002509 Campuran (Sudah termasuk dalam MOA) Kumpulan data ini dapat digunakan untuk membuat versi yang disajikan dalam Gama dkk. (2004) dan Baena-Garca dkk. (2006). Parameternya didasarkan pada makalah yang menggunakan kumpulan data ini: - i: Benih untuk generasi acak contoh. - f: Fungsi klasifikasi digunakan (1 dan 2), dimana satu (1) adalah pembalikan dua (2). - b: Saldo jumlah contoh setiap kelas. Referensi Joo Gama, Pedro Medas, Gladys Castillo dan Pedro Pereira Rodrigues. Belajar dengan Drift Detection. Di Bazzan, Ana L. C. dan Labidi, Sofiane, editor, Kemajuan dalam Kecerdasan Buatan - SBIA 2004, volume 3171 Catatan Kuliah dalam Ilmu Komputer, halaman 286-295. Springer Berlin Heidelberg, 2004. ISBN 978-3-540-23237-7. URL dx. doi. org10.1007978-3-540-28645-529. Manuel Baena-Garca, Jos del Campo-vila, Raul Fidalgo, Albert Bifet, Ricard Gavald dan Rafael Morales-Bueno. In: ECML PKDD 2006 Lokakarya Penemuan Pengetahuan dari Aliran Data. 18 Set 2006. Berlin, Jerman. URL eprints. pascal-network. orgarchive00002509 Komentar, saran, penyempurnaan, koreksi sangat dihargai. Paulomgj di gmail dot com

No comments:

Post a Comment