মেশিন লার্নিংঃ অ্যালগরিদম পারফর্মেন্স কম্পারিজন

মেশিন লার্নিং এর ক্ষেত্রে একটি প্রবলেমকে একাধিক অ্যালগরিদম এর সাহায্যে সল্ভ করা যায়, এক্ষেত্রে মূল উদ্দেশ্য থাকে যে অ্যালগরিদম টির পারফর্মেন্স, টাইম কম্পেলক্সিটি, অ্যাকুরেসি তুলনা মূলক ভাল, সেটিকেই ব্যবহার ভাল হয়।

একটি প্রবলেম এর মাধ্যমে এই ব্যাপারটি লক্ষ্য করলে আরও ভাল্ভাবে বুঝা যাবে, এর জন্য একটি সহজ প্রবলেম, যেটি হচ্ছে আইরিস ডাটাসেট ক্লাসিফিকেশন প্রবলেম। যেখানে ডাটাসেট এ তিন লেবেলের 150টি আইরিস আছে, প্রেডিক্ট করতে হবে আইরিসটি কোন ধরনের। এই প্রবলেমটিকে বিভিন্ন অ্যালগরিদমের সাহায্যে সল্ভ করে দেখা যায় কোন অ্যালগরিদমটি সবচেয়ে ভালো রেজাল্ট দেয়।

প্রবলেমটি সল্ভ করার জন্য প্রয়োজনীয় লাইব্রেরী এবং প্যাকেজ গুলো লোড করা হল।

ডাটাসেট লোড করা করে ডাটা ভিজ্যুলাইজ করা পরের স্টেপ। ডাটাসেটটি এই লিঙ্ক এঃ https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv পাওয়া যাবে।

ডাটাসেট ভিজ্যুলাইজ করলে দেখা যায় ডাটাসেটটির অ্যাট্রিবিউট পাঁচটি, যার উপর আউটপুট লেবেল নির্ভর করে। ডাটাসেট এর শেষ দশটি ডাটা রিড করে দেখা যায় ডাটার প্রকৃতি।

ডাটাসেটটিকে ট্রেইন ও টেস্ট সেট এ ভাগ করে ভ্যালিডেসন সেট তৈরি করতে হবে। এক্ষেত্রে 80-20% পার্টিশন করা হয়েছে।

প্রবলেমটিকে সল্ভ করার ক্ষেত্রে sklearn লাইব্রেরীর model প্যাকেজ এর ছয়টি আলাদা অ্যালগরিদম মডেল ব্যবহার করা হয়েছে, যার রেজাল্ট পর্যালোচনা করে বুঝা যাবে কোন অ্যালগরিদমটির পারফর্মেন্স তুলনামূলক ভালো।

অ্যালগরিদম মডেল হিসেবে Logistic Regression, Linear Discriminant Analysis, K-Neighbors Classifier, Decision Tree, GaussianNB, Support Vector Machine. অ্যালগরিদম এর রেজাল্টের দিকে যদি লক্ষ্য করলে দেখা যাবে যে, K-Neighbors Classifier অ্যালগরিদম সবচেয়ে ভালো 98.33% অ্যাকুরেসি লাভ করেছে।

মেশিন লার্নিং প্রবলেম সল্ভ করার ক্ষেত্রে, এই বিষয়টি গুরুত্বপূর্ণ যে একটি সুনির্দিষ্ট প্রবলেম এর জন্য একটি অ্যালগরিদম বা মডেল সবচেয়ে ভালো রেজাল্ট দিবে যেটি অ্যালগরিদম গুলোর পারফর্মেন্স evaluation করে নির্বাচন করে নিতে হবে।