Construction of Decision Tree: Gain ratio

আমরা এর আগে ID3 অ্যালগরিদম ব্যাবহার করে ডিসিশন ট্রি গঠন করেছি। এর জন্য আমরা এন্ট্রপি আর ইনফরমেশন গেইন ব্যাবহার করেছি। কিন্তু এর কিছু সমস্যা আছে। যেসব অ্যাট্রিবিউটের বেশি ইউনিক ভ্যালু থাকে, ID3 সেইসব অ্যাট্রিবিউটের প্রতি বায়াস থাকে। অর্থাৎ মাল্টি-ভ্যালুড অ্যাট্রিবিউটকে সে বেস্ট  অ্যাট্রিবিউট হিসেবে ধরে নেয় এবং রুট নোডে অ্যাসাইন করতে চায়। যেমন যদি একটা … Continue reading Construction of Decision Tree: Gain ratio

Constructing a decision tree: Entropy & Information gain

আমরা জানি ডিসিশন ট্রি গঠনের সময় আমরা ডিসিশন নোডগুলোতে বিভিন্ন অ্যাট্রিবিউট অ্যাসাইন করি। কিন্তু কোন নোডে কোনটা অ্যাসাইন করতে হবে, এইটা বুঝব কি করে? যদি আমরা র‍্যান্ডমলি অ্যাসাইন করি, তাহলে কি হবে?  টার্গেট ভ্যারিয়াবল (যেইটার ভ্যালু আমরা প্রেডিক্ট করতে চাই) আর ফিচার ভ্যারিয়াবলগুলোর (বাকি সব অ্যাট্রিবিউট) মধ্যে সমান সম্পর্ক থাকেনা। কিছু কিছু ফিচার টার্গেট ভ্যারিয়াবলের … Continue reading Constructing a decision tree: Entropy & Information gain

Decision Tree: A Classification Algorithm

উপরে একটা স্পিড লিমিট সাইন এবং একটা ডায়াগ্রাম দেওয়া। ডায়াগ্রামের সবার উপরের নোডে দেওয়া “গাড়ির স্পিড >= ৫০”। এখন আমরা জিজ্ঞেস করি “গাড়ির স্পিড কি ৫০ এর সমান বা বেশি?” যদি উত্তর হয় “হ্যাঁ", তবে গাড়ির স্পিড কমায় আনতে হবে। যদি উত্তর হয় “না”, তবে গাড়ির স্পিড যেমন আছে, ওই স্পিডে চললেই হবে।  এইখানে একটা … Continue reading Decision Tree: A Classification Algorithm

Sufficient Statistics: Working out different distributions (Part 3)

আমরা আরও কয়েকটা উদাহরণ দেখব বিভিন্ন ডিস্ট্রিবিওশনের। উদাহরণগুলো বুঝার জন্য সাফিশিয়েন্ট স্ট্যাটিস্টিক্স ও ফ্যাক্টরাইজেশন থিওরেমের ধারনা থাকতে হবে। এই থ্রেডের আগের অংশ এইখানে।  ৫। ধরি একটা নরমাল ডিস্ট্রিবিওশন দেওয়া আছে, যার অজানা প্যারামিটার মিন μ এবং ভ্যারিয়্যান্স σ2 = 1। μ এর সাফিশিয়েন্ট স্ট্যাটিস্টিক্স কি হবে? নরমাল ডিস্ট্রিবিওশনের pdf, $latex f(x)= \frac{1}{\sigma \sqrt{2 \pi}} \: … Continue reading Sufficient Statistics: Working out different distributions (Part 3)

Sufficient Statistics: Working out different distributions (Part 2)

আমরা আরও কয়েকটা উদাহরণ দেখব বিভিন্ন ডিস্ট্রিবিওশনের। উদাহরণগুলো বুঝার জন্য সাফিশিয়েন্ট স্ট্যাটিস্টিক্স ও ফ্যাক্টরাইজেশন থিওরেমের ধারনা থাকতে হবে। এই থ্রেডের আগের অংশ এইখানে।  ৩। একটা এক্সপোনেনশিয়াল ডিস্ট্রিবিওশন দেওয়া আছে, যার অজানা প্যারামিটার λ। λ এর সাফিশিয়েন্ট স্ট্যাটিস্টিক্স কি হবে? এক্সপোনেনশিয়াল ডিস্ট্রিবিওশনের pdf, $latex f(x)=\lambda \: e^{-\lambda x} &s=1$ জয়েন্ট pdf হবে, $latex \begin{aligned} f(x_1,x_2,...,x_n|\lambda) &= … Continue reading Sufficient Statistics: Working out different distributions (Part 2)

Sufficient Statistics: Working out different distributions (Part 1)

আমরা ফ্যাক্টরাইজেশন থিওরেম ব্যাবহার করে বিভিন্ন প্রবাবিলিটি ডিস্ট্রিবিওশনের জন্য সাফিশিয়েন্ট স্ট্যাটিস্টিক্স বের করে দেখব। এর জন্য নিচের জিনিসগুলো খেয়াল রাখতে হবে।  যে ডিস্ট্রিবিওশন দেওয়া থাকবে, তার pdf/pmf জানতে হবে। জয়েন্ট pdf/pmf বের করতে হবে। h(x) এবং gθ(t) বের করতে হবে। অজানা প্যারামিটারসহ সকল অংশ gθ(t) তে যাবে, বাদবাকি সব হবে h(x)। gθ(t) ফাংশনে অজানা প্যারামিটার এবং কন্সটান্ট বাদে … Continue reading Sufficient Statistics: Working out different distributions (Part 1)

Neyman-Fisher Factorization Criterion/Theorem: How to find a sufficient statistic?

আমরা সাফিশিয়েন্ট স্ট্যাটিস্টিক্সের কনসেপ্ট জেনেছি। এখন যদি আমরা কোন প্যারামিটারের জন্য সাফিশিয়েন্ট স্ট্যাটিস্টিক্স বের করতে চাই, তাহলে কি করব? আমরা সংজ্ঞা থেকে বলতে পারি যে র‍্যান্ডম স্যাম্পলগুলোর কন্ডিশনাল ডিস্ট্রিবিউশন বের করতে পারি, এরপর ক্যালকুলেশন করে দেখতে পারি ডিস্ট্রিবিউশন প্যারামিটারের উপর নির্ভর করে কিনা। প্রাক্টিকালি কন্ডিশনাল ডিস্ট্রিবিউশন বের করা এত সহজ না। এজন্য কোন প্যারামিটারের জন্য … Continue reading Neyman-Fisher Factorization Criterion/Theorem: How to find a sufficient statistic?

Sufficient Statistic: Definition, Example

আমরা জানি যে পপুলেশনের ক্ষেত্রে প্যারামিটার এবং স্যাম্পলের ক্ষেত্রে স্ট্যাটিস্টিক্স বলে। যদি আমরা এমন কোন একটা স্ট্যাটিস্টিক্স জানি যেইটা দিয়ে ঐ পপুলেশনের কোন প্যারামিটার সম্পর্কে সব জানা হয়ে যায়, তাহলে সেই স্ট্যাটিস্টিক্সকে আমরা বলব Sufficient statistics। যেমন স্যাম্পলের মিন x̄ দিয়ে আমরা পপুলেশন মিন μ এস্টিমেট করতে চাই। অরিজিনাল ডাটা পয়েন্টের যা ইনফরমেশন পপুলেশন মিনে … Continue reading Sufficient Statistic: Definition, Example

Random Variables

আলজেবরায় আমরা ইকুয়েশন সল্ভ করতে বিভিন্ন ভ্যারিয়েবল ব্যাবহার করেছি। কোন একটা অজানা মানকে প্রকাশ করতে এই ভ্যারিয়েবল ব্যাবহার করি। যেমন: x + 4 = 7, এইখানে সল্ভ করলে আমরা মান পাব x = 3। আমরা কিছু ক্যালকুলেশন করে ভ্যারিয়েবল x এর মান পেয়েছি।  Random variable: অনুরূপভাবে প্রবাবিলিটি ও স্টাটিস্টিক্সে র‍্যান্ডম ভ্যারিয়েবল ব্যাবহার করা হয়। কোন … Continue reading Random Variables

Conditional Probability

Conditional probability: ধরি দুইটা ইভেন্ট A ও B। ইভেন্ট B ঘটার সাপেক্ষে ইভেন্ট A হওয়ার যে প্রবাবিলিটি, সেইটাই হল ইভেন্ট A এর কন্ডিশনাল প্রবাবিলিটি। এই নোটেশন এইভাবে দেওয়া হয় - P(A|B) । $latex P(A|B) = \frac{P(A \cap B)}{P(B)} \phantom{xxxxxxx} &s=3$ এইখানে P(B) > 0 আমরা প্রবাবিলিটির সূত্র থেকে জানি: সাধারণ ক্ষেত্রে যদি আমরা ইভেন্ট এর … Continue reading Conditional Probability