রুল ১। ধরি ২টি ইভেন্ট A ও B (মিউচুয়ালি এক্সক্লুসিভ না), ইভেন্ট A অথবা B ঘটার প্রবাবিলিটি হবে - ভেন ডায়াগ্রাম থেকে দেখলে ব্যাপারটা ভাল বুঝা যাবে। P(A) হিসাব করার সময় আমরা পুরো A ইভেন্টের সবটুকু নিয়ে হিসাব করছি, আবার P(B) হিসাব করার সময় একইভাবে পুরো B ইভেন্টের পুরোটা নিয়ে হিসাব করছি। যেহেতু A আর … Continue reading Additive Rules: Probability
data science
Probability of an Event
Probability: প্রবাবিলিটি একটা রেশিও যেইটা প্রকাশ করে সম্ভাব্য সব outcome এর সাপেক্ষে একটা নির্দিষ্ট outcome কতবার ঘটতে পারে। কোন ইভেন্টের প্রবাবিলিটি P(E) এইভাবে প্রকাশ করে। প্রবাবিলিটির কিছু প্রপার্টি: 0 ≤ P(E) & ≤ 1 , কোন ইভেন্টের প্রবাবিলিটি 0 থেকে 1 এর মধ্যে হয়। P(sure event) = 1 , যে ইভেন্ট ঘটবেই, তার প্রবাবিলিটি 1। P(impossible event) … Continue reading Probability of an Event
Events: Types of Events in Probability
কোন এক্সপেরিমেন্টের এক বা একাধিক outcome কে Event বলে। কোন ডাই টস করলে কি কি outcome হতে পারে? স্যাম্পল স্পেস = {১, ২, ৩, ৪, ৫, ৬} এইগুলার মধ্যে যেকোনো একটা হতে পারে। ধরি ডাই টস করলে একটা সংখ্যা ২ উঠল, এইক্ষেত্রে ইভেন্ট, E = {২}। আবার, ডাই টস করলে একটা জোড় সংখ্যা উঠবে, তখন … Continue reading Events: Types of Events in Probability
Bessel’s correction: why N-1?
এরমধ্যে আমরা standard deviation (s) আর variance (s2) এর ব্যাপারে জেনেছি। কিন্তু একটা বিষয় লক্ষনীয় স্যাম্পলের s এবং s2 বের করার সময় আমরা N-1 দিয়ে ভাগ করি। কেন করি? শুধু N দিয়ে ভাগ করিনা কেন? Bessel’s correction: কিছু সূত্রে কারেকশন হিসেবে ’N-1’ দেখা যায়, এই কারেকশনকে Bessel’s correction বলে। স্যাম্পল স্ট্যান্ডার্ড ডেভিয়েশন আর স্যাম্পল ভ্যারিয়েন্সের … Continue reading Bessel’s correction: why N-1?
Discrete and continuous variable
Discrete variable: যা নির্দিষ্ট সময়ের মধ্যে গণনা করে শেষ করা যায় এবং এর মানগুলো নির্দিষ্ট হয়। যেমন: ক্লাসে যদি মোট ৫ জন স্টুডেন্ট থাকে, তাহলে স্টুডেন্ট সংখ্যা ১, ২, ৩, ৪, ৫ - এর মধ্যে যেকোনো একটা মান হবে। কখনই ৩.৫ বা ২.৪৬ এমন কোন মান হতে পারবেনা। ব্যাগের মধ্যে কয়টা বল আছে, কোন রুমে … Continue reading Discrete and continuous variable
Fundamental counting principle
আগের পোস্টে আমরা স্যাম্পল স্পেস আর সাইজ বের করা শিখলাম। এখন আমরা যদি ৩টা ডাইস টস করার স্যাম্পল সাইজ বের করতে চাই? প্রথমে স্যাম্পল স্পেস করতে হবে, এরপর গুনে সাইজ বের করতে হবে। এইক্ষেত্রে স্যাম্পল সাইজ ২১৬। তাহলে কি আমরা এত বড় স্যাম্পল স্পেস এঁকে এরপর গুনব? আচ্ছা কষ্ট হলেও নাহয় আমরা অনেক সময় নিয়ে … Continue reading Fundamental counting principle
Sample space
Experiment হচ্ছে একটি প্রসেস যার কিছু রেজাল্ট থাকে এবং এই রেজাল্টগুলোকে রেকর্ড বা অব্জার্ভকরা হয়। একটা এক্সপেরিমেন্টের সম্ভাব্য রেজাল্টকে Outcome বলে। কোন এক্সপেরিমেন্টের এক বা একাধিক outcome কে Event বলা হয়। Sample space: কোন এক্সপেরিমেন্টের যতগুলো সম্ভাব্য outcome আছে, সবগুলো মিলায় হল sample space। { } এই সেট দিয়ে স্যাম্পল স্পেস কে লেখা হয়। … Continue reading Sample space
5 number summary, Boxplots
কোন ডাটাসেটের descriptive analysis এর জন্য 5 number summary গুরুত্বপূর্ণ। একটি ধারণা দেয় ডাটাগুলো কিভাবে distributed আছে। 5 number summary এর ক্ষেত্রে ৫টি তথ্য দেওয়া থাকে। যথাক্রমে: The minimum: ডাটাসেটের সবচেয়ে ছোট মান। The first Quartile (Q1): ডাটাসেটের lower half এর মধ্যমা (median)। The median: ডাটাসেটের মধ্যমা (median)। The third Quartile (Q3): ডাটাসেটের upper half এর … Continue reading 5 number summary, Boxplots
Standard deviation, variance, coefficient of variance
Variability: কোন ডাটাসেটে ডাটাগুলো কতটুকু ছড়ানো আছে, একটা ডাটা পয়েন্ট আরেকটা ডাটা পয়েন্ট থেকে কত দুরে বা কাছে আছে, এই ব্যাপারটাকে variability বলে। Variability মাপার জন্য সাধারণত standard deviation, variance আর coefficient of variance ব্যাবহার করা হয়। Standard deviation (SD): ডাটাসেটের mean এর সাপেক্ষে ডাটাপয়েন্টগুলোর বিচ্যুতি বুঝা যায়। Mean থেকে ডাটা পয়েন্ট যতদূরে, বিচ্যুতি ততো … Continue reading Standard deviation, variance, coefficient of variance
Mean, median, mode (গড়, মধ্যমা, প্রচুরক)
ধরি একটা ডাটাসেটে দেওয়া আছে {১৩, ৪, ২, ৮, ১১, ১৫, ৩, ৭, ১৯}। এইখানে ৯টি ডাটা পয়েন্ট আছে। Mean (গড়): একেবারে সোজা বাংলায় গড় যেইটাকে বলে, সেইটাই। এখন আমরা এই ডাটাসেটের Mean বের করার জন্য প্রথমে সবগুলা ডাটা পয়েন্টের মান যোগ করব। এরপর মোট ডাটা সংখ্যা দিয়ে ভাগ করব। যোগ: ১৩ + ৪ + … Continue reading Mean, median, mode (গড়, মধ্যমা, প্রচুরক)