Variability: কোন ডাটাসেটে ডাটাগুলো কতটুকু ছড়ানো আছে, একটা ডাটা পয়েন্ট আরেকটা ডাটা পয়েন্ট থেকে কত দুরে বা কাছে আছে, এই ব্যাপারটাকে variability বলে। Variability মাপার জন্য সাধারণত standard deviation, variance আর coefficient of variance ব্যাবহার করা হয়।
Standard deviation (SD): ডাটাসেটের mean এর সাপেক্ষে ডাটাপয়েন্টগুলোর বিচ্যুতি বুঝা যায়। Mean থেকে ডাটা পয়েন্ট যতদূরে, বিচ্যুতি ততো বেশি হয়, SD এর মান ততো বড় হয়।
Standard deviation for population:
যেখানে N = মোট ডাটাপয়েন্ট সংখ্যা, μ = পপুলেশনের mean, σ = পপুলেশনের SD।
Standard deviation for sample:
যেখানে N = মোট ডাটাপয়েন্ট সংখ্যা, x̄ = স্যাম্পলের mean, s = স্যাম্পলের SD।
Variance: SD এর মানকে স্কয়ার করলে variance পাওয়া যায়। Variance এর মান যেহেতু স্কোয়ার করলে পাওয়া যায়, এইটি অনেক বড় একটা সংখ্যা। এজন্য ডাটা প্লট করার জন্য SD ব্যাবহার করা হয়।
Variance for population:
Variance for sample:
Coefficient of variance (CoV): যখন ভিন্ন ভিন্ন ডাটাসেটের variability এর মধ্যে তুলনা করে দেখতে চাই, তখন coefficient of variance ব্যাবহার করা হয়। ভিন্ন ডাটাসেটের SD তুলনা করা অর্থহীন।
Coefficient of variance for population: σ / μ
Coefficient of variance for sample: s / x̄
একটি উদাহরণের মাধ্যমে আমরা ব্যাপারটা দেখি। ধরি বাংলাদেশের ১০টি বেকারির চকলেট কেকের দাম সৌদি রিয়াল আর বাংলাদেশি টাকায় দেওয়া আছে।
এখন বাংলাদেশে কি শুধু ১০টা বেকারি আছে? না, আরও অনেক বেকারি আছে। তারমানে এই ডাটাসেট একটা স্যাম্পলের ডাটাসেট। সুতরাং এই ডাটাসেটের জন্য আমরা স্যাম্পলের সূত্রগুলো ব্যাবহার করব।
Bakery | Saudi Riyal (SAR) | Bangladeshi Taka (BDT) |
1 | 2 | 44.77 |
2 | 7 | 156.68 |
3 | 11 | 246.22 |
4 | 15.5 | 346.94 |
5 | 22 | 492.43 |
6 | 25 | 559.58 |
7 | 33 | 738.65 |
8 | 37 | 828.18 |
9 | 48 | 1074.40 |
10 | 55 | 1231.08 |
Saudi Riyal (SAR) | Bangladeshi Taka (BDT) | |
Mean | 25.55 | 571.893 |
Standard Deviation | 17.58 | 393.55 |
Variance | 309.10 | 154880.55 |
Coefficient of variance | 0.69 | 0.69 |
আমরা যদি SD এর মান দিয়ে ২টা ডাটাসেটের মধ্যে তুলনা করি, তাহলে কোন অর্থ হয়না। ২টা ডাটাসেট তো কেকের একই দাম নির্দেশ করে, খালি ২ রকম currency দিয়ে। তাহলে কি SAR এর জন্য ডাটাগুলোর distribution একরকম আর BDT এর জন্য অন্যরকম? কিন্তু যদি CoV এর মান দেখি, তাহলে বুঝা যায় ২টা ডাটাসেটের জন্য ডাটাগুলোর spread একইরকম।
আরও পড়তে চাইলে:
- https://www.mathsisfun.com/data/standard-deviation.html
- https://www.bmj.com/about-bmj/resources-readers/publications/statistics-square-one/2-mean-and-standard-deviation
- https://www.investopedia.com/terms/s/standarddeviation.asp
- https://statistics.laerd.com/statistical-guides/measures-of-spread-standard-deviation.php
- https://www.statisticshowto.com/probability-and-statistics/variance/
- https://www.sciencebuddies.org/science-fair-projects/science-fair/variance-and-standard-deviation
- https://corporatefinanceinstitute.com/resources/knowledge/other/coefficient-of-variation/
- https://www.investopedia.com/terms/c/coefficientofvariation.asp
- https://www.statisticshowto.com/probability-and-statistics/how-to-find-a-coefficient-of-variation/
Standard Deviation for sample বের করতে সূত্রে N এর পরিবর্তে N-1 কেন ব্যবহৃত হয়েছে?
ধন্যবাদ সুমাইয়া প্রশ্ন করার জন্য। এইখানে লিংকে দেখতে পারেন: https://learnwithgauhar.wordpress.com/2020/08/22/bessels-correction-why-n-1/
Sample er khetre eta use korte hoi
থায় range এবং কোথায় cofficient of variance ব্যবহার করব