Standard deviation, variance, coefficient of variance

Variability: কোন ডাটাসেটে ডাটাগুলো কতটুকু ছড়ানো আছে, একটা ডাটা পয়েন্ট আরেকটা ডাটা পয়েন্ট থেকে কত দুরে বা কাছে আছে, এই ব্যাপারটাকে variability বলে। Variability মাপার জন্য সাধারণত standard deviation, variance আর coefficient of variance ব্যাবহার করা হয়।

Standard deviation (SD): ডাটাসেটের mean এর সাপেক্ষে ডাটাপয়েন্টগুলোর বিচ্যুতি বুঝা যায়। Mean থেকে ডাটা পয়েন্ট যতদূরে, বিচ্যুতি ততো বেশি হয়, SD এর মান ততো বড় হয়। 

Standard deviation for population: 

যেখানে N = মোট ডাটাপয়েন্ট সংখ্যা, μ = পপুলেশনের mean, σ = পপুলেশনের SD।

Standard deviation for sample:

যেখানে N = মোট ডাটাপয়েন্ট সংখ্যা, x̄ = স্যাম্পলের mean, s = স্যাম্পলের SD।

Variance: SD এর মানকে স্কয়ার করলে variance পাওয়া যায়। Variance এর মান যেহেতু স্কোয়ার করলে পাওয়া যায়, এইটি অনেক বড় একটা সংখ্যা। এজন্য ডাটা প্লট করার জন্য  SD ব্যাবহার করা হয়।

Variance for population: 

Variance for sample: 

Coefficient of variance (CoV): যখন ভিন্ন ভিন্ন ডাটাসেটের variability এর মধ্যে তুলনা করে দেখতে চাই, তখন coefficient of variance ব্যাবহার করা হয়। ভিন্ন ডাটাসেটের SD তুলনা করা অর্থহীন।

Coefficient of variance for population: σ / μ

Coefficient of variance for sample: s / x̄

একটি উদাহরণের মাধ্যমে আমরা ব্যাপারটা দেখি। ধরি বাংলাদেশের ১০টি বেকারির চকলেট কেকের দাম সৌদি রিয়াল আর বাংলাদেশি টাকায় দেওয়া আছে।

এখন বাংলাদেশে কি শুধু ১০টা বেকারি আছে? না, আরও অনেক বেকারি আছে। তারমানে এই ডাটাসেট একটা স্যাম্পলের ডাটাসেট। সুতরাং এই ডাটাসেটের জন্য আমরা স্যাম্পলের সূত্রগুলো ব্যাবহার করব।

BakerySaudi Riyal (SAR)Bangladeshi Taka (BDT)
1244.77
27156.68
311246.22
415.5346.94
522492.43
625559.58
733738.65
837828.18
9481074.40
10551231.08



Saudi Riyal (SAR)Bangladeshi Taka (BDT)
Mean25.55571.893
Standard Deviation17.58393.55
Variance309.10154880.55
Coefficient of variance0.690.69

আমরা যদি SD এর মান দিয়ে ২টা ডাটাসেটের মধ্যে তুলনা করি, তাহলে কোন অর্থ হয়না। ২টা ডাটাসেট তো কেকের একই দাম নির্দেশ করে, খালি ২ রকম currency দিয়ে। তাহলে কি SAR এর জন্য ডাটাগুলোর distribution একরকম আর BDT এর জন্য অন্যরকম? কিন্তু যদি CoV এর মান দেখি, তাহলে বুঝা যায় ২টা ডাটাসেটের জন্য ডাটাগুলোর spread একইরকম। 

আরও পড়তে চাইলে:

4 thoughts on “Standard deviation, variance, coefficient of variance

  1. Standard Deviation for sample বের করতে সূত্রে N এর পরিবর্তে N-1 কেন ব্যবহৃত হয়েছে?

  2. থায় range এবং কোথায় cofficient of variance ব্যবহার করব

Leave a Reply