Population: কোন গ্রুপ বা ডাটাসেট জার ব্যাপারে আমরা কোন তথ্য জানতে চাচ্ছি, ওই পুরো গ্রুপটাই হল population. Population অনেক ছোট হতে পারে, আবার অনেক বড় হতে পারে। Statistics এর ভাষায় population বলতে জনসংখ্যা বুঝায় না, এইটা যেকোনো কিছুর গ্রুপ হতে পারে যেমন – মানুষ, প্রাণী, দেশ, বস্তু, খাবার ইত্যাদি। Population সংখ্যা ছোট হলে, প্রত্যেক মেম্বারের individually ডাটা নেওয়া সম্ভব। এইক্ষেত্রে আমরা পুরো population নিয়ে কাজ করি। কিন্তু population সংখ্যা অনেক বেড়ে গেলে, তখন প্রত্যেক মেম্বারের individually ডাটা নেওয়া সম্ভব হয়না। তখন sample নিয়ে কাজ করতে হয়।
Sample: Population বড় হলে population এর যে সাবগ্রুপ থেকে ডাটা নেওয়া হয়, তাকে sample বলে। পপুলেশন অনেক বড় আর ডাটা কালেক্ট করা কষ্টসাধ্য হলে sample ব্যাবহার করা হয়। অনেক সময় পপুলেশন hypothetical হলে সত্যিকারে ডাটা কালেক্ট করার উপায় নাই, তখন sample ব্যাবহার করা হয়। Population থেকে sample বাছাই করার মেথডকে sampling method বলে। এর জন্য probability sampling method এবং non-probability sampling method, ২ রকম হতে পারে। সাধারণত probability sampling method (random sampling or stratified sampling) ব্যাবহার করা হয়। যদি specific criteria এর ভিত্তিতে sampling করার প্রয়োজন হয়, তখন non-probability sampling method ব্যাবহার করা হয়।
সকল ধরনের মিউজিক ব্যান্ড হল population, alternative rock bands হল sample.
Population parameters vs Sample statistics: ডাটা কালেক্ট করে আমরা সেই ডাটা থেকে কিছু সংখ্যা ক্যালকুলেট করতে পারি। Population এর ডাটা থেকে ক্যালকুলেট করলে সেইটাকে parameter বলে, sample এর ডাটা থেকে ক্যালকুলেট করলে সেইটাকে statistic বলে। এদের denote করার জন্য আলাদা সিম্বাল ব্যাবহার করা হয়।
Sampling error: Population parameter এবং sample statistic এর মধ্যে যে পার্থক্য তাকে sampling error বলে। যেহেতু sample হুবুহু population এর পুরোটা হয়না, এজন্য এই error দেখা দেয়। Sample size বাড়ালে এই sampling error কম হয়।
আরও পড়তে চাইলে:
- https://www.scribbr.com/methodology/population-vs-sample/
- https://www.bmj.com/about-bmj/resources-readers/publications/statistics-square-one/3-populations-and-samples
- https://stattrek.com/sampling/populations-and-samples.aspx
- https://www.statsandr.com/blog/what-is-the-difference-between-population-and-sample/
- https://www.statisticssolutions.com/what-is-the-difference-between-population-and-sample/
- https://courses.lumenlearning.com/boundless-statistics/chapter/populations-and-samples/
Very good initiative. Will you share your learning path for data science?
Thank you Noyan for visiting my blog. Currently, I am using our statistic study materials for content references and then I read different articles and blogs topic wise. I have also jotted down topic names I needed to learn during my system development project. I also watch youtube tutorials for better understanding. As I learn, I find more contents and keep a note of it. Simultaneously, I am trying to participate in Kaggle contests. Hope to see you around!😊