Neyman-Fisher Factorization Criterion/Theorem: How to find a sufficient statistic?

আমরা সাফিশিয়েন্ট স্ট্যাটিস্টিক্সের কনসেপ্ট জেনেছি। এখন যদি আমরা কোন প্যারামিটারের জন্য সাফিশিয়েন্ট স্ট্যাটিস্টিক্স বের করতে চাই, তাহলে কি করব? আমরা সংজ্ঞা থেকে বলতে পারি যে র‍্যান্ডম স্যাম্পলগুলোর কন্ডিশনাল ডিস্ট্রিবিউশন বের করতে পারি, এরপর ক্যালকুলেশন করে দেখতে পারি ডিস্ট্রিবিউশন প্যারামিটারের উপর নির্ভর করে কিনা। প্রাক্টিকালি কন্ডিশনাল ডিস্ট্রিবিউশন বের করা এত সহজ না। এজন্য কোন প্যারামিটারের জন্য সাফিশিয়েন্ট স্ট্যাটিস্টিক্স বের করার জন্য আমরা সহজ কিছু পদ্ধতি দেখব। 

Neyman-Fisher Factorization Criterion/Theorem: ধরি অনেকগুলা র‍্যান্ডম স্যাম্পল X1, X2,…, Xn যাদের জয়েন্ট প্রবাবিলিটি ডেনসিটি ফাংশন (pdf) অথবা জয়েন্ট প্রবাবিলিটি ম্যাস ফাংশন (pmf) হল f(x1, x2,…,xn|θ), যা θ (অজানা প্যারামিটার) এর উপর ডিপেন্ড করে। এখন T=r(X1, X2,…, Xn) স্ট্যাটিস্টিক্সটি সাফিশিয়েন্ট হবে, যদি এবং কেবল যদি জয়েন্ট pdf বা pmf কে নিম্নোক্তভাবে লেখা যায়:

\begin{aligned} f(x_1, x_2,..., x_n | \theta) &= u(x_1,x_2,...,x_n) v(r(x_1,x_2,...,x_n), \theta) \\ &= h(x) g_{\theta}(t) \end{aligned}

এইখানে

  • u এবং v নন-নেগেটিভ ফাংশন। 
  • u ফাংশন র‍্যান্ডম স্যাম্পল X1, X2,…, Xn এদের উপর ডিপেন্ড করে, কিন্তু θ এর উপর করেনা। 
  • v ফাংশন θ এর উপর ডিপেন্ড করে, এবং r ফাংশনের মাধ্যমে র‍্যান্ডম স্যাম্পল X1, X2,…, Xn এদের উপর ডিপেন্ড করে। 
  • এইখানে u(x1, x2,…,xn) = h(x) এবং v(r(x1, x2,…,xn), θ) = gθ(t) ধরা হয়েছে।

এখন তাহলে আমরা থিওরেমটা প্রুফ করে দেখি।

শুরুতে মনে করি t = T(x) হল θ এর জন্য সাফিশিয়েন্ট। সংজ্ঞানুযায়ী, fθ|T(x)=t (x) হল θ এর উপর নির্ভর করেনা। ধরি (X, T(X)) এর জয়েন্ট ডেনসিটি/ম্যাস ফাংশন fθ (x,t) দ্বারা প্রকাশ করা হল। এখন fθ (x,t) = fθ|T(x)=t (x)। তাহলে,

\begin{aligned} f_{\theta}(x) &= f_{\theta}(x, t) \\ &= f_{\theta |t}(x)f_{\theta}(t) \\ &= h(x) g_{\theta}(t) \end{aligned}

যেইখানে h(x) = fθ|t (x) এবং gθ (t) = fθ (t) । আমরা এইটার রিভার্স ইমপ্লিকেশন প্রুফ করব শুধু ডিসক্রিট কেসের জন্য।

এখন মনে করি x এর প্রবাবিলিটি ম্যাস ফাংশনকে এইভাবে লেখা যায়,

f_{\theta}(x) = h(x) g_{\theta}(x)

যেইখানে t = T(x)t এর প্রবাবিলিটি ম্যাস ফাংশন পাওয়ার জন্য fθ (x,t) এর সব x কে যোগ করা হয়েছে যেন T(x) = t :

\begin{aligned} f_{\theta}(t) &= \sum_{T(x)=t}f_{\theta}(x, t) \\ &= \sum_{T(x)=t}f_{\theta}(x) \\ &= \sum_{T(x)=t}h(x) g_{\theta}(t) \end{aligned}

তাহলে t এর সাপেক্ষে x এর কন্ডিশনাল ম্যাস ফাংশন হবে,

\begin{aligned} f_{\theta |t}(x) &= \frac{f_{\theta}(x,t)}{f_{\theta}(t)} \\ &= \frac{f_{\theta}(x)}{f_{\theta}(t)} \\ &= \frac{h(x)}{\sum_{T(x)=t}h(x)} \end{aligned}

এখানে দেখা যাচ্ছে যে শেষের এক্সপ্রেশনে θ নাই, θ এর উপর নির্ভর করেনা। সুতরাং t, θ এর জন্য সাফিশিয়েন্ট স্ট্যাটিস্টিক্স। প্রুফ হয়ে গেল।

আরও পড়তে চাইলে:

Leave a Reply