با داده‌ها چه می‌توان کرد؟ 6 بررسی آماری

در بررسی آماری، چندین رویکرد مختلف قادر به پیش بینی Y یا همان نتیجه استخراج شده بر اساس داده ها و متغیرهای موجود X1,...,Xp است. در دسته بندی بررسی تحت نظارت Supervised که در قسمت گذشته از آن یاد کردیم، بدون شک رویکرد پردازش خطی (رگراسیون خطی Linear Regression) بیشترین مورد استفاده را به خود اختصاص می دهد.

این روش که از سابقه طولانی در نزد کارشناسان این رشته برخوردار است، پایه و اساس برای انواع دیگر محاسبات نیز محسوب می شود. به مثال مشخص در قسمت گذشته باز گردیم. گفتیم که یک کمپانی برای افزایش میزان فروش محصولاتش از چند نوع تبلیغ در رسانه های مختلف مانند تلوزیون، رادیو و روزنامه استفاده می کند. این کمپانی اطلاعات و داده های سال گذشته (یا سالهای گذشته) در زمینه اختصاص بودجه بطور جداگانه به این سه رسانه را در اختیار ما گذاشته است.

چندین سوال مشخص در بررسی داده های ارائه شده به ما مطرح می شود:

1- آیا ارتباطی میان داده ها (متغیرهاییی که مبین صرف مبالغی در رسانه ها) و افزایش فروش وجود دارد؟ این اولین سوالی است که باید پاسخ بدهیم. اگر رابطه میان داده ها و میزان فروش وجود ندارد و یا خیلی ضعیف است، ما به کمپانی مورد نظر توصیه خواهیم کرد که صرف هزینه برای تبلیغات را متوقف کند.

2- اگر ارتباط میان داده ها و فروش وجود دارد، تا چه حد قوی و موثر است؟ ما باید قادر باشیم تا این ارتباط را که بیش از میزان حدس و گمان است، اندازه بگیریم.

3- کدام رسانه مشارکت بیشتری در افزایش فروش دارد؟ آیا هر سه رسانه تلویزیون، رادیو و روزنامه تاثیر یکسانی بر فروش دارند و یا یکی از آنها و یا دو رسانه نقش بیشتری ایفا می کنند. برای تعیین این موضوع باید قادر باشیم تا تاثیر هر کدام را بطور جداگانه بررسی کنیم.

4- با چه میزانی از دقت می توانیم تعیین کنیم که کدامیک از این رسانه ها در میزان فروش تاثیر داشته اند؟ مثلا با افزایش هر هزار دلار هزینه در هر یک از این سه رسانه، چه مقدار بر میزان فروش افزوده می شود؟

5- آیا این ارتباط میان داده ها و میزان فروش خطی است؟ (در باره ارتباط منحنی در آینده بیشتر صحبت می کنیم) اگر یک خط راست می تواند نمایانگر ارتباط مورد نظر ما باشد، بنابراین رگرسیون خطی یک روش صحیح برای بررسی ما باشد و اگر نیست، باید تعیین کنیم که آیا می توانیم بطریقی نتیجه را به یک رابطه خطی مبدل کنیم؟

6- آیا هم افزایی (synergy) در میان متغیرها وجود دارد؟ باید بتوانیم مشخص کنیم که مثلا پس از هزینه کردن 20 هزار دلار برای تبلیغات تلویزیونی و 20 هزار دلار برای رادیو، آیا میزان فروش 40 هزار دلار افزایش خواهد داشت و یا بیشتر. تعیین این هم نیرو زایی، یعنی تغییر تاثیر گذاری یک متغیر در صورت همراه بودن با متغیر دیگر، هم افزایی نامیده می شود و بسیار مهم است.

بکار بردن پردازش خطی بر روی داده ها، نتیجه ای کمی quantitative در بر خواهد داشت. منظور از نتیجه یا پیش بینی کمی این است که ما مشخصا با اعداد و ارقام روبرو خواهیم شد. در مقابل، گاهی نتیجه و پیش بینی صرفا آری یا نه است. در اینجا ما با عدد و رقم سر و کار نداریم. در این حالت ما بدنبال پاسخی کیفی qualitative هستیم که به ما گروه بندی و دسته بندی داده ها را نشان دهد. روشی که بیشتر برای پیش بینی کیفی بکار می رود، لوجستیک Logistic نام دارد که در آینده به آن خواهیم پرداخت. اما در این قسمت بر روی رگرسیون خطی کار می کنیم.

پردازش (رگراسیون) خطی ساده:

اگر داده های ما منحصر به یک متغیر باشد، در مثال خودمان مثلا فقط تلویزیوین، رگرسیون خطی ما از نوع ساده است. یعنی فرمول تئوریک ما به این صورت خواهد بود:

Y ≈ β0 + β1X.

این علامت "≈" به معنی تقریبی است. β0 نقطه تلاقی خط ممتد با بردار Y است. یعنی جایی که آن را قطع می کند و β1 اندازه شیب است.

یک نکته حائز اهمیت در اینجا توضیح تفاوت میان داده data و متغیر است که ممکن است در ابتدا گیج کننده بنظر برسد. در پردازشخطی ساده ما با یک متغیر variable، یعنی داده های مربوط به هزینه تلویزیون، مواجه هستیم. با آنکه متغیر ما که با X مشخص می شود، تلویزیون است، اما تعداد این داده ها می تواند از 30 فروشگاه مختلف در روزهای مختلف جمع آوری شده باشد. یعنی تعداد داده ها می تواند Xn باشد با وجود آنکه فقط نمایانگر اطلاعات یک متغیر است.

از انجاییکه Y معرف فروش است، می توان معادله بالا را اینطور هم نوشت

sales (فروش) ≈ β0 + β1 × TV.

به β0 and β1 ضریب یا coefficient گفته می شود. با بدست آوردن مقدار و اندازه این ضریب، می توانیم فروش آینده را پیش بینی کنیم.

ˆy = ˆ β0 + ˆ β1x

y کلاه دار معرف این تخمین و پیش بینی است. همینطور بتای β کلاه دار.

اما چگونه این ضریب را اندازه بگیریم. در پردازش خطی، روشی وجود دارد بنام:

minimizing the sum of squared errors

بدون آنکه بخواهیم اکنون بیش از حد وارد جزئیات ریاضی موضوع بشویم (زیرا که پایتون و پانداز برای ما این ضریب و تصویری را که در زیر می بینید را محاسبه می کند،) این شیوه مجذور Square خطوط خاکستری که نقاط قرمز به آنها وصل است را به حداقل می رساند و خط ممتدی که معرف حد وسط آنهاست را به ما می دهد. نگران نباشید اگر الان زیاد از موضوع سر در نمی آورید، همانطور که اشاره شد، نرم افزار برای ما این فرمولها را محاسبه می کند.

عکس شماره 2- پردازش خطی

در تصویر بالا β0 = 7.03 و β1 = 0.0475 است. یعنی بطور تقریبی ( زیرا بتا ˆ کلاه دار است) در ازای هر 1000 دلار هزینه برای تبلیغات تلویزیونی، 47.5 واحد بر میزان فروش افزوده می شود.

وقتی ما داده ها را از طریق نرم افزار محاسبه می کنیم، با جدول زیر که نتیجه اجرا شدن پردازش خطی بر روی داده هاست، روبرو می شویم:

جدول شماره 1

بسیار مهم است که این اعداد را بتوانیم تفسیر کنیم. فعلا اینها را بخاطر بسپارید که st.error برای متغیر (در اینجا TV) باید کوچک باشد. عدد t-statistic باید بزرگ باشد. اگر اندازه p-value خیلی کوچک باشد، نشان می دهد که رابطه ای میان X و Y وجود دارد. در حقیقت، هر سه این محاسبات به ما صحت و درستی حدس ما مبنی بر وجود رابطه میان متغیر و نتیجه (در اینجا پرداخت هزینه تبلیغات برای تلویزیون و افزایش فروش) را ثابت می کند. حال این سوال ایجاد می شود این کوچکی و بزرگی اعداد بر چه مبنایی اندازه گرفته می شود؟

اگر به ضریب coefficient نگاه کنیم، Std.error در مقایسه بسیار کوچک، t-statistic بزرگ و p-value بسیار بسیار کوچک است. هر سه این مقایسه ها نشان می دهد که رابطه میان متغیر X و فروش Y وجود دارد.

یک نکته در مورد p-value حائز اهمیت است. اندازه بسیار کوچک p-value برای TV نشان می دهد که رابطه متغیر و فروش وجود دارد و افزایش در تبلیغات تلوزیونی بر میزان فروش محصول کمک می کند. اما کوچکی اندازه p-value در مورد Intercept نشان می دهد که ابتدا به ساکن یعنی قبل از هزینه کردن برای تبلیغات تلوزیونی، فروش محصول صفر نبوده است.

اما این رابطه تا به چه اندازه قوی و یا ضعیف است. اندازه گیری ضعف و قوت این رابطه از طریق جدول دیگری عیان می شود:

جدول شماره 2 ارزیابی نتایج پردازش خطی ساده

بررسی سه معیار RSE یا Residual standard error و R2 و F-statistic به ما این امکان را می دهد تا در باره قوت و ضعف این رابطه برآورد داشته باشیم.

RSE نشاندهنده ناسازگار lack of fit بودن مدل ما با داده هاست. عدد 3.26 به ما می گوید احتمال اشتباه 3260 در واحد فروش محصول داریم. آیا 3260 عدد مناسبی است؟ این بستگی به مورد مشخص بررسی ما دارد. معدل فروش (average که در محاسبه دیگری به راحتی بدست می آید) در این مورد 14000 است. بنابراین 3260/14000 به ما %23 را می دهد که مبین کوچک بودن و در نتیجه سازگار بودن مدل ما است.

اگر RSE بر اساس واحد فروش محاسبه می شود، R2 یک ارزیابی مستقل از Y به ما می دهد که عددی است بین 0 و 1. هر چه که میزان R2 به 1 نزدیک تر باشد، رابطه میان X و Y قویتر است و برعکس هر چه به صفر نزدیکتر باشد، نشان می دهد که X زیاد بر فروش Y تاثیر ندارد. در جدول شماره 2، R2 عدد 0.61 به ما نشان می دهد که نسبتا رابطه خوبی را میان متغیر و Y ارائه می دهد. با آنکه R2 نشانگر بهتری در مورد رابطه بین متغیر و Y است، با اینحال تفسیر R2 در موردهای مختلف کمی متفاوت است. مثلا در مواقعی اندک در بررسی موردهای رشته فیزیک، R2 شاید چالش برانگیز باشد. اما در اکثر مواقع، مقیاس مناسبی در رشته های علم فروش و بازاریابی، بیولوژی، روانشناسی و غیره است و بیانگر این موضوع که پردازش خطی مدل مناسبی برای بررسی داده هاست.

پردازش خطی مرکب (چندگانه) Multiple Linear Regression

در پردازش خطی ساده، ما فقط با یک متغیر (در مثال مورد بررسی فقط تبلیغات تلوزیون) سرو کار داشتیم. در عالم واقعیت اما متغیرها همیشه بسیار بیشتر از آنست که بتوان با نوع ساده پیش بینی انجام داد. در همین مثال خود، علاوه بر تلوزیون، از رسانه های دیگر مانند رادیو و روزنامه نیز برای افزایش فروش استفاده شده است. سوال اینست که چطور می توانیم متغیرهای دیگر را در محاسبه خود دخیل کنیم. یک راه اینست که هر متغیری را بطور جداگانه در پردازش خطی بکار ببریم، یعنی سه محاسبه جداگانه.

جدول شماره 3

همانطور که در جدول شماره 3 مشاهده می کنید، اکنون می توانیم با خواندن ضریب coefficient در هر دو جدول بالا پیش بینی کنیم که اگر 1000 دلار صرف تبلیغات رادیویی بشود، 203 واحد به میزان فروش افزوده و در صورتیکه 100 دلار در روزنامه خرج تبلیغات شود، فقط 55 واحد اضافه می شود. اما این روش مناسبی برای محاسبه مواردی که بیش از یک متغیر موجود است، نیست.

فرمول تئوریکی که با آن پردازش خطی مرکب را می توان توضیح داد به این صورت است:

Y = β0 + β1X1 + β2X2 + · · · + βpXp + e

X1, X2, الی Xp متغیرهای مختلف هستند و بتاها β ضریب (coefficient) مربوط به هر یک از متغیرها. e نیز خطا محسوب می شود. بنا براین در مثال ما فرمول به این ترتیب می شود:

sales = β0 + β1 × TV + β2 × radio + β3 × newspaper + e

محاسبه ضریب متغیرهای مختلف coefficients در پردازش مرکب پیچیده تر از پردازش ساده است. خوشبختانه نرم افزار برای ما این ضرایب را محاسبه می کند.

جدول شماره 4

همانگونه که در جدول شماره 4 می بینید، ضرایب متغیرها در مورد تلویزیون و رادیو تقریبا با جدولهای شماره 1 و 3 نزدیک است اما ضریب روزنامه در مقایسه با زمانی که این متغیر بصورت جداگانه بررسی شده، بسیار تفاوت دارد. اگر بیاد داشته باشید، گفتیم که Std.error باید نسبت به ضریب کوچک باشد، t-statistic بزرگ و p-value باید بسیار کوچک باشد. آنچه که در جدول شماره 4 می بینیم، این فرمول تحلیلی در مورد تلویزیون صدق می کند اما در مورد روزنامه اساسا برعکس است. آنچه که می توانیم در اینجا با توجه به ارقام بدست آمده نتیجه بگیریم آنست که صرف هزینه در تبلیغات رادیو و تلویزیونی بر فروش موثر است اما روزنامه تقریبا اثری در فروش ندارد.

اکنون بروشنی می بینیم که اگر متغیر روزنامه را به تنهایی محاسبه می کردیم، نشان می داد که در فروش تاثیر دارد اما هنگامیکه در پردازش مرکب (multiple linear regression) آنرا به همراه متغیرهای دیگر بکار می بریم، نتیجه می گیریم که کمپانی نباید پولی صرف هزینه تبلیغات در روزنامه کند.

جدول شماره 5 ارزیابی نتایج پردازش خطی مرکب

به جدول شماره 5 نگاه کنید. در ارزیابی نتایج بدست آمده از پردازش خطی مرکب، می بینید که R2 بطور قوی نمایانگر تاثیرگذاری متغیرها بر روی فروش است. معیار و اندازه گیری دیگری که می تواند مورد استفاده قرار بگیرد F-statistic است. میزان این معیار اگر بالاتر از 1 باشد، نشان می دهد که حداقل یکی از متغیرها بر روی فروش موثر است. در اینجا ما عدد 570 را بدست آوردیم که بسیار بزرگتر از 1 است. اینکه تا چه اندازه F-statistic باید بزرگ باشد، بستگی به تعداد داده ها Xn دارد. توجه کنید منظور از X در اینجا متغیر نیست بلکه تعداد داده ها (مثلا در مکانها و فروشگاههای گوناگون در روزهای مختلف است.) اگر اندازه n بسیار زیاد باشد، F-statistic هر اندازه که از 1 بیشتر باشد، مقصود ما را که همانا تاثیر گذاری حداقل یکی از متغیرها بر روی Y (در اینجا فروش) باشد، اقناع می کند. در مورد مثال ما که داده ها در حدود 200 هستند، F-statistic باید بسیار بزرگتر باشد که هست.

- اطلاعات مربوط به این بخش و قسمتهای دیگر در باره پانداز، بیشتر برگرفته از کتاب Python for Data Analysis, Data Wrangling with Pandas, NumPy,and IPython چاپ دوم از انتشارات اورایلی است که توسط Wes McKinney، خالق پانداز، نوشته شده است.

*- بیشتر ملاتها در مورد بررسیهای آماری در این سلسله مطالب، برگرفته از دو کتاب An Introduction to Statistical Learning و The Elements of Statistical Learning Data Mining, Inference, and Prediction از انتشارات سپرینگر springer.com/us و کلاسهای ارائه شده آنلاین توسط دانشگاه هاروارد است.

**- استفاده از این سلسله مطالب با ذکر منبع آزاد است.

Search This Blog

Data Science in Farsi

با داده‌ها چه می‌توان کرد؟ 6 بررسی آماری - بخش دوم، پردازش خطی

Comments

Post a Comment

Popular posts from this blog

با داده ها چه می توان کرد؟ 15- پردازش لجستیک

با داده‌ها چه می‌توان کرد؟ 9 - پردازش خطی بصورت عملی

با داده‌ها چه می‌توان کرد؟ 13 - کار با پانداز - 4