با داده‌ها چه می‌توان کرد؟ 3- Pandas



در این قسمت به نصب نرم افزار پانداز Pandas که با زبان پایتون نوشته شده است، می پردازیم. بسته آناکوندا Anaconda یکی از آسانترین راههای نصب Pandas است که لازمه اش موجود بودن پایتون در کامپیوتر شماست. پایتون از قبل در کامپیوترهایی که از سیستم عامل MAC و لینوکس استفاده می کنند، موجود است. برای نصب همزمان پایتون و Pandas در ویندوز به این سایت بروید و بنا برنوع processor کامپیوترتان (64 یا 32) گزینه Python 3.7 را انتخاب کرده و آنرا دانلود کنید. در زیر با خط قرمز مشخص شده است.



نسخه (نسل) سوم پایتون جدیدتر است و بتدریج کاملا جایگزین نسخه دو این زبان برنامه نویسی خواهد شد. پایتون 3 بخصوص در برنامه یادگیری اتوماتیک Machine learning و هوش مصنوعی AI ،در مراحل تکاملی علم داده ها استفاده می شود. مراحل نصب آناکوندا صریح و روشن است. پس از دانلود فایل بر روی کامپیوتر، آنرا پیدا کنید و دو بار بر روی آن کلیک کنید. فایل نسبتا سنگینی است در حدود 400 مگابایت.  متناسب با سرعت کامپیوتر شما، تکمیل این مرحله کمی طول می کشد.
در اینجا می توانید راهنمایی نصب آناکوندا و پانداز را در سیستم های عامل مختلف مشاهده کنید.

پس از اتمام در برنامه های نصب شده کامپیوترتان، Anaconda Navigator  را پیدا کنید و آنرا فعال نمایید. پس از لحظاتی تصویر زیر را خواهید دید.
برای مشاهده بهتر، بر روی عکس کلیک کنید


بر روی CMD.exe Prompt که در تصویر با خط قرمز مشخص شده، کلیک کنید. پس از لحظاتی صفحه prompt که سیاه رنگ است و در آن می توانید دستور برای اجرا را بنویسید، نمایان می شود. پس از دو خط اول، این دایرکتوری را می بینید:
(base) C:\Users\yourName> 
البته بجای yourName اسم خودتان را که برای ویندوز در ابتدای فعال کردن کامپیوتر استفاده کردید، خواهید یافت.
سپس برای بروز رسانی (Update) بسته های مختلف تازه نصب شده، این فرمان را تایپ کنید: 
conda update --all

(base) C:\Users\yourName>conda update --all
پس از آنکه آناکوندا بررسی های لازمه برای تشخیص و لیست بسته های نرم افزارهایی که احتیاج به آپدیت دارد را محاسبه کرد، این سوال را می پرسد:
Proceed ([y]/n)? y

با تایپ y به معنای بله و تایید ادامه کار، آناکوندا به کار خود ادامه می دهد و بروز رسانی همه بسته ها را انجام خواهد داد.
پس از پایان یافتن آپدیت، این فرمان را تایپ کنید:
(base) C:\Users\yourName>jupyter notebook
پس از چند لحظه مرورگر Browser اصلی باز می شود و نرم افزار پانداز را به شکل زیر می بینید:
برای مشاهده بهتر، بر روی عکس کلیک کنید

این نرم افزار پانداز Pandas است که تمامی عملیات کد نویسی پایتون برای اجرای الگوریتم بر روی داده ها، در آن انجام می شود. شما در عکس بالا فقط تکه ای از لیست کامل فایلهایی که من در Root Dir خودم دارم را می بینید. برای شما فایلهای دیگر بانظمام مکانهای مختلف در کامپیوترتان از قبیل Desktop, Documents, Downloads و غیره وجود دارد که با کلیک کردن بر روی هر کدام از آنها به دایرکتوری های مختلف می روید.

یک نکته مهم در اینجا قابل ذکر است. بهتر است فایل داده ها Data که معمولا با فرمت csv است، با فایلی که در نوتبوک ژوپیتر ایجاد می شود (با پسوند ipynb. ذخیره می شود. نام قبلی ژوپیتر ipython بود) در یک پوشه folder باشد. به همین خاطر یک پوشه در دسکتاپ با هر نامی که مایلید مثل pandas ایجاد کنید و فایلهای مختلف را در آن قرار دهید. سپس در صفحه مرورگر پانداز (عکس بالا) به دایرکتوری مربوطه (مثلا دستکتاپ) بروید و بعد به پوشه ای که ایجاد کردید وارد شوید. 


کار با Pandas

توجه داشته باشید که صفحه سیاه رنگ prompt اناکوندا در پس زمینه همچنان باز است و بعنوان سِرور عمل می کند. پس از آنکه از پانداز بر روی مرورگر به پوشه گفته شده رفتید، برای ایجاد یک فایل جدید به قسمت سمت راست/بالا رفته بر روی New کلیک کنید. در منوی باز شده بر روی Python3 کیلک کنید. یک صفحه دیگر در همان مرورگر باز می شود که به شکل زیر است:
برای مشاهده بهتر، بر روی عکس کلیک کنید

در مستطیلی که در مقابل In می بینید، تمامی قابلیتهای اجرای پایتون به همراه همه بسته های علمی، آماری و بصری نهفته و آماده استفاده است. این فرمان را در آنجا تایپ کنید:
print('Hello')
 و سپس با فشار دادن دکمه کنترل و ورود Ctrl+Enter اولین کد پایتون را اجرا کنید.
در ضمن پایتون مانند هر زبان برنامه نویسی دیگر یک ماشین حساب هم هست.

پاسخ هر فرمان که در قسمت In نوشته می شود، در مقابل Out بیرون داده می شود. برای ایجاد یک مستطیل وارد کننده فرمان دیگر، بر روی علامت بعلاوه در منوی بالا کلیک کنید تا فرمان جدید را بتوانید وارد کنید. کلیک بر روی قیچی، مستطیل انتخاب شده را پاک می کند. برای نامگذاری بر روی فایل تازه ایجاد شده، ماوس خود را بر روی کلمه Untitled در بالای صفحه ببرید و کلیک کنید. یک باکس جدید باز می شود و می توانید نام فایل را تغییر دهید، بطور مثال test. حالا اگر در پوشه ای که تازه ایجاد کرده اید نگاه کنید، یک فایل با نام text.ipynb می بینید.
برای خروج از pandas، تنها بستن صفحه مرورگر کافی نیست. همانطور که قبلا اشاره شد، سرور در پس زمینه باز است و از memory کامپیوتر استفاده می کند. در صفحه اول، بر روی Running کلیک کنید. وقتی به قسمت جدید وارد شدید می بینید که فایل شما  با گزینه shutdown در سمت راست، آنجاست. اگر روی بستن shutdown کیلک کنید، فایل مربوطه بسته می شود اما سرور همچنان مشغول است. به صفحه سیاه رنگی که Anaconda Prompt باز بود بروید و با فشردن همزمان کلید Ctrl و کلید C سرور را متوقف کنید. حالا می توانید همه صفحه های باز در مرورگر و Prompt را ببندید.


با کمی تمرین و بازی با این برنامه می توانید به بسیاری از جنبه هایی که در این پست به آنها اشاره نشد، پی ببرید و فراموش نکنید که بهترین معلم شما جستجوگر گوگل است.

در شماره بعد، بیشتر با Pandas کار خواهیم کرد. اما باز هم فراموش نمی کنیم که هدف اصلی ما پیش بینی و تحلیل داده هاست و نه خبره شدن کامل در برنامه پانداز. پایتون و پانداز وسیله ای است که ما بتوانیم داده ها را تمیز و جمع و جور کرده و کدهایی که می تواند ما را در فهم، جهتگیری داده ها و در نهایت پیش بینی  در زمینه مزبور، بر روی آنها اجرا کنیم.



*- بیشتر ملاتها در مورد بررسی آماری در این سلسله مطالب، برگرفته از دو کتاب An Introduction to Statistical Learning و The Elements of Statistical Learning Data Mining, Inference, and Prediction از انتشارات سپرینگر springer.com/us و کلاسهای ارائه شده آنلاین توسط دانشگاه هاروارد است.

**- استفاده از این سلسله مطالب با ذکر منبع آزاد است.


Comments

Popular posts from this blog

با داده‌ها چه می‌توان کرد؟ 12 - کار با پانداز - 3 چگونه داده‌ها را وارد کنیم؟

با داده‌ها چه می‌توان کرد؟ 7 - استخراج داده ها با پایتون