Posts

با داده ها چه می توان کرد؟ 15- پردازش لجستیک

Image
  هنگامی که پاسخ در باره متغیر مورد نظر ما که قرار است آن را تحلیل و پیش بینی کنیم، آری یا نه باشد، یعنی یک انتخاب دو گانه، از پردازش لجستیک استفاده می کنیم.

با داده‌ها چه می‌توان کرد؟ 14 - بیان و تحلیل تصویری

Image
در این قسمت به بیان و تحلیل بصری و تصویری از داده ها می پردازیم. در رشته مورد بحث ما، تجسم و روایت تصویری آنچه که داده ها می گویند  بسیار اهمیت دارند. زبان پایتون بسته های متعددی در این زمینه دارد که می تواند به تصویر سازی از داده ها و نتایج بدست آمده از آن کمک کند اما matplotlib بدون شک یکی از مهمترین آنهاست.

با داده‌ها چه می‌توان کرد؟ 13 - کار با پانداز - 4

Image
کار با نرم افزار پانداز را ادامه می دهیم. در این قسمت به یکی از مهمترین شیوه های کار با جدول داده ها می پردازیم. همانگونه که از ابتدا توضیح دادم، هدف از بررسی داده ها تحلیل آنها در پیدا کردن ارتباط میان متغیرها و در نهایت نتیجه گیری و پیش بینی آینده با توجه به آنچه که در گذشته و تاکنون دیده و ثبت شده است، می باشد.

با داده‌ها چه می‌توان کرد؟ 12 - کار با پانداز - 3 چگونه داده‌ها را وارد کنیم؟

Image
در این قسمت در ادامه موضوع کار با پانداز، به چگونگی وارد کردن داده ها به پانداز و خواندن و کار با داده های وارد شده، می پردازیم. در دنیای واقعی، داده ها تمیز و مرتب نیستند و از منابع مختلفی حاصل می شوند. مهمترین منابع داده ها که ما از آنها برای وارد کردن به پانداز استفاده می کنیم جدولها Table، داده های جدا شده توسط ویرگول csv، بانکهای اطلاعاتی database مانند sql وبسایتها html، جیسان json و غیره است. در زیر مهمترینهایی که گفته شد، به این صورت وارد پانداز می شود:

با داده‌ها چه می‌توان کرد؟ 11 - کار با پانداز - 2

Image
در ادامه قسمت گذشته، در این بخش به کار با پانداز ادامه می دهیم. نیاز به یک یادآوری کوچک ضرروی است. نرم افزار پانداز در علم داده ها تنها یک وسیله است. وسیله ای که با آن می توان داده ها را در یکجا جمع کرد، تمیز و آماده کرده و بر روی آن مدلهای آماری را اجرا نمود. پس از همه این مراحل تحلیل و بررسی و استخراج نتیجه به میان می آید. از آنجاییکه تمیز و آماده کردن داده ها 70 تا حتی 80 درصد این مراحل را در بر می گیرد، آشنایی با خم و چم پانداز اهمیت ویژه ای می یابد، اما همه کار نیست.

با داده‌ها چه می‌توان کرد؟ 10 - کار با پانداز 1

Image
این قسمت را به معرفی و کار با نرم افزار پانداز اختصاص می دهیم. در بخش سوم این سلسه از مطالب نحوه چگونی نصب و فعال کردن پانداز را نشان دادیم و در بخش چهارم  به همراه معرفی پایتون، چند عمل ساده، مانند اجرا کردن، افزودن سلول، نوشتن کد درون سلول و غیره را باختصار دیدیم. در اینجا بیشتر و دقیقتر با نحوه کارکرد پانداز آشنا می شویم.

با داده‌ها چه می‌توان کرد؟ 9 - پردازش خطی بصورت عملی

Image
در این قسمت پردازش خطی که بصورت تئوری و کلی در شماره 6 این سلسله مطالب بررسی کردیم را بصورت عملی و با استفاده از پایتون و پانداز انجام می دهیم و نتیجه نهایی را که در آن شماره صرفا نمایش داده بودیم، بدست می آوریم. در اینجا تنها به معرفی پانداز و چند عمل ساده (و البته فرمول پردازش خطی در پانداز) می پردازیم و در قسمتهای آینده کل یک شماره را برای کار با پانداز و یادگیری فرامین مربوط به آن اختصاص خواهیم داد.

با داده‌ها چه می‌توان کرد؟ 8 - پایتون

Image
برخی از شما خواستار توجه بیشتر بر روی زبان پایتون شدید. همانگونه که در گذشته نیز اشاره شد، هدف از انتشار این مطالب، آموزش کامل زبان پایتون نبوده و نیست اما بخشهایی از این زبان که مربوط به علم داده ها می شود، مرور می شود. به همین خاطر در این قسمت بیشر روی برخی از جنبه های پایتون تمرکز می کنیم.

با داده‌ها چه می‌توان کرد؟ 7 - استخراج داده ها با پایتون

Image
در این قسمت با استفاده از زبان برنامه نویسی پایتون، به استخراج داده ها که در انگلیسی به آن scraping گفته می شود، می پردازیم. نوت بوک ژوپیتر jupyter Notbook را باز کنید. به دایرکتوری مورد نظر بروید. (شاید در دسکتاپ و پوشه پانداز که از قبل درست کرده بودید.) سپس بر روی نوتبوک در سمت راست بالا، بر روی New کلیک کنید و از کشویی که به پایین باز می شود، گزینه پایتون3 Python 3 را انتخاب کنید. یک صفحه جدید با یک سلول باز می شود که می توانید در آن کد بنویسید. پایتون ابزار و بسته های بسیاری را در اختیار دارد که از طریق آن بسهولت می توان وضایف مختلف را براحتی انجام داد. یکی از ابزارهایی که از طریق آن می توان براحتی از همین نقطه بر روی هر وبسایتی که اراده کنیم برویم و مطالبش را به اینجا وارد کنیم. این ابزار requests نام دارد. اما ابتدا باید آنرا به اینجا آورده تا بتوانیم از قابلیتهایش استفاده کنیم. این عمل را با کد انجام import requests انجام می دهیم. سپس با توسل به متد get که در این ابزار وجود دارد، آدرس وبسایتی که می خواهیم را در ادامه requests قرار می دهیم تا تمامی مطالب آن تارنما را وارد نوتبوک

با داده‌ها چه می‌توان کرد؟ 6 بررسی آماری - بخش دوم، پردازش خطی

Image
در بررسی آماری، چندین رویکرد مختلف قادر به پیش بینی Y یا همان نتیجه استخراج شده بر اساس داده ها و متغیرهای موجود  X1,...,Xp است. در دسته بندی بررسی تحت نظارت Supervised که در قسمت گذشته از آن یاد کردیم، بدون شک رویکرد پردازش خطی (رگراسیون خطی Linear Regression) بیشترین مورد استفاده را به خود اختصاص می دهد.

با داده‌ها چه می‌توان کرد؟ 5 - بررسی آماری

Image
بررسی آماری  Statistical Learning  به مجموعه ابزاری گفته می شود که می تواند به درک و فهم ما نسبت داده های موجود یا جمع آوری شده کمک کند. در نظر کلی، این ابزار به دو دسته تحت نظارت Supervised و نظارت نشده Unsupervised تقسیم می شود.

با داده‌ها چه می‌توان کرد؟ 4 - Python Pandas

Image
Python Pandas در این قسمت با استفاده از پانداز به صورت فشرده به زبان پایتون می پردازیم. از این طریق می توانیم همزمان با هر دو آشنایی پیدا کنیم. توجه داشته باشیم که در اینجا قصد آموزش کامل زبان پایتون را نداریم. این تنها برای یادآوری برخی از عملکردهای این زبان جالب است که زیر بنای بسیاری از نرم افزارها و رشته های مختلف در علم داده هاست. قبل از هر چیز همانگونه که در قسمت گذشته نشان دادم، صفحه پانداز را از طریق اناکوندا بر روی مرورگرتان Browser فعال کنید. یک روش سریعتر و آسانتر دیگر در ویندوز 10 اینست که در قسمت جستجوی ویندوز (پایین/چپ) کلمه Jupyter Notbook را بنویسید. و سپس بر روی ژوپیتر کلیک کنید. صفحه مرورگر پانداز به همراه prompt ژوپیتر (سیاه رنگ که نقش سرور را بازی می کند) باز می شود. توجه داشته باشید که فایلها روی صفحه شما با آنچه که در عکس زیر می بینید، متفاوت و طولانی تر است. با کلیک روی پوشه ای که در قسمت قبل (احتمالا در Desktop تان) درست کردید، بروید. در قسمت بالا/راست، بر روی New بروید و در منو بر روی Python3 کلیک کنید. این عمل باعث می شود که یک صفحه جدید با یک Input box باز شو

با داده‌ها چه می‌توان کرد؟ 3- Pandas

Image
در این قسمت به نصب نرم افزار پانداز Pandas که با زبان پایتون نوشته شده است، می پردازیم.  بسته آناکوندا  Anaconda   یکی از آسانترین راههای نصب Pandas است که لازمه اش موجود بودن پایتون در کامپیوتر شماست. پایتون از قبل در کامپیوترهایی که از سیستم عامل MAC و لینوکس استفاده می کنند، موجود است. برای نصب همزمان پایتون و Pandas در ویندوز  به این سایت بروید و بنا برنوع processor کامپیوترتان (64 یا 32) گزینه Python 3.7 را انتخاب کرده و آنرا دانلود کنید. در زیر با خط قرمز مشخص شده است. نسخه (نسل) سوم پایتون جدیدتر است و بتدریج کاملا جایگزین نسخه دو این زبان برنامه نویسی خواهد شد. پایتون 3 بخصوص در برنامه یادگیری اتوماتیک Machine learning و هوش مصنوعی AI ،در مراحل تکاملی علم داده ها استفاده می شود. مراحل نصب آناکوندا صریح و روشن است. پس از دانلود فایل بر روی کامپیوتر، آنرا پیدا کنید و دو بار بر روی آن کلیک کنید. فایل نسبتا سنگینی است در حدود 400 مگابایت.  متناسب با سرعت کامپیوتر شما، تکمیل این مرحله کمی طول می کشد. در اینجا می توانید راهنمایی نصب آناکوندا و پانداز را در سیستم های عامل مختلف مشاهد

با داده‌ها چه می‌توان کرد؟ 2

Image
در قسمت قبل توضیحاتی در باره واژه ها و مفاهیمی پیرامون علم داده ها Data science که در سایتهای آموزشی و یا کتابهای مختلف استفاده می شود و ممکن است علاقمندان به این رشته را گیج کند، داده شد. همچنین آنگونه که گفته شد، علم داده ها ترکیبی از علوم کامپیوتری، آمار و هنر تحلیلی است. هر کدام از موارد ذکر شده سهم بسزایی از آغاز تا پایان همچون دریافت و جمع آوری داده ها تا مدل سازی آماری و تحلیل و نتیجه گیری نهایی دارد. از همین رو آموزشهای گوناگون موجود و ارائه شده در باره علم داده ها، چه در دانشگاهها و چه مراکز خصوصی مانند Boot Camp ها ریل ثابت و مشخصی ندارند.  مثلا اگر کسی بخواهد زبان برنامه نویسی پایتون python را یاد بگیرد، برنامه های آموزشی تقریبا یکسانی توسط آموزشکده ها یا سایتها مختلف ارائه می شود. به عنوان مثال برای یادگیری یک زبان برنامه نویسی ابتدا با متغیرهای گوناگون variables، انواع مختلف داده ها و تفاوتهای آنها با یکدیگر آشنا می شویم. سپس نحوه اجرای عملیات بر روی کلمات و اعداد، موارد استفاده از داده ها در فرمهای گروهی مانند list, dictionary, tuple..، فانکشن function و نحوه بکار گیری آن