توصیف درس

امروزه شاهد حجم زیادی از داده‌ها در زمینه‌های فراوانی هستیم. یکی از عواملی که موجب شده حجم داده‌ها در زمینه‌های مختلف زیاد شود، استفاده روزافزون از سامانه‌های نرم افزاری و توسعه این سامانه‌ها است. دلیل جالب دیگری که موجب علاقه‌مندی پژوهشگران علوم داده به حجم بالای داده شده این است که پیشرفت‌های جدید، مخصوصا در زمینه یادگیری ماشین، نشان داده که بعضا ضعف در توان محاسباتی را می‌توان با حجم زیادتر داده جبران کرد. برای پردازش داده‌های حجیم، وقتی حجم داده‌ها زیاد است، مثلا وقتی از حافظه یک کامپیوتر بزرگ‌تر است، نیاز به الگوریتم‌های جدیدی خواهیم داشت. در این الگوریتم‌ها بعضا زمان‌های اجرای با بزرگی درجه دو نیز غیرقابل قبول هستند.

برخی از زمینه‌هایی که در آن ها حجم داده‌ها بسیار زیاد است شامل اینترنت، یادگیری ماشین (و مخصوصا یادگیری عمیق)، ترافیک شبکه، پردازش سیگنال است.

مباحث درس

درس شامل ارائه برخی الگوریتم‌های سریع و اثبات برخی محدودیت‌های الگوریتمی در حوزه الگوریتم‌های مه داده است.

پیش‌نیاز

ساختمان داده، آنالیز الگوریتم، احتمال.

منابع درس

منبع اصلی درس، جزوه‌های درس Data Big for Algorithms Sketching است که در سال ۲۰۱۷ توسط آقایان Indyk و Nelson تدریس شده است. البته نسخه سال ۲۰۲۰ همین درس جزوه‌های مرتب‌تری دارد که احیانا ممکن است از آن استفاده شود.

به نظر می‌رسد این منبع کمی فشرده باشد. اگر لازم شد از جزوه‌های درس‌های دیگر نیز استفاده می‌کنیم. مثلا:

توجه

دانشجویان درس باید هم زمان هم در درس سه واحدی به شماره ۲۲۸۰۳ و هم در سمینار یک واحدی با شماره ۲۲۸۰۰ ثبت نام کنند.

ارزیابی

درس شامل موارد زیر است:

پرسش در کلاس به این معناست که در حین جلسه مجازی سوال‌های بسیار ساده از روند درس پرسیده می‌شود و همان زمان باید در یک سیستم برخط توسط دانشجویان حاضر پاسخ داده شود.

توجه کنید با توجه به مجازی بودن ترم، ممکن است برخی نمره‌بندی‌ها تغییر کند.

تمرین

تمرین ۱.

جزوه‌نویسی

پیوند به فایل اختصاص دانشجو به جلسه‌های کلاس برای جزوه‌نویسی.

قالب فایل لاتک برای جزوه‌نویسیدانلود

محتوای درس