امروزه شاهد حجم زیادی از دادهها در زمینههای فراوانی هستیم. یکی از عواملی که موجب شده حجم دادهها در زمینههای مختلف زیاد شود، استفاده روزافزون از سامانههای نرم افزاری و توسعه این سامانهها است. دلیل جالب دیگری که موجب علاقهمندی پژوهشگران علوم داده به حجم بالای داده شده این است که پیشرفتهای جدید، مخصوصا در زمینه یادگیری ماشین، نشان داده که بعضا ضعف در توان محاسباتی را میتوان با حجم زیادتر داده جبران کرد. برای پردازش دادههای حجیم، وقتی حجم دادهها زیاد است، مثلا وقتی از حافظه یک کامپیوتر بزرگتر است، نیاز به الگوریتمهای جدیدی خواهیم داشت. در این الگوریتمها بعضا زمانهای اجرای با بزرگی درجه دو نیز غیرقابل قبول هستند.
برخی از زمینههایی که در آن ها حجم دادهها بسیار زیاد است شامل اینترنت، یادگیری ماشین (و مخصوصا یادگیری عمیق)، ترافیک شبکه، پردازش سیگنال است.
درس شامل ارائه برخی الگوریتمهای سریع و اثبات برخی محدودیتهای الگوریتمی در حوزه الگوریتمهای مه داده است.
ساختمان داده، آنالیز الگوریتم، احتمال.
منبع اصلی درس، جزوههای درس Data Big for Algorithms Sketching است که در سال ۲۰۱۷ توسط آقایان Indyk و Nelson تدریس شده است. البته نسخه سال ۲۰۲۰ همین درس جزوههای مرتبتری دارد که احیانا ممکن است از آن استفاده شود.
به نظر میرسد این منبع کمی فشرده باشد. اگر لازم شد از جزوههای درسهای دیگر نیز استفاده میکنیم. مثلا:
دانشجویان درس باید هم زمان هم در درس سه واحدی به شماره ۲۲۸۰۳ و هم در سمینار یک واحدی با شماره ۲۲۸۰۰ ثبت نام کنند.
درس شامل موارد زیر است:
پرسش در کلاس به این معناست که در حین جلسه مجازی سوالهای بسیار ساده از روند درس پرسیده میشود و همان زمان باید در یک سیستم برخط توسط دانشجویان حاضر پاسخ داده شود.
توجه کنید با توجه به مجازی بودن ترم، ممکن است برخی نمرهبندیها تغییر کند.
پیوند به فایل اختصاص دانشجو به جلسههای کلاس برای جزوهنویسی.
قالب فایل لاتک برای جزوهنویسیدانلود