ترنسفورمرها، منابعی برای یادگیری‎

در حال آشنایی اولیه با ترنسفورمرها هستم. ترنسفورمرها، یک معماری خاص برای استفاده از شبکه‌های عصبی در یادگیری ماشین ارائه می‌دهند که به طرز شگفت‌آوری خوب کار می‌کنند. یکی از ابزارهایی که با ترنسفورمرها ساخته شده و جدیدا مورد توجه قرارگرفته ChatGPT و دوستانش هستند.

ترنسفورمرها ساختارهای بسیار پیچیده‌ای دارند برای همین شاید یادگرفتن آن‌ها بدیهی نباشد. اینجا برخی منابع برای یادگرفتن ترنسفورمرها را معرفی می‌کنیم:

  • فیلم‌های آموزشی آکادمی سرانو شامل مفاهیم اولیه و توضیحات نسبتا روانی از شبکه‌های عصبی و لایه توجه و ترنسفورمرهاست.

  • کتاب Natural Language Processing with Transformers که علاوه بر آموزش کلیات، کتابخانه huggingface را هم آموزش می‌دهد که ابزار ساده‌ای برای کارکردن با ترنسفورمرها و داده‌هاست.

  • برای رشته‌های طولانی، ظاهرا کارکردن با ترنسفورمرها مشکلاتی جدی دارد. مخصوصا که برای کاربردهای بیوانفورماتیکی نیاز دارید که از ترنسفورمرهایی استفاده کنیم که رشته‌های طولانی را دریافت می‌کنند. در مدیوم مقاله‌ای در این مورد هست. وبگاه huggingface هم مقاله خوبی در این زمینه دارد.

برخی جزئیات در مورد اینکه محاسبات مراحل مختلف ترنسفورمرها چگونه انجام می‌شود در اینجا (لایه دگرنمایی) و اینجا (رمزگذاری مکانی) و اینجا (لایه توجه چندسر) آمده است.




جالب بود؟

نوشته‌های دیگری که شاید برای شما جالب باشند:

  • بسم الله الرحمن الرحیم
  • کلیدواژه auto در C++
  • نقد کتاب «اندازه‌گیری دنیا»‎
  • درس «ماشین و ذهن»، درسی مناسب برای تدریس
  • تلاشی ابتدایی برای فهم اصولی مسئله زمان