صفحه اصلی > نرم‌افزار و تحول دیجیتال و هوش مصنوعی و کلان داده : چگونه مدل‌های هوش مصنوعی (LLM) را روی کامپیوتر شخصی اجرا کنیم؟ آموزش نصب Llama 3

چگونه مدل‌های هوش مصنوعی (LLM) را روی کامپیوتر شخصی اجرا کنیم؟ آموزش نصب Llama 3

تا همین چند سال پیش، استفاده از هوش مصنوعی مولد (Generative AI) به معنای اتصال به سرورهای غول‌پیکر OpenAI یا Google و پرداخت هزینه‌های اشتراک بود. اما در سال ۲۰۲۵، ورق برگشته است! با بهینه‌سازی مدل‌های زبانی (LLM) و قدرتمندتر شدن سخت‌افزارهای خانگی، اکنون می‌توانید هوش‌های مصنوعی قدرتمندی مثل Llama 3 (متا) یا Mistral را کاملاً آفلاین، خصوصی و رایگان روی لپ‌تاپ یا PC خود اجرا کنید. در این آموزش تخصصی از آلفاتک، روش راه‌اندازی یک آزمایشگاه هوش مصنوعی شخصی را یاد خواهید گرفت.

فهرست مطالب اجرای هوش مصنوعی روی کامپیوتر

چرا باید LLM را لوکال (Local) اجرا کنیم؟

اجرای مدل زبانی روی سخت‌افزار شخصی (Local Inference) سه مزیت حیاتی نسبت به ChatGPT یا Claude دارد:

  1. حریم خصوصی (Privacy): هیچ داده‌ای از کامپیوتر شما خارج نمی‌شود. برای شرکت‌هایی که روی کدهای محرمانه یا داده‌های مالی کار می‌کنند، این تنها راه امن استفاده از AI است.
  2. هزینه صفر: پس از خرید سخت‌افزار، استفاده از مدل‌ها کاملاً رایگان است.
  3. بدون سانسور (Uncensored): شما می‌توانید مدل‌هایی را دانلود کنید که محدودیت‌های اخلاقی سخت‌گیرانه شرکت‌های بزرگ را ندارند (مناسب برای داستان‌نویسی یا تست امنیت).

پیش‌نیازهای سخت‌افزاری (VRAM مهم‌تر از همه)

برای اجرای روان مدل‌ها، “حافظه گرافیکی” (VRAM) حرف اول را می‌زند. اگر مدل در VRAM جا نشود، سیستم از RAM اصلی استفاده می‌کند که سرعت را به شدت کاهش می‌دهد.

  • حداقل: ۸ گیگابایت VRAM (اجرای مدل‌های 7B و 8B با سرعت خوب).
  • پیشنهادی: ۱۶ تا ۲۴ گیگابایت VRAM (اجرای مدل‌های سنگین Llama-3-70B با کوانتایزیشن).
  • حافظه رم (RAM): حداقل ۱۶ گیگابایت (اگر کارت گرافیک قوی ندارید، ۳۲ گیگابایت رم DDR5 برای اجرای روی CPU الزامی است).

مفهوم حیاتی کوانتایزیشن (Quantization) و فایل‌های GGUF

یک مدل اصلی مثل Llama 3 با دقت ۱۶ بیت (FP16) حجمی حدود ۱۵ گیگابایت دارد. اما تکنیکی به نام Quantization وجود دارد که دقت وزن‌ها را به ۴ بیت یا ۸ بیت کاهش می‌دهد بدون اینکه هوش مدل افت شدیدی پیدا کند.

فرمت استاندارد فعلی برای اجرای لوکال، GGUF است. هنگام دانلود مدل‌ها با پسوندهایی مثل Q4_K_M یا Q8_0 مواجه می‌شوید:

  • Q4_K_M: متعادل‌ترین نسخه (حجم کم، سرعت بالا، دقت قابل قبول).
  • Q8_0: بالاترین دقت، حجم بالا (نیازمند سخت‌افزار قوی).

روش اول: استفاده از LM Studio (ساده و گرافیکی)

اگر علاقه‌ای به کدنویسی و ترمینال ندارید، LM Studio بهترین گزینه است.

  1. نرم‌افزار را از سایت رسمی دانلود و نصب کنید.
  2. در نوار جستجو (Search)، نام مدل دلخواه مثلاً Llama 3 یا Mistral را تایپ کنید.
  3. از پنل سمت راست، بر اساس قدرت سخت‌افزار خود، یکی از فایل‌های GGUF (ترجیحاً Q4) را دانلود کنید.
  4. به تب Chat بروید، مدل را انتخاب کنید (Load) و شروع به گفتگو کنید.

نکته: در تنظیمات سمت راست، گزینه GPU Offload را روی Max قرار دهید تا تمام بار پردازشی روی کارت گرافیک بیفتد.

روش دوم: استفاده از Ollama (مخصوص برنامه‌نویسان)

ابزار Ollama خط فرمانی (CLI) است و اجازه می‌دهد مدل‌ها را مثل داکر (Docker) اجرا کنید و حتی از طریق API به کدهای پایتون متصل کنید.

مراحل نصب سریع:

  • دانلود و نصب Ollama.
  • باز کردن CMD یا Terminal.
  • تایپ دستور: ollama run llama3

سیستم به صورت خودکار مدل را دانلود و اجرا می‌کند. این روش برای توسعه‌دهندگانی که می‌خواهند چت‌بات اختصاصی بسازند عالی است.

جدول مقایسه سرعت اجرا روی GPU vs CPU

تفاوت سرعت (Token per Second) در اجرای مدل Llama-3-8B بر روی سخت‌افزارهای مختلف:

سخت‌افزارسرعت (توکن بر ثانیه)تجربه کاربری
NVIDIA RTX 4090 (24GB)110 t/sسریع‌تر از خواندن انسان (آنی)
NVIDIA RTX 3060 (12GB)45 t/sبسیار روان و عالی
Apple M2 Pro (MacBook)30 t/sخوب و کاربردی
CPU Intel Core i7 (DDR4)3 – 5 t/sکند (کلمه به کلمه تایپ می‌شود)

سوالات متداول اجرای هوش مصنوعی روی کامپیوتر

۱. آیا مدل‌های لوکال از زبان فارسی پشتیبانی می‌کنند؟

مدل‌های اصلی مثل Llama 3 فارسی را می‌فهمند اما در تولید متن فارسی کمی ضعف دارند. پیشنهاد می‌شود از مدل‌های Fine-tune شده مثل Dorous یا نسخه دستکاری شده Command-R برای زبان فارسی استفاده کنید.

۲. آیا می‌توانم مدل‌های لوکال را به اینترنت وصل کنم؟

به صورت پیش‌فرض خیر، مدل‌ها فقط دانش ذخیره شده خود را دارند. اما با ابزارهایی مثل LangChain یا قابلیت‌های جدید LM Studio می‌توانید امکان جستجو در وب را به آن‌ها اضافه کنید.

۳. بهترین مدل برای برنامه‌نویسی (Coding) چیست؟

در حال حاضر مدل‌های CodeLlama و DeepSeek Coder عملکردی نزدیک به GPT-4 در نوشتن کد دارند و کاملاً رایگان هستند.

سخن پایانی اجرای هوش مصنوعی روی کامپیوتر

اجرای هوش مصنوعی روی کامپیوتر شخصی، حس مالکیت و قدرت را به شما باز می‌گرداند. دیگر نگران قطعی API، تحریم IP یا نشت اطلاعات محرمانه نخواهید بود. دنیای مدل‌های Open Source هر روز در حال پیشرفت است و امروز بهترین زمان برای پیوستن به این جریان است.

برای آشنایی با جدیدترین مدل‌های منتشر شده و آموزش‌های پیشرفته برنامه‌نویسی هوش مصنوعی، بخش نرم‌افزار و AI رسانه آلفاتک را دنبال کنید.

سلام من الهه هستم کارشناس تولید محتوا.
مقالات مرتبط

دیدگاهتان را بنویسید