به نقل از گیزموچاینا، تحقیقات در حوزه هوش مصنوعی معمولاً در انحصار شرکتهای بزرگ فناوری با بودجههای کلان است. اما زمانی که شرکت چینی دیپ سیک اعلام کرد با سرمایه ۶ میلیون دلاری، مدلی هوش مصنوعی با قابلیت رقابت با چتجیپیتی توسعه داده، بازار این حوزه دستخوش تحولات گستردهای شد. اکنون، گروهی از محققان دانشگاه «یوسی برکلی» موفق شدهاند قابلیتهای اصلی مدل R۱-Zero دیپ سیک را تنها با هزینه ۳۰ دلار بازتولید کنند.
پروژه تاینی زیرو: توسعه هوش مصنوعی با حداقل هزینه
این پروژه که «تاینی زیرو» نام گرفته، نشان میدهد که توسعه مدلهای استدلالی پیشرفته هوش مصنوعی الزاماً نیازمند بودجههای کلان نیست. علاوه بر این، فناوری هوش مصنوعی بیش از پیش در دسترس قرار گرفته و امکان توسعه مدلهای پیشرفته با منابع محدود نیز فراهم شده است.
روش کار محققان
گروهی از محققان به رهبری «جیای پان» تصمیم گرفتند مدل استدلالی دیپ سیک را با بهرهگیری از فناوری «یادگیری تقویتی» (RL) بازسازی کنند. آنها به جای استفاده از سرویسهای گرانقیمت ابررایانشی، مدل تاینی زیرو را با یک مدل زبانی پایه، یک محرک و یک سیستم پاداش ساده آموزش دادند.
پان در شبکه اجتماعی ایکس نوشت: "شما میتوانید لحظه ‘آها’ (دستیابی به موفقیت) را تنها با ۳۰ دلار تجربه کنید." او همچنین توضیح داد که تاینی زیرو اولین مدل استدلالی بازتولید شده است که توانایی تأیید و اصلاح پاسخهای خود را دارد.
آزمایش تاینی زیرو: از حدس تصادفی تا استدلال بهینه
محققان برای آزمایش این مدل، از یک بازی به نام «کانت داون» استفاده کردند. در این بازی، بازیکنان باید با انجام محاسبات پایه ریاضی، به یک عدد هدف دست یابند. در ابتدا، تاینی زیرو پاسخها را بهصورت تصادفی حدس میزد، اما با گذشت زمان یاد گرفت که پاسخهای خود را تأیید کند، برای پاسخهای بهتر جستجو انجام دهد و انطباقهای لازم را اعمال کند.
در این تحقیق، مدلهای هوش مصنوعی با اندازههای مختلف، از ۵۰۰ میلیون تا ۷ میلیارد پارامتر، مورد بررسی قرار گرفتند. نتایج نشان داد مدلهای کوچکتر پس از حدس اولیه متوقف میشدند، درحالیکه مدلهای بزرگتر توانایی خودتاییدی و بهبود راهحلها را فرا گرفته و دقت پاسخهای خود را افزایش میدادند.
تاینی زیرو: گامی به سوی آینده هوش مصنوعی منبع باز
تاینی زیرو به عنوان یک مدل هوش مصنوعی منبع باز در دسترس محققان و علاقهمندان قرار گرفته و کاربران میتوانند از طریق گیتهاب به آن دسترسی داشته باشند. اگرچه این مدل تاکنون تنها در بازی کانت داون مورد آزمایش قرار گرفته است، پان امیدوار است که این پروژه باعث شود تحقیقات یادگیری تقویتی در سطح گستردهتری در دسترس قرار گیرد و مسیر توسعه این فناوری را تسهیل کند.