هوش مصنوعی گوگل آنطور که ما فکر میکنیم نیست!
تینا مزدکی_در یک کنفرانس مطبوعاتی مجازی، اعضای تیم Google DeepMind، نیروی محرکه هوش مصنوعی Gemini، به همراه Google Research، مروری بر سطح بالایی از Gemini و قابلیتهای آن ارائه کردند. بر اساس شواهد، Gemini در واقع فقط یک هوش مصنوعی نیست، بلکه خانواده ای از مدل های هوش مصنوعی است که در سه مدل ارائه می شود:
- Gemini Nano، مدلی که بر روی دستگاه های تلفن همراه مانند Pixel 8 Pro اجرا می شود
- جمینی پرو، مدل ساده جمینی
- «جمینی اولترا» جمینی اولترا، مدل پرچمدار جمینی
Gemini Nano در دو اندازه مدل Nano-1 (1.8 میلیارد پارامتر) و Nano-2 (3.25 میلیارد پارامتر) عرضه میشود که به ترتیب دستگاههای با حافظه کم و بالا را هدف قرار میدهند.
در همین حال، Gemini Nano به زودی به طور انحصاری برای اندروید 14 در پیکسل 8 پرو در پیش نمایش از طریق برنامه جدید AI Core گوگل راه اندازی می شود. ابتدا در Pixel 8 Pro و سپس در سایر دستگاههای Android، Gemini Nano ویژگیهایی را اضافه میکند که گوگل در طول عرضه Pixel 8 Pro در ماه اکتبر پیشنمایش آنها را مشاهده کرد، مانند کوتاهنویسی در برنامه Recorder و پاسخهای پیشنهادی برای برنامههای پیامرسان پشتیبانیشده.
ساده ترین مکان برای آزمایش Gemini Pro نیز هوش مصنوعی Bard’s، رقیب ChatGPT گوگل است که امروز با نسخه پیشرفته Gemini Pro، حداقل در انگلیسی آمریکا (فقط برای متن، بدون تصویر) راه اندازی می شود. گفته میشود که Gemini Pro تواناییهای تفکر، برنامهریزی و درک بهتری نسبت به مدل قبلی بارد ارائه میدهد.
Gemini Pro همچنین در تاریخ 13 دسامبر برای مشتریان سازمانی با استفاده از Vertex AI، پلتفرم یادگیری ماشینی کاملاً خودکار گوگل، قبل از عرضه به گروه توسعهدهندگان Generative AI Studio Google راهاندازی میشود. در ماه های آینده، Gemini به محصولات گوگل مانند Duet AI، Chrome و Ads و همچنین بخشی از جستجوی گوگل دسترسی خواهد داشت.
اما در مورد Gemini Pro یا حداقل نسخه واقعی Gemini Pro که به Bard قدرت می دهد، چیز زیادی برای گفتن وجود ندارد. Gemini Pro در کارهایی مانند خلاصه کردن محتوا، استدلال و نوشتن برتری دارد و در شش مقیاس از GPT-3.5 OpenAI، سلف GPT-4، از جمله یک مقیاس (GSM8K) که هوش ریاضی را اندازه میگیرد، بهتر عمل میکند. اما GPT-3.5 بیش از یک سال از عمر آن می گذرد و گذراندن آن در این مرحله سخت است.
بنابراین Gemini Ultra چقدر موثر است؟
مانند Gemini Pro، این مدل، Gemini Ultra نیز از پیش آموزش داده شده و بر روی مجموعه بزرگی از مبانی کد، متن به زبان های مختلف، صدا، تصویر و ویدئو پیکربندی شده است. Gemini Ultra می تواند اطلاعات “ریز” در متن، تصاویر، صدا و کد را درک کند و به سوالات در مورد موضوعات پیچیده، به ویژه ریاضی و فیزیک پاسخ دهد.
در این رابطه، Gemini Ultra چندین کار را بهتر از مدل چندوجهی خود OpenAI، GPT-4 با ویژن انجام میدهد، که فقط میتواند بافت دو وجهی کلمات و تصاویر را درک کند. Gemini Ultra می تواند گفتار را ترجمه کند و به سوالات صوتی و تصویری مانند «در این کلیپ چه خبر است؟»، علاوه بر آثار هنری و عکس پاسخ دهد.
رویکرد استاندارد برای ایجاد مدلهای چندوجهی شامل آموزش اجزای مختلف برای روشهای مختلف است. این مدلها در برخی کارها مانند توصیف یک تصویر عالی هستند، اما واقعاً با وظایف تفکر مفهومی پیچیدهتر دست و پنجه نرم میکنند. به همین دلیل Gemini به گونه ای طراحی شده است که ذاتاً چندوجهی باشد.
با این حال، هیچ اطلاعاتی در مورد پایگاه آموزشی Gemini وجود ندارد. اما گوگل بارها از پاسخ دادن به سوالات خبرنگاران در مورد نحوه جمع آوری داده های آموزشی Gemini، از کجا داده های آموزشی و اینکه آیا هر یک از ارائه دهندگان آموزش از اشخاص ثالث مجوز دارند، خودداری کرده است. مردم وب را برای کیفیت محتوا “فیلتر” کرده اند. بی عدالتی
گوگل اولین کسی نیست که داده های آموزشی خود را مخفی می کند. داده ها نه تنها یک مزیت رقابتی است، بلکه منبع بالقوه دعوی قضایی استفاده منصفانه است. Microsoft، GitHub، OpenAI و Stability AI از جمله فروشندگان تولیدکننده هوش مصنوعی هستند که متهم به نقض قانون IP با آموزش سیستمهای هوش مصنوعی خود در مورد محتوای دارای حق چاپ، از جمله آثار هنری و کتابهای الکترونیکی، بدون دادن اعتبار هستند یا تولیدکنندگان را به پرداخت متهم میکنند. . شکایت کردن
جمینی فوقالعاده رقابت نزدیکی با سایر هوش مصنوعیها دارد
در GSM8K، Gemini Ultra AI به 94.4 درصد از سؤالات ریاضی در مقایسه با 92 درصد در GPT-4 پاسخ صحیح می دهد. در مقیاس DROP برای درک، توانایی Gemini Ultra و GPT-4 به ترتیب به 82.4٪ و 80.9٪ می رسد. در VQAv2، معیاری برای درک تصویر “عصبی”، Gemini از GPT-4 با Vision 0.6٪ و Gemini Ultra فقط 0.5٪ از هوش مصنوعی GPT-4 در مجموعه تفکر سخت Big عملکرد بهتری دارد. -Bench با شکست مواجه شد.
Gemini Ultra بهتر از GPT-4 با Vision در معیار جدید MMMU برای تفکر چندوجهی، با 59.4%. اما در یک مجموعه آزمایشی برای ایده عقل سلیم HellaSwag، مدل Gemini Ultra در واقع از امتیاز 95.3% GPT-4 با 87.8% فاصله دارد.
در عین حال، به گفته کارشناسان، این که Gemini Ultra، مانند سایر مدلهای هوش مصنوعی مصنوعی، طعمه توهم میشود، یعنی به طور قابل اعتماد حقایق را اختراع میکند، یک مشکل تحقیقاتی حل نشده است. از آنجایی که حتی بهترین مدلهای هوش مصنوعی مولد امروزی به روشهای مشکلساز و مضر پاسخ میدهند، این موضوع برای Gemini Ultra نیز در محدوده امکانپذیر است. تقریباً به طور قطع به اندازه سایر مدل های هوش مصنوعی “انگلیسی محور” است.
گفته می شود در حالی که Gemini Ultra می تواند بین حدود 100 زبان ترجمه کند، تلاش خاصی برای بومی سازی این مدل در کشورهای جنوب جهانی انجام نشده است.
در یکی دیگر از محدودیت های اصلی، در حالی که معماری Gemini Ultra از پردازش تصویر پشتیبانی می کند، همانطور که Gemini Pro در تئوری انجام می دهد، این ظرفیت در ابتدا در نسخه تولیدی مدل گنجانده نخواهد شد. این احتمالاً به این دلیل است که مکانیسم کمی پیچیدهتر از نحوه تولید تصاویر ChatGPT است. در مورد ChatGPT، به جای ارسال درخواستها به یک تولیدکننده تصویر مانند DALL-E 3، Gemini تصاویر را بهصورت «بومی» و بدون مرحلهای میانجی خروجی میکند.
گوگل در کنفرانس سالانه توسعهدهندگان I/O خود قول داد که Gemini قابلیتهای چندوجهی چشمگیری را که در مدلهای قبلی دیده نمیشد، و کارایی در ابزارها و APIهای یکپارچه ارائه میکند. رئیس و یکی از بنیانگذاران DeepMind در مصاحبه ای اشاره کرد که Gemini قابلیت های جدیدی را در زمینه هوش مصنوعی مبتنی بر متن از جمله قابلیت های برنامه ریزی و حل مسئله معرفی می کند.
Gemini Ultra می تواند همه اینها و بیشتر را انجام دهد. اما این کنفرانس قانع کننده نبود، به خصوص با توجه به کاستی های هوش مصنوعی نسل قبلی و جدید گوگل. گوگل از ابتدای سال جاری در زمینه هوش مصنوعی پیشرفت کرده است و پس از OpenAI و ChatGPT محبوب این شرکت رقابت می کند. بارد در ماه فوریه به دلیل عدم پاسخگویی مناسب به سوالات اساسی اخراج شد و کارمندان گوگل، از جمله تیم اخلاقی این شرکت، نسبت به زمان راه اندازی سریع ابراز نگرانی کرده اند.
بعداً گزارشهایی منتشر شد مبنی بر اینکه گوگل بیش از حد کار کرده و به پیمانکاران شخص ثالث Appen و Accenture برای تفسیر دادههای تحصیلی Bard کمتر پرداخت کرده است. همین امر می تواند برای جمینی نیز صادق باشد. گوگل این موضوع را رد نکرد و گفت که به نظر دهندگان «حداقل دستمزد محلی» پرداخت شده است.
اکنون، اگر منصف باشیم، گوگل در حال حرکت به سمت جلو است به این معنا که Bard از زمان راه اندازی خود بسیار تکامل یافته است و گوگل با موفقیت ده ها محصول، برنامه ها و خدمات خود را با ویژگی های جدید مبتنی بر هوش مصنوعی معرفی کرده است. مدل های بومی مانند Palm 2 و تصویر ارائه شده است.
رشد جمینی با مشکل مواجه است
گفته میشود که Gemini که مستقیماً به مدیران ارشد گوگل جف دین، مدیر ارشد تحقیقات هوش مصنوعی این شرکت گزارش میدهد، با وظایفی مانند رسیدگی مطمئن به پرسشهای غیرانگلیسی که جمینی با تأخیر راهاندازی کرد، مشکل دارد. Gemini Ultra تنها برای منتخب مشتریان، توسعهدهندگان، شرکا و “متخصصین امنیت و مسئولیت” قبل از عرضه برای توسعه دهندگان و مشتریان سازمانی، پس از Bard در اوایل سال آینده، در دسترس خواهد بود. با این حال، هنوز ویژگیهای جدیدی برای Gemini Ultra وجود دارد و استراتژی کسب درآمد برای Gemini هنوز کشف نشده است.
بیشتر بخوانید:
بنابراین ما هنوز رفتیم و Gemini Pro. و Gemini Ultra ممکن است ضعیف باشد، به خصوص اگر پنجره قاب مدل 24000 کلمه همانطور که در کاغذ سفید فنی مشخص شده است باقی بماند. (پنجره زمینه متنی را که مدل قبل از تولید هر متن دیگری توصیف می کند، توصیف می کند.) GPT-4 به راحتی آن پنجره زمینه 100000 کلمه را می شکند، اما پنجره زمینه قطعا همه چیز نیست. تا زمانی که نتوانیم به مدل دست پیدا کنیم، نباید قضاوت کنیم.
شاید بازاریابی گوگل، تلگرافی مبنی بر اینکه Gemini چیزی واقعاً مهم به جز یک حرکت کوچک سوزن هوش مصنوعی خواهد بود، مقصر معرفی محصول امروزی باشد، یا شاید به دست آوردن مدل های پیشرفته هوش مصنوعی واقعاً سخت باشد. ساخت کل بخش هوش مصنوعی . سازماندهی مجدد.برای بهبود روند کار.
منبع: techcrunch
227323