هوش مصنوعی گوگل آن‌طور که ما فکر می‌کنیم نیست!

تینا مزدکی_در یک کنفرانس مطبوعاتی مجازی، اعضای تیم Google DeepMind، نیروی محرکه هوش مصنوعی Gemini، به همراه Google Research، مروری بر سطح بالایی از Gemini و قابلیت‌های آن ارائه کردند. بر اساس شواهد، Gemini در واقع فقط یک هوش مصنوعی نیست، بلکه خانواده ای از مدل های هوش مصنوعی است که در سه مدل ارائه می شود:

  • Gemini Nano، مدلی که بر روی دستگاه های تلفن همراه مانند Pixel 8 Pro اجرا می شود
  • جمینی پرو، مدل ساده جمینی
  • «جمینی اولترا» جمینی اولترا، مدل پرچمدار جمینی

هوش مصنوعی گوگل آن چیزی نیست که ما فکر می کنیم!

Gemini Nano در دو اندازه مدل Nano-1 (1.8 میلیارد پارامتر) و Nano-2 (3.25 میلیارد پارامتر) عرضه می‌شود که به ترتیب دستگاه‌های با حافظه کم و بالا را هدف قرار می‌دهند.

در همین حال، Gemini Nano به زودی به طور انحصاری برای اندروید 14 در پیکسل 8 پرو در پیش نمایش از طریق برنامه جدید AI Core گوگل راه اندازی می شود. ابتدا در Pixel 8 Pro و سپس در سایر دستگاه‌های Android، Gemini Nano ویژگی‌هایی را اضافه می‌کند که گوگل در طول عرضه Pixel 8 Pro در ماه اکتبر پیش‌نمایش آن‌ها را مشاهده کرد، مانند کوتاه‌نویسی در برنامه Recorder و پاسخ‌های پیشنهادی برای برنامه‌های پیام‌رسان پشتیبانی‌شده.

ساده ترین مکان برای آزمایش Gemini Pro نیز هوش مصنوعی Bard’s، رقیب ChatGPT گوگل است که امروز با نسخه پیشرفته Gemini Pro، حداقل در انگلیسی آمریکا (فقط برای متن، بدون تصویر) راه اندازی می شود. گفته می‌شود که Gemini Pro توانایی‌های تفکر، برنامه‌ریزی و درک بهتری نسبت به مدل قبلی بارد ارائه می‌دهد.

هوش مصنوعی گوگل آن چیزی نیست که ما فکر می کنیم!

Gemini Pro همچنین در تاریخ 13 دسامبر برای مشتریان سازمانی با استفاده از Vertex AI، پلتفرم یادگیری ماشینی کاملاً خودکار گوگل، قبل از عرضه به گروه توسعه‌دهندگان Generative AI Studio Google راه‌اندازی می‌شود. در ماه های آینده، Gemini به محصولات گوگل مانند Duet AI، Chrome و Ads و همچنین بخشی از جستجوی گوگل دسترسی خواهد داشت.

اما در مورد Gemini Pro یا حداقل نسخه واقعی Gemini Pro که به Bard قدرت می دهد، چیز زیادی برای گفتن وجود ندارد. Gemini Pro در کارهایی مانند خلاصه کردن محتوا، استدلال و نوشتن برتری دارد و در شش مقیاس از GPT-3.5 OpenAI، سلف GPT-4، از جمله یک مقیاس (GSM8K) که هوش ریاضی را اندازه می‌گیرد، بهتر عمل می‌کند. اما GPT-3.5 بیش از یک سال از عمر آن می گذرد و گذراندن آن در این مرحله سخت است.

بنابراین Gemini Ultra چقدر موثر است؟

مانند Gemini Pro، این مدل، Gemini Ultra نیز از پیش آموزش داده شده و بر روی مجموعه بزرگی از مبانی کد، متن به زبان های مختلف، صدا، تصویر و ویدئو پیکربندی شده است. Gemini Ultra می تواند اطلاعات “ریز” در متن، تصاویر، صدا و کد را درک کند و به سوالات در مورد موضوعات پیچیده، به ویژه ریاضی و فیزیک پاسخ دهد.

هوش مصنوعی گوگل آن چیزی نیست که ما فکر می کنیم!

در این رابطه، Gemini Ultra چندین کار را بهتر از مدل چندوجهی خود OpenAI، GPT-4 با ویژن انجام می‌دهد، که فقط می‌تواند بافت دو وجهی کلمات و تصاویر را درک کند. Gemini Ultra می تواند گفتار را ترجمه کند و به سوالات صوتی و تصویری مانند «در این کلیپ چه خبر است؟»، علاوه بر آثار هنری و عکس پاسخ دهد.

رویکرد استاندارد برای ایجاد مدل‌های چندوجهی شامل آموزش اجزای مختلف برای روش‌های مختلف است. این مدل‌ها در برخی کارها مانند توصیف یک تصویر عالی هستند، اما واقعاً با وظایف تفکر مفهومی پیچیده‌تر دست و پنجه نرم می‌کنند. به همین دلیل Gemini به گونه ای طراحی شده است که ذاتاً چندوجهی باشد.

با این حال، هیچ اطلاعاتی در مورد پایگاه آموزشی Gemini وجود ندارد. اما گوگل بارها از پاسخ دادن به سوالات خبرنگاران در مورد نحوه جمع آوری داده های آموزشی Gemini، از کجا داده های آموزشی و اینکه آیا هر یک از ارائه دهندگان آموزش از اشخاص ثالث مجوز دارند، خودداری کرده است. مردم وب را برای کیفیت محتوا “فیلتر” کرده اند. بی عدالتی

هوش مصنوعی گوگل آن چیزی نیست که ما فکر می کنیم!

گوگل اولین کسی نیست که داده های آموزشی خود را مخفی می کند. داده ها نه تنها یک مزیت رقابتی است، بلکه منبع بالقوه دعوی قضایی استفاده منصفانه است. Microsoft، GitHub، OpenAI و Stability AI از جمله فروشندگان تولیدکننده هوش مصنوعی هستند که متهم به نقض قانون IP با آموزش سیستم‌های هوش مصنوعی خود در مورد محتوای دارای حق چاپ، از جمله آثار هنری و کتاب‌های الکترونیکی، بدون دادن اعتبار هستند یا تولیدکنندگان را به پرداخت متهم می‌کنند. . شکایت کردن

جمینی فوق‌العاده رقابت نزدیکی با سایر هوش مصنوعی‌ها دارد

در GSM8K، Gemini Ultra AI به 94.4 درصد از سؤالات ریاضی در مقایسه با 92 درصد در GPT-4 پاسخ صحیح می دهد. در مقیاس DROP برای درک، توانایی Gemini Ultra و GPT-4 به ترتیب به 82.4٪ و 80.9٪ می رسد. در VQAv2، معیاری برای درک تصویر “عصبی”، Gemini از GPT-4 با Vision 0.6٪ و Gemini Ultra فقط 0.5٪ از هوش مصنوعی GPT-4 در مجموعه تفکر سخت Big عملکرد بهتری دارد. -Bench با شکست مواجه شد.

Gemini Ultra بهتر از GPT-4 با Vision در معیار جدید MMMU برای تفکر چندوجهی، با 59.4%. اما در یک مجموعه آزمایشی برای ایده عقل سلیم HellaSwag، مدل Gemini Ultra در واقع از امتیاز 95.3% GPT-4 با 87.8% فاصله دارد.

هوش مصنوعی گوگل آن چیزی نیست که ما فکر می کنیم!

در عین حال، به گفته کارشناسان، این که Gemini Ultra، مانند سایر مدل‌های هوش مصنوعی مصنوعی، طعمه توهم می‌شود، یعنی به طور قابل اعتماد حقایق را اختراع می‌کند، یک مشکل تحقیقاتی حل نشده است. از آنجایی که حتی بهترین مدل‌های هوش مصنوعی مولد امروزی به روش‌های مشکل‌ساز و مضر پاسخ می‌دهند، این موضوع برای Gemini Ultra نیز در محدوده امکان‌پذیر است. تقریباً به طور قطع به اندازه سایر مدل های هوش مصنوعی “انگلیسی محور” است.

گفته می شود در حالی که Gemini Ultra می تواند بین حدود 100 زبان ترجمه کند، تلاش خاصی برای بومی سازی این مدل در کشورهای جنوب جهانی انجام نشده است.

در یکی دیگر از محدودیت های اصلی، در حالی که معماری Gemini Ultra از پردازش تصویر پشتیبانی می کند، همانطور که Gemini Pro در تئوری انجام می دهد، این ظرفیت در ابتدا در نسخه تولیدی مدل گنجانده نخواهد شد. این احتمالاً به این دلیل است که مکانیسم کمی پیچیده‌تر از نحوه تولید تصاویر ChatGPT است. در مورد ChatGPT، به جای ارسال درخواست‌ها به یک تولیدکننده تصویر مانند DALL-E 3، Gemini تصاویر را به‌صورت «بومی» و بدون مرحله‌ای میانجی خروجی می‌کند.

هوش مصنوعی گوگل آن چیزی نیست که ما فکر می کنیم!

گوگل در کنفرانس سالانه توسعه‌دهندگان I/O خود قول داد که Gemini قابلیت‌های چندوجهی چشمگیری را که در مدل‌های قبلی دیده نمی‌شد، و کارایی در ابزارها و APIهای یکپارچه ارائه می‌کند. رئیس و یکی از بنیانگذاران DeepMind در مصاحبه ای اشاره کرد که Gemini قابلیت های جدیدی را در زمینه هوش مصنوعی مبتنی بر متن از جمله قابلیت های برنامه ریزی و حل مسئله معرفی می کند.

Gemini Ultra می تواند همه اینها و بیشتر را انجام دهد. اما این کنفرانس قانع کننده نبود، به خصوص با توجه به کاستی های هوش مصنوعی نسل قبلی و جدید گوگل. گوگل از ابتدای سال جاری در زمینه هوش مصنوعی پیشرفت کرده است و پس از OpenAI و ChatGPT محبوب این شرکت رقابت می کند. بارد در ماه فوریه به دلیل عدم پاسخگویی مناسب به سوالات اساسی اخراج شد و کارمندان گوگل، از جمله تیم اخلاقی این شرکت، نسبت به زمان راه اندازی سریع ابراز نگرانی کرده اند.

بعداً گزارش‌هایی منتشر شد مبنی بر اینکه گوگل بیش از حد کار کرده و به پیمانکاران شخص ثالث Appen و Accenture برای تفسیر داده‌های تحصیلی Bard کمتر پرداخت کرده است. همین امر می تواند برای جمینی نیز صادق باشد. گوگل این موضوع را رد نکرد و گفت که به نظر دهندگان «حداقل دستمزد محلی» پرداخت شده است.

هوش مصنوعی گوگل آن چیزی نیست که ما فکر می کنیم!

اکنون، اگر منصف باشیم، گوگل در حال حرکت به سمت جلو است به این معنا که Bard از زمان راه اندازی خود بسیار تکامل یافته است و گوگل با موفقیت ده ها محصول، برنامه ها و خدمات خود را با ویژگی های جدید مبتنی بر هوش مصنوعی معرفی کرده است. مدل های بومی مانند Palm 2 و تصویر ارائه شده است.

رشد جمینی با مشکل مواجه است

گفته می‌شود که Gemini که مستقیماً به مدیران ارشد گوگل جف دین، مدیر ارشد تحقیقات هوش مصنوعی این شرکت گزارش می‌دهد، با وظایفی مانند رسیدگی مطمئن به پرسش‌های غیرانگلیسی که جمینی با تأخیر راه‌اندازی کرد، مشکل دارد. Gemini Ultra تنها برای منتخب مشتریان، توسعه‌دهندگان، شرکا و “متخصصین امنیت و مسئولیت” قبل از عرضه برای توسعه دهندگان و مشتریان سازمانی، پس از Bard در اوایل سال آینده، در دسترس خواهد بود. با این حال، هنوز ویژگی‌های جدیدی برای Gemini Ultra وجود دارد و استراتژی کسب درآمد برای Gemini هنوز کشف نشده است.

بیشتر بخوانید:

بنابراین ما هنوز رفتیم و Gemini Pro. و Gemini Ultra ممکن است ضعیف باشد، به خصوص اگر پنجره قاب مدل 24000 کلمه همانطور که در کاغذ سفید فنی مشخص شده است باقی بماند. (پنجره زمینه متنی را که مدل قبل از تولید هر متن دیگری توصیف می کند، توصیف می کند.) GPT-4 به راحتی آن پنجره زمینه 100000 کلمه را می شکند، اما پنجره زمینه قطعا همه چیز نیست. تا زمانی که نتوانیم به مدل دست پیدا کنیم، نباید قضاوت کنیم.

شاید بازاریابی گوگل، تلگرافی مبنی بر اینکه Gemini چیزی واقعاً مهم به جز یک حرکت کوچک سوزن هوش مصنوعی خواهد بود، مقصر معرفی محصول امروزی باشد، یا شاید به دست آوردن مدل های پیشرفته هوش مصنوعی واقعاً سخت باشد. ساخت کل بخش هوش مصنوعی . سازماندهی مجدد.برای بهبود روند کار.

منبع: techcrunch

227323

دکمه بازگشت به بالا