
در يكي از قسمت هاي اخير پادكست Possible كه توسط ريد هافمن، يكي از بنيان گذاران لينكدين، اجرا مي شود، دميس هاسابيس، مديرعامل گوگل ديپ مايند، اعلام كرد كه اين شركت قصد دارد مدل هاي هوش مصنوعي جميناي (Gemini) را با فناوري توليد ويديو Veo تركيب كند. هدف از اين كار، افزايش درك مدل هاي جميناي از جهان فيزيكي است.
هاسابيس تأكيد كرد: ما از ابتدا مدل پايه جميناي را به صورت چندوجهي (multimodal) طراحي كرديم. اين طراحي بر اساس چشم انداز ما براي خلق يك دستيار ديجيتال جهاني است كه بتواند واقعاً در دنياي واقعي به كاربران كمك كند.
با رشد تدريجي صنعت هوش مصنوعي، تمركز به سمت توسعه مدل هاي همه جانبه (Omni) حركت كرده است؛ مدل هايي كه توانايي درك و توليد انواع مختلف رسانه ها را دارند.

جديدترين مدل هاي جميناي گوگل قادر به توليد صدا، تصوير و متن هستند، درحالي كه مدل پيش فرض اوپن اِي آي (OpenAI) در چت جي پي تي (ChatGPT) اكنون مي تواند تصاوير (از جمله آثار به سبك استوديو جيبلي) ايجاد كند. آمازون نيز برنامه هايي براي راه اندازي يك مدل هرچيزي به هرچيزي (any-to-any) تا پايان سال جاري اعلام كرده است.
براي آموزش مدل هاي همه جانبه، نياز به حجم زيادي از داده هاي آموزشي شامل تصاوير، ويديوها، صدا و متن وجود دارد. هاسابيس اشاره كرد كه داده هاي ويديويي مورد استفاده در آموزش Veo عمدتاً از يوتيوب، كه متعلق به گوگل است، تأمين شده اند. وي توضيح داد: Veo 2 از طريق مشاهده تعداد زيادي ويديو در يوتيوب، توانسته به درك بهتري از فيزيك جهان دست يابد.
گوگل پيش تر به TechCrunch اعلام كرده بود كه مدل هايش ممكن است با استفاده از برخي محتواي يوتيوب و مطابق با توافق با خالقان محتوا آموزش داده شوند. گزارش ها حاكي از آن است كه اين شركت سال گذشته شرايط خدمات خود را گسترش داد تا دسترسي به داده هاي بيشتر براي آموزش مدل هاي هوش مصنوعي خود را فراهم كند.