سوءاستفاده OpenAI از رونوشت ویدیوهای یوتیوب برای آموزش هوش مصنوعی!
کاهش شدید منابع آموزشی، شرکتهای هوش مصنوعی را بهدردسر انداخته است! براساس گزارشات جدید کمپانی OpenAI برای آموزش مدل زبانی GPT-4 به سراغ استفاده بدون مجوز از رونوشت میلیونها ساعت ویدیوی یوتیوب رفته است و این اقدام را براساس قانون "استفاده منصفانه" کاملاً قانونی تلقی میکند!
به گزارش واحد ترجمه ایراندکونومی، اخبار جدید حاکی از آن هستند که کمپانی OpenAI از رونوشت میلیونها ساعت ویدیوی یوتیوب برای آموزش سیستمهای هوش مصنوعی خود استفاده کرده است!
در اوایل هفته جاری، روزنامه The Wall Street Journal ادعا کرده بود که شرکتهای هوش مصنوعی برای جمعآوری دادههای آموزشی با کیفیت به بنبست برخوردهاند و حالا نیویورکتایمز امروز مدعی شده که راهکار برخی کمپانیها برای حل این مشکل را پیدا کرده است. جای تعجبی ندارد که این راهکارها عمدتاً قانون کپیرایت محتواها را نقض میکنند!
محتواهای یوتیوب، قربانی جدید کمپانی OpenAI
مقاله خبری نیویورکتایمز عمدتاً درباره اقدامات اخیر کمپانی OpenAI است. استارتاپ سم آلتمن که شدیداً نیازمند یافتن دادههای آموزشی ارزشمند است؛ مدل زبانی بزرگ و قدرتمند GPT-4 را براساس رونوشتهای میلیونها ساعت ویدیوی موجود در یوتیوب آموزش داده است!
به گفته این خبرگزاری، با اینکه OpenAI میدانسته چنین تصمیمی بسیار سؤالبرانگیز خواهد بود؛ اما در نهایت به دلیل قانون “استفاده منصفانه” (Fair Use) دستبهکار شده است. نیویورکتایمز میگوید رئیس این کمپانی، گرگ براکمن شخصاً در جمعآوری ویدیوهای مدنظر از یوتیوب دخیل بوده است!
به گفته سخنگوی این استارتاپ، OpenAI برای آموزش هر یک از مدلهای هوش مصنوعی خود “یک دیتاست اختصاصی و منحربهفرد” آماده میکند که به “فهم و درک آنها از جهان پیرامون کمک میکند”. سخنگوی این کمپانی هوش مصنوعی میگوید این استارتاپ از چندین منبع از دادههایی که در اختیار عموم هستند استفاده میکند و دادههای خصوصی و دارای کپیرایت نیز با همکاری رسمی و عقد قراردادهای اختصاصی مورداستفاده قرار میگیرند.
در این مقاله خبری گفته شده که این کمپانی در سال 2021 دیگر منبع مورد اطمینان و غنیای برای آموزش الگوریتمهای هوش مصنوعی خود نداشته است و به دلیل عدم در دسترس بودن منابع دیگر به سراغ رونوشت ویدیوهای موجود در یوتیوب، پادکستها و کتابهای صوتی رفته است.
در آن بازه زمانی OpenAI از دادههای کدنویسی موجود در پلتفرم Github، دیتابیسهای حرکات شطرنج و حتی محتواهای آموزشی تکالیف مدرسه و دانشگاه پلتفرم Quizlet نیز استفاده کرده بود!
سخنگوی گوگل در این باره اعلام کرده که شاهد انتشار این “گزارشات تأیید نشده” بوده است و براساس قوانین یوتیوب “هرگونه استفاده از رونوشتها، استخراج دادهها و دانلود محتواهای یوتیوب” غیرقانونی میباشد.
چند روز پیش مدیرعامل این پلتفرم ویدیو، نیل موهان نیز گفته بود که احتمال زیادی وجود دارد که کمپانی OpenAI از ویدیوهای موجود در یوتیوب برای آموزش هوش مصنوعی ساخت ویدیوی خود Sora سوءاستفاده کرده باشد! سخنگوی گوگل اعلام کرده اقدامات قانونی موردنیاز برای جلوگیری از سوءاستفاده محتواهای کاربران یوتیوب صورت گرفته است.
البته براساس گزارش نیویورکتایمز، خود کمپانی گوگل هم از رونوشتهای یوتیوب برای آموزش هوش مصنوعی خود استفاده کرده است اما سخنگوی گوگل اطمینان داده که این همکاری با رضایت دوطرفه با تولیدکنندگان یوتیوب صورت گرفته است.
منبع: The Verge