به گزارش دپارتمان اخبار اقتصادی پایگاه خبری آبان نیوز ،
پس از بررسیهای متعدد منابع فاشیست، دزدی دریایی و مخربی که دادهها از آنها جمعآوری میشوند، ترسهای جدیدی در مورد مواد آموزشی مورد استفاده برای برخی از بزرگترین و قدرتمندترین مدلهای هوش مصنوعی ایجاد شده است.
یکی از این مجموعه داده ها Colossal Clean Crawled Corpus یا C4 است که توسط گوگل از بیش از 15 میلیون وب سایت جمع آوری شده و برای آموزش هوش مصنوعی LaMDA موتور جستجو و همچنین رقیب متا GPT، LLaMA استفاده می شود.
مجموعه داده عمومی است، اما مقیاس آن بررسی محتویات را دشوار کرده است: ظاهراً یک نسخه «تمیز» از مجموعه داده گسترده تر، Common Crawl، با محتوای «پر سر و صدا»، زبان توهین آمیز و توهین های نژادپرستانه حذف شده از مطالب است.
اما تحقیقات واشنگتن پست نشان می دهد که “پاکیزگی” C4 فقط عمیق است. در حالی که از وب سایت هایی مانند آبان نیوز – که 0.05٪ از کل مجموعه داده را تشکیل می دهد – و ویکی پدیا، و همچنین پایگاه های داده بزرگی مانند ثبت اختراعات گوگل و مرکز مجلات علمی PLOS استفاده می کند، همچنین دارای سایت های کمتر معتبری است.
سایت ملی گرای سفیدپوست VDARE در پایگاه داده، یکی از 1000 سایت بزرگ، و همچنین سایت خبری راست افراطی Breitbart قرار دارد. سایت تبلیغاتی تحت حمایت دولت روسیه RT یکی از صدها بزرگترین ارائه دهنده داده های آموزشی به مجموعه C4 است.
تعداد کمی از سایتها رضایت صریح برای گنجاندن دادهاند، اگرچه Common Crawl، سازمان غیرانتفاعی که دادههای خراششده را جمعآوری کرده است، میگوید به درخواستهایی که از جستجوی خود کنار گذاشته میشوند احترام میگذارد. با این حال، برخی محدودیتهای استفاده منصفانه را زیر پا میگذارند: b-ok.org، که قبلا با نام Bookzz شناخته میشد، یک مخزن وسیع از کتابهای الکترونیکی دزدی بود تا اینکه در سال 2022 توسط FBI توقیف شد. با وجود این، محتوای سایت در پایگاه داده C4.
چنین مجموعه گسترده ای از داده ها برای ایجاد هوش مصنوعی مهم هستند، زیرا مدل های زبان بزرگ (LLM) که زیربنای ابزارهایی مانند ChatGPT هستند، به مجموعه داده های عظیمی برای بهبود نیاز دارند.
جمع آوری صدها گیگابایت متن مورد نیاز برای آموزش چنین مدلی از منابع دارای مجوز صریح کار دشواری خواهد بود و بسیاری از محققان هوش مصنوعی به جای کسب اجازه درخواست بخشش می کنند و استدلال می کنند که آثار آنها تحت پوشش دفاعی “استفاده منصفانه” از حق چاپ است. .
برخی حتی تصمیم میگیرند از «تمیز کردن» گوگل که روی مجموعه دادههای خود اعمال میکند صرف نظر کنند تا به دادههای بیشتری دسترسی داشته باشند تا سیستمهایشان از آنها یاد بگیرند. هوش مصنوعی مستقر در لندن، LLM جدید خود را با نام StableLM، روز چهارشنبه منتشر کرد که بر روی Pile آموزش دیده است، یک مجموعه داده 850 گیگابایتی که شامل کل پایگاه داده Common Crawl تمیز نشده، و همچنین 2 میلیون کتاب الکترونیکی دزدان دریایی از سایت BitTorrent Bibliotik، 100 گیگابایت داده خراشیده شده است. از سایت کد نویسی GitHub و منابع باطنی بیشتر، مانند هر ایمیل داخلی ارسال شده توسط شرکت انرژی که اکنون از بین رفته Enron و کل جلسات پارلمان اروپا ارسال می شود.
The Pile به طور عمومی توسط گروهی از “علاقهمندان به دادهها” ناشناس به نام Eye میزبانی میشود، که سیاست حذف حق نسخهبرداری آنها به ویدئویی از گروه کر متشکل از زنان لباسپوش مرتبط است که وانمود میکنند در حین آواز خواندن، آلت تناسلی خیالی خودارضایی میکنند.
این شرکت میگوید نسخه استفاده شده توسط Stability، که در حال حاضر خصوصی است، «سه برابر بزرگتر است». هیچ جزئیات بیشتری در مورد محتوای اضافی این مجموعه داده منتشر نکرده است، که به گفته وی، “به StableLM عملکرد شگفتآوری بالایی در کارهای مکالمه و کدنویسی میدهد”.
استیبلی گفت: «ما مدلهای خود را برای ارتقای شفافیت و تقویت اعتماد منبع باز میکنیم. «محققان میتوانند برای تأیید عملکرد، کار بر روی تکنیکهای تفسیرپذیری، شناسایی خطرات بالقوه و کمک به توسعه پادمانها «زیر سرپوش» نگاه کنند.
سازمانها در بخشهای دولتی و خصوصی میتوانند این مدلهای منبع باز را برای برنامههای کاربردی خود بدون به اشتراک گذاشتن دادههای حساس خود یا کنار گذاشتن کنترل قابلیتهای هوش مصنوعی خود، تطبیق دهند.»
برای نظر دادن به گوگل مراجعه شد.
این خبر از خبرگزاری های بین المللی معتبر گردآوری شده است و سایت اخبار امروز آبان نیوز صرفا نمایش دهنده است. آبان نیوز در راستای موازین و قوانین جمهوری اسلامی ایران فعالیت میکند لذا چنانچه این خبر را شایسته ویرایش و یا حذف میدانید، در صفحه تماس با ما گزارش کنید.