نگرانی های جدیدی در مورد منابع مواد آموزشی برای سیستم های هوش مصنوعی مطرح شد | هوش مصنوعی (AI)

به گزارش دپارتمان اخبار اقتصادی پایگاه خبری آبان نیوز ،

پس از بررسی‌های متعدد منابع فاشیست، دزدی دریایی و مخربی که داده‌ها از آنها جمع‌آوری می‌شوند، ترس‌های جدیدی در مورد مواد آموزشی مورد استفاده برای برخی از بزرگترین و قدرتمندترین مدل‌های هوش مصنوعی ایجاد شده است.

یکی از این مجموعه داده ها Colossal Clean Crawled Corpus یا C4 است که توسط گوگل از بیش از 15 میلیون وب سایت جمع آوری شده و برای آموزش هوش مصنوعی LaMDA موتور جستجو و همچنین رقیب متا GPT، LLaMA استفاده می شود.

مجموعه داده عمومی است، اما مقیاس آن بررسی محتویات را دشوار کرده است: ظاهراً یک نسخه «تمیز» از مجموعه داده گسترده تر، Common Crawl، با محتوای «پر سر و صدا»، زبان توهین آمیز و توهین های نژادپرستانه حذف شده از مطالب است.

اما تحقیقات واشنگتن پست نشان می دهد که “پاکیزگی” C4 فقط عمیق است. در حالی که از وب سایت هایی مانند آبان نیوز – که 0.05٪ از کل مجموعه داده را تشکیل می دهد – و ویکی پدیا، و همچنین پایگاه های داده بزرگی مانند ثبت اختراعات گوگل و مرکز مجلات علمی PLOS استفاده می کند، همچنین دارای سایت های کمتر معتبری است.

سایت ملی گرای سفیدپوست VDARE در پایگاه داده، یکی از 1000 سایت بزرگ، و همچنین سایت خبری راست افراطی Breitbart قرار دارد. سایت تبلیغاتی تحت حمایت دولت روسیه RT یکی از صدها بزرگترین ارائه دهنده داده های آموزشی به مجموعه C4 است.

تعداد کمی از سایت‌ها رضایت صریح برای گنجاندن داده‌اند، اگرچه Common Crawl، سازمان غیرانتفاعی که داده‌های خراش‌شده را جمع‌آوری کرده است، می‌گوید به درخواست‌هایی که از جستجوی خود کنار گذاشته می‌شوند احترام می‌گذارد. با این حال، برخی محدودیت‌های استفاده منصفانه را زیر پا می‌گذارند: b-ok.org، که قبلا با نام Bookzz شناخته می‌شد، یک مخزن وسیع از کتاب‌های الکترونیکی دزدی بود تا اینکه در سال 2022 توسط FBI توقیف شد. با وجود این، محتوای سایت در پایگاه داده C4.

چنین مجموعه گسترده ای از داده ها برای ایجاد هوش مصنوعی مهم هستند، زیرا مدل های زبان بزرگ (LLM) که زیربنای ابزارهایی مانند ChatGPT هستند، به مجموعه داده های عظیمی برای بهبود نیاز دارند.

جمع آوری صدها گیگابایت متن مورد نیاز برای آموزش چنین مدلی از منابع دارای مجوز صریح کار دشواری خواهد بود و بسیاری از محققان هوش مصنوعی به جای کسب اجازه درخواست بخشش می کنند و استدلال می کنند که آثار آنها تحت پوشش دفاعی “استفاده منصفانه” از حق چاپ است. .

برخی حتی تصمیم می‌گیرند از «تمیز کردن» گوگل که روی مجموعه داده‌های خود اعمال می‌کند صرف نظر کنند تا به داده‌های بیشتری دسترسی داشته باشند تا سیستم‌هایشان از آن‌ها یاد بگیرند. هوش مصنوعی مستقر در لندن، LLM جدید خود را با نام StableLM، روز چهارشنبه منتشر کرد که بر روی Pile آموزش دیده است، یک مجموعه داده 850 گیگابایتی که شامل کل پایگاه داده Common Crawl تمیز نشده، و همچنین 2 میلیون کتاب الکترونیکی دزدان دریایی از سایت BitTorrent Bibliotik، 100 گیگابایت داده خراشیده شده است. از سایت کد نویسی GitHub و منابع باطنی بیشتر، مانند هر ایمیل داخلی ارسال شده توسط شرکت انرژی که اکنون از بین رفته Enron و کل جلسات پارلمان اروپا ارسال می شود.

The Pile به طور عمومی توسط گروهی از “علاقه‌مندان به داده‌ها” ناشناس به نام Eye میزبانی می‌شود، که سیاست حذف حق نسخه‌برداری آن‌ها به ویدئویی از گروه کر متشکل از زنان لباس‌پوش مرتبط است که وانمود می‌کنند در حین آواز خواندن، آلت تناسلی خیالی خودارضایی می‌کنند.

این شرکت می‌گوید نسخه استفاده شده توسط Stability، که در حال حاضر خصوصی است، «سه برابر بزرگ‌تر است». هیچ جزئیات بیشتری در مورد محتوای اضافی این مجموعه داده منتشر نکرده است، که به گفته وی، “به StableLM عملکرد شگفت‌آوری بالایی در کارهای مکالمه و کدنویسی می‌دهد”.

استیبلی گفت: «ما مدل‌های خود را برای ارتقای شفافیت و تقویت اعتماد منبع باز می‌کنیم. «محققان می‌توانند برای تأیید عملکرد، کار بر روی تکنیک‌های تفسیرپذیری، شناسایی خطرات بالقوه و کمک به توسعه پادمان‌ها «زیر سرپوش» نگاه کنند.

سازمان‌ها در بخش‌های دولتی و خصوصی می‌توانند این مدل‌های منبع باز را برای برنامه‌های کاربردی خود بدون به اشتراک گذاشتن داده‌های حساس خود یا کنار گذاشتن کنترل قابلیت‌های هوش مصنوعی خود، تطبیق دهند.»

برای نظر دادن به گوگل مراجعه شد.

این خبر از خبرگزاری های بین المللی معتبر گردآوری شده است و سایت اخبار امروز آبان نیوز صرفا نمایش دهنده است. آبان نیوز در راستای موازین و قوانین جمهوری اسلامی ایران فعالیت میکند لذا چنانچه این خبر را شایسته ویرایش و یا حذف میدانید، در صفحه تماس با ما گزارش کنید.

منبع

درباره ی aban_admin

مطلب پیشنهادی

بازی های برگشت نیمه نهایی لیگ اروپا و لیگ کنفرانس اروپا – زنده | لیگ اروپا

به گزارش دپارتمان اخبار ورزشی پایگاه خبری آبان نیوز ، اتفاقات کلیدی فقط رویدادهای کلیدی را …