برخی افراد از نحوه استفاده ربات ChatGPT از محتوای وب سایت شان که عموما به منظور آموزش و یادگیری است راضی نیستند.
مهمترین نکات مطرح شده:
- راهکاری برای جلوگیری استفاده از محتوای شما برای آموزش مدل های بزرگ زبانی مانند ربات ChatGPT وجود دارد.
- یک متخصص حقوق مالکیت معنوی میگوید که تکنولوژی از قوانین کپی رایت پیشی گرفته است.
- سوال متخصص بازاریابی جستجو یا سئو کار این است که آیا استفاده از محتوای اینترنتی توسط هوش مصنوعی بدون اجازه، قانونی است؟
مدلهای بزرگ زبانی (LLM) مانند چت جی پی تی (ChatGPT) با استفاده از منابع اطلاعاتی گوناگون، از جمله محتوای وب، اطلاعات خود را به دست می آورند. این دادهها پایه و اساس محتواهایی است که در قالب مقالاتی تولید میشود که بدون ذکر منبع یا هیچ منفعتی برای تولید کنندگان محتوای اصلی در ChatGPT استفاده میشوند.
موتورهای جستجو محتوای وب سایت ها ( کرال و ایندکس کردن) را دانلود می کنند تا پاسخ ها را در قالب لینک هایی به وب سایت های دیگر ارائه دهند.
صاحبان وب سایت و منتشر کنندگان محتوا این امکان را دارند که از کرال کردن و ایندکس کردن محتوای خود توسط موتورهای جستجو جلوگیری کنند و این کار از طریق پروتکل حذف ربات ها که معمولاً به آن Robots.txt می گویند، انجام میشود.
پروتکل حذف ربات ها یک استاندارد رسمی اینترنتی نیست، اما استانداردی است که خزنده های قانونی وب از آن پیروی می کنند. (ممکن است که برخی از ربات ها از این قانون پیروی نکنند)
آیا منتشر کنندگان محتوای وب میتوانند از پروتکل Robots.txt برای جلوگیری استفاده مدل های زبانی از محتوای خودشان استفاده کنند؟
مدل های زبان از محتوای وب سایت ها بدون ذکر منبع استفاده می کنند
افرادی که درگیر بازاریابی جستجو هستند، از نحوه استفاده از دادههای وبسایت برای آموزش ماشینها و هوش مصنوعی بدون ارائه هیچ چیزی، مانند تأیید یا ترافیک برای سایت، ناراحت هستند.
هانس پیتر (Hans Petter Blindheim) کارشناس ارشد در Curamando نظر خود را درباره این موضوع به اشتراک گذاشته است.
هانس پتر اظهار داشت:
وقتی نویسندهای بعد از اینکه مطلبی را از مقاله ای در سایت شما یاد گرفت، در اغلب مواقع در نوشته خود به مقاله شما لینک مستقیم نمیدهد، چراکه باعث اعتبار شما میشود. این لینک دادن را استناد (citation) میگویند.
اما در مقیاس بزرگی که ChatGPT از محتوا استفاده کرده و هیچ سودی را برنمی گرداند، آن را از گوگل و مردم متمایز میکند. وب سایت ها به طور کلی با در نظر گرفتن هدف و دستورالعمل اقتصادی ساخته میشود.
گوگل به افراد کمک میکند محتوا را پیدا کنند و ترافیکی را به وجود می آورد که متقابلا برای سایت ها سودمند است. اما مدل های زبانی اینطور نیستند که برای استفاده از محتوایتان از شما اجازه بگیرند، آنها فقط از آن به طور گسترده تر از آنچه در هنگام انتشار محتوا انتظار می رفت استفاده می کنند.
اگر مدلهای زبان هوش مصنوعی در ازای آن هیچ ارزش و سودی ارائه نمیدهند، چرا منتشر کننده گان محتوا باید به آنها اجازه دهند تا محتوا را کرال و استفاده کنند؟
آیا استفاده آنها از محتوای شما با استانداردها مطابقت دارد؟
وقتی ChatGPT و مدلهای ML/AI گوگل بدون اجازه از محتوای شما استفاده میکنند، این اطلاعات در اختیار مخاطب قرار میگیرد، در حالی که مردم را از وبسایتهای شما دور نگه میدارد. آیا صنعت و همچنین قانونگذاران نباید سعی کنند با مجبور کردن آنها به انتقال و انتخاب یک مدل، کنترل اینترنت را به دست بگیرند؟
نگرانی هایی که هانس پتر بیان می کند منطقی است.
با توجه به سرعت پیشرفت فناوری، آیا قوانین مربوط به استفاده از محتوا باید تجدید نظر و به روز شوند؟
از جان ریزوی (John Rizvi)، وکیل ثبت اختراع که دارای گواهینامه حقوق مالکیت معنوی است، پرسیده شده که آیا قوانین کپی رایت اینترنتی قدیمی شده است.
جان پاسخ داد:
بدون شک بله.
یکی از دلایل اصلی اختلافات در چنین مسائلی، این واقعیت است که قانون به ناچار بسیار کندتر از تکنولوژی پیشرفت میکند.
شاید این مسئله در دهه 1800 اهمیت چندانی نداشت، چون پیشرفتها نسبتاً کند بود و دستگاه ها کم و بیش منطبق با قانون تجهیز می شدند.
با این حال، امروزه پیشرفتهای تکنولوژی بسیار فراتر از توانایی قانون برای ادامهدادن است.
پیشرفت های ساده زیادی وجود دارد و بخش های زیادی هستند که باید بالا بیایند و خودشان را به تکنولوژی برسانند.
از آنجایی که بخش های قانونی در حال حاضر، عمدتاً توسط افرادی که در زمینه تکنولوژی تخصصی ندارند، تشکیل و اداره میشود، این قانون برای همگام شدن با تکنولوژی ضعیف است یا ساختار ضعیفی دارد... و ما باید در نظر بگیریم که این کاملا چیز بدی نیست.
بنابراین، از یک جهت، بله، باید امیدوار بود قانون مالکیت فکری حتی اگر به دنبال همگامی با پیشرفتهای تکنولوژی باشد، تکامل یابد.
مشکل اصلی ایجاد تعادل بین راههایی است که میتوان از اشکال مختلف فناوری استفاده کرد و در عین حال از دستاندازی آشکار یا سانسور آشکار برای منافع سیاسی خودداری کرد.
قانون گذاران همچنین باید مراقب باشند که علیه استفادههای احتمالی از تکنولوژی بهطور گسترده، قانونی وضع نشود، تا هرگونه سود بالقوهای که ممکن است از آن به دست آید را از بین ببرد .
شما به راحتی می توانید با اولین اصلاحیه و هر تعداد پرونده حل شده که مشخص می کند مالکیت معنوی چگونه، چرا و تا چه میزان و توسط چه کسی می تواند مورد استفاده قرار گیرد، مخالفت کنید.
تلاش برای هر نوع استفاده ی کنترل نشده از تکنولوژی سال ها یا دهه ها قبل از اینکه چارچوبی وجود داشته باشد ، یک کار احمقانه و بسیار خطرناک به نظر می رسید.
در موقعیتهایی مانند این، قانون واقعاً نمیتواند به نحوه استفاده از تکنولوژی واکنش نشان دهد.
به احتمال زیاد به این زودی ها تغییر نخواهد کرد، مگر اینکه به یک پلتفرم عظیم و غیرمنتظره فناوری برخورد کنیم که به قانون اجازه دهد تا به رویدادهای جاری برسد.
بنابراین به نظر می رسد که موضوع قوانین کپی رایت به رسیدگی زیادی در مورد نحوه آموزش هوش مصنوعی نیاز دارد و پاسخ ساده ای برای آن وجود ندارد.
شکایت از ماکروسافت و OpenAI
یک مورد جالب که اخیراً ثبت شده، موردی است که در آن اپن ای آی (OpenAI) و مایکروسافت از کد منبع باز برای ساخت محصول CoPilot خود استفاده کردند.
مشکل استفاده از کد منبع باز این است که مجوز کرییتیو کامنز (Creative Commons) نیاز به ذکر منبع دارد.
بر اساس مقاله ای که در یک مجله علمی منتشر شده :
شاکیها ادعا میکنند که OpenAI و GitHub یک محصول تجاری به نام Copilot را ساخته اند که نرم افزار تولید کد است و این کدها را با استفاده از کدهای متن باز که قابل دسترس عموم است تولید میکند درحالی که بسیاری از آنها نیاز به منبع دارند.
GitHub میگوید نرم افزارCopilot ، زبان طبیعی را به پیشنهادهای کدنویسی به دهها زبان برنامه نویسی تبدیل میکند.
ظاهراً محصول گیت هاب، اعتبار را برای سازندگان اصلی از بین برده است.
نویسنده مقاله، که یک متخصص حقوقی در موضوع حق چاپ است، نوشت: بسیاری از افراد مجوزهای کرییتیو کامنز منبع باز را«رایگان برای همه» می دانند.
برخی ممکن است این عبارت «رایگان برای همه» را اینگونه توصیف کنند، مجموعههای دادهای که از محتوای اینترنتی تشکیل شدهاند، اسکریپت شده و برای تولید محصولات هوش مصنوعی مانند ChatGPT استفاده میشوند.
پیشینه LLM ها و مجموعه داده ها
مدل های بزرگ زبانی بر روی مجموعه داده های متعددی از محتوا آموزش می بینند. مجموعه دادهها میتوانند شامل ایمیلها، کتابها، دادههای دولتی، مقالات ویکیپدیا و حتی مجموعه دادههای ایجاد شده از وبسایتهای لینک شده به پستهایی در Reddit باشند که حداقل سه موافق دارند.
بسیاری از مجموعه داده های مرتبط با محتوای اینترنت، منبع خود را در کرال ایجاد شده توسط یک سازمان غیرانتفاعی به نام کامان کرال (Common Crawl) دارند.
مجموعه داده آنها و مجموعه داده Common Crawl، برای دانلود و استفاده رایگان در دسترس است.
مجموعه داده Common Crawl نقطه شروع بسیاری از مجموعه داده های دیگر است که از آن تولید میشود.
به عنوان مثال، GPT-3 از نسخه فیلتر شده Common Crawl استفاده کرد.
به این ترتیب محققان GPT-3 از داده های وب سایت های موجود در مجموعه داده Common هایCrawl استفاده کردند:
مجموعه دادهها برای مدلهای زبانی به سرعت گسترش یافتهاند و با مجموعه دادههای Common Crawl که تقریباً یک تریلیون کلمه را تشکیل میدهند، به اوج خود رسیده است.
این حجم وسیع مجموعه داده برای آموزش بزرگترین مدلهای ما کافی است، بدون اینکه روی یک ترتیب دو بار آپدیت شود
با این حال، متوجه شدهایم که نسخههای فیلتر نشده یا کمی فیلتر شده Common Crawl نسبت به مجموعه دادههایی که بیشتر مدیریت شده اند کیفیت پایینتری دارند.
بنابراین، ما 3 مرحله را برای بهبود کیفیت متوسط مجموعه داده های خود انجام دادیم:
1- نسخه ای از CommonCrawl را بر اساس شباهت به طیفی از مجموعه های مرجع با کیفیت بالا دانلود و فیلتر کردیم.
2- برای جلوگیری از افزونگی و حفظ یکپارچگی، با استفاده از فرآیند فازی، رکورد های تکراری اسناد را در داخل و بین مجموعه داده ها حذف کردیم.
3- همچنین برای تقویت CommonCrawl و افزایش تنوع آن، مجموعههای مرجع شناخته شده با کیفیت بالا را به ترکیب آموزشی اضافه کردیم.
مجموعه داده C4 گوگل (Colossal, Cleaned Crawl Corpus) که برای تبدیل متن به متن (Text-to-Text Transfer Transformer یا T5) استفاده شده، ریشه در مجموعه داده Common Crawl نیز دارد.
مقاله تحقیقاتی آنها توضیح می دهد:
قبل از ارائه نتایج حاصل از مطالعه تجربی در مقیاس بزرگ، ما موضوعات پیش زمینه ای لازم برای درک نتایج خود را بررسی می کنیم، از جمله معماری مدل ترانسفورمر (Transformer) و وظایف کوچک تر که آنها را ارزیابی می کنیم.
ما همچنین رویکرد خود را برای رسیدگی به هر مشکلی بهعنوان یک کار متن به متن انجام داده وآن را C4 معرفی میکنیم. مجموعه دادههای مبتنی بر خزیدن مشترک را که به عنوان منبع دادههای متنی بدون برچسب ایجاد کرده و توصیف میکنیم.
ما به مدل و چارچوب خود به عنوان "تبدیل متن به متن" (T5) اشاره می کنیم.
گوگل مقاله ای را در وبلاگ هوش مصنوعی خود منتشر کرد که بیشتر توضیح می دهد که چگونه از داده های Common Crawl (که حاوی محتوای اسکریپت شده از اینترنت است) برای ساخت C4 استفاده شده است.
آنها نوشتند:
یک عنصر مهم برای یادگیری نحوه تبدیل، مجموعه داده بدون برچسبی است که برای پیشآموزش استفاده میشود.
اندازهگیری دقیق تأثیر مقیاسپذیری میزان پیشآموزش، به مجموعهای نیاز دارد که نه تنها با کیفیت و متنوع بوده، بلکه گسترده باشد.
مجموعه دادههای پیشآموزشی موجود، این سه این معیاررا برآورده نمیکنند - برای مثال، متن ویکیپدیا با کیفیت بالاست، اما سبک یکنواخت و برای اهداف ما نسبتاً کوچک است، در حالی که صفحات وب Common Crawl بسیار زیاد و بسیار متنوع هستند، اما نسبتاً کیفیت پایینی دارند.
برای برآورده کردن این الزامات، ما C4 را توسعه دادیم، یک نسخه تمیز شده از Common Crawl که دو مرتبه بزرگتر از ویکیپدیا است.
فرآیند تمیز کردن ما، شامل کپی برداری، دور انداختن جملات ناقص و حذف محتوای توهین آمیز یا پر سر و صدا بود.
این فیلتر منجر به نتایج بهتر در کارهای پایین دستی میشود.
گوگل، OpenAI و حتی Open Data Oracle از محتوای اینترنت و محتوای شما، برای ایجاد مجموعه دادههایی استفاده میکنند که سپس در ایجاد برنامههای هوش مصنوعی مانند ChatGPT استفاده میشوند.
آیا کامن کرال Common Crawl را می توان مسدود کرد؟
می توان Common Crawl را مسدود کرد و متعاقباً از همه مجموعه داده هایی که بر اساس Common Crawl هستند انصراف داد.
اما اگر سایت قبلاً خزیده شده باشد، داده های وب سایت از قبل در مجموعه داده ها وجود دارد. هیچ راهی برای حذف محتوای شما از مجموعه داده Common Crawl و سایر مجموعه داده های مشتق شده مانند C4 و Open Data وجود ندارد.
استفاده از پروتکل Robots.txt فقط خزیدن های بعدی توسط Common Crawl را مسدود میکند، و محققان را از استفاده از محتوای موجود در مجموعه داده منع نمیکند.
نحوه مسدود کردن Common Crawl
مسدود کردن Common Crawl از طریق استفاده از پروتکل Robots.txt، در چارچوب محدودیتهای مورد بحث در بالا، امکانپذیر است.
ربات Common Crawl، CCBot نیز نامیده می شود.
با استفاده از بهروزترین CCBot User-Agent شناسایی میشود: CCBot/2.0
مسدود کردن CCBot با Robots.txt مانند هر ربات دیگری انجام می شود.
در اینجا کد مسدود کردن CCBot با Robots.txt را می بینید.
User-agent: CCBot
Disallow: /
CCBot از آی پی آدرس آمازون کرال میکند.
CCBot همچنین از متا تگ nofollow نیز پیروی می کند:
meta name="robots" content="nofollow"
اگر کرال را مسدود نکنید، چه؟
محتوای وب را می توان بدون اجازه دانلود کرد، همانطور که مرورگر ها این کار میکنند، آنها محتوا را دانلود می کنند.
گوگل یا هر شخص دیگری برای دانلود و استفاده از محتوایی که به صورت عمومی منتشر می شود به مجوز نیاز ندارد.
صاحبان وب سایت گزینه های محدودی دارند.
به نظر میرسد که رعایت اخلاقی بودن آموزش هوش مصنوعی بر روی محتوای وب، بخشی از مکالمات روزانه درباره اخلاقیات نحوه توسعه فناوری هوش مصنوعی نیست.
مسلم است که محتوای اینترنتی را می توان دانلود و خلاصه کرد و به محصولی به نام ChatGPT تبدیل نمود.
آیا این عادلانه است؟ جواب کاملا پیچیده است.
منبع محتوا :
searchenginejournal
این مقاله چقدر برای شما مفید بود؟
تعداد رای ها:
0
با تشکر از شما برای امتیاز دادن به این پست!
فرارنک
تیم فنی و آموزشی هی سئو با بیش از ۱۲ سال تجربه تمام دانش خود را به صورت صادقانه با شما عزیزان به اشتراک می گذارد.