محققانی از انگلیس و چین، موفق به توسعهی الگوریتم جدیدی مبتنی بر یادگیری ماشین شدهاند که میتواند کدهای امنیتی کپچا (CAPTCHA) را بسیار سادهتر، سریعتر و با دقت بالاتری نسبتبه تمام روشهای قبلی حدس بزند.
الگوریتم جدید مبتنی بر شبکهی رقابتی مولد (GAN)، توسط دانشمندانی از دانشگاه لنکستر انگلیس، دانشگاه نورت وسترن چین و دانشگاه پکینگ چین توسعه یافته است. GANها، کلاس ویژهای از الگوریتمهای هوش مصنوعی هستند که برای مواردی که به مقادیر زیادی از داده برای آموزش دادن الگوریتم، دسترسی وجود ندارد، بهکار برده میشوند. معمولا در الگوریتمهای مبتنی بر یادگیری ماشین، برای آنکه الگوریتم بتواند کار خود را بهدرستی و با دقت بالاتری بهانجام برساند، نیاز به میلیونها داده برای آموزش الگوریتم وجود دارد.
مقالههای مرتبط:
الگوریتم GAN دارای مزیتهای قابلتوجهی است. یکی از مزایای الگوریتم GAN آن است که میتواند با استفاده از دادههای اولیهی بسیار کمتری نسبت به سایر الگوریتمها کار کند. علت آن است که الگوریتم GAN از مولفهی موسوم به «مولد» یا «generative»، برای تولید دادهی شبیه بهیکدیگر استفاده میکند. سپس، دادههای تولیدشده به الگوریتم «حلکننده» یا «solver» تغذیه میشوند. این الگوریتم تلاش میکند تا خروجی را حدس بزند.
وقتی دو عنصر GAN دربرابر یکدیگر قرار میگیرند، قسمت solver یا حلکنندهی الگوریتم، عملکرد بهتری از خودش نشان میدهد و شبیه به این است که با میلیونها داده، آموزش دیده باشد. محققان انگلیسی و چینی، از این ایده برای شکستن کد CAPTCHA استفاده کردند. اکثر قریب به اتفاق مطالعات قبلی انجامشده در این زمینه، از الگوریتمهای یادگیری ماشین کلاسیک استفاده میکردند که نیاز به مقادیر زیادی از دادههای اولیهی آموزشدادهشده به سیستم بود.
محققان معتقدند که در دنیای واقعی، کسی که قصد حمله به یک وبسایت را دارد، نمیتواند میلیونها کد کپچا (CAPTCHA) برای وبسایت یا API تولید کند و شناسایی نشود یا آن وبسایت ممنوعیتی برای ورود وی درنظر نگیرد. بههمین دلیل، محققان در تحقیق خود، تنها از ۵۰۰ کد متنی کپچا از هر یک از ۱۱ سرویس کد متنی CAPTCHA برای ۳۲ وبسایت برتر از نظر الکسا استفاده کردند. محققان معتقدند:
برای جمعآوری ۵۰۰ کپچا، کمتر از ۲ ساعت زمان (کمتر از ۳۰ دقیقه برای بیشتر طرحها)، و کمتر از ۲ ساعت برای برچسبگذاری آنها برای یک کاربر زمان صرف شد. این بدان معنی است که تلاش و هزینهی کمتری برای شکستن کد کپچا صرف شده است.
در جدول ذیل، فهرستی از دادههای آموزشی دیده میشود که شامل کد متنی CAPTCHA از سایتهایی همچون ویکیپدیا، مایکروسافت، eBay، بایدو، گوگل، Alipay، JD، Qihoo360، سینا،ویبو و Sohu است. محققان پس از جمعآوری و آموزش حلکنندههای GAN با استفاده از ایجاد بیش از ۲۰۰٫۰۰۰ کد متنی کپچای مصنوعی، توانستند الگوریتمهای خود را در مقایسه با سایر سیستمهای کد متنی کپچا که در اینترنت استفاده میشوند، مورد آزمایش قرار دهند که پیش از این توسط محققان دانشگاهی دیگری مورد آزمایش قرار گرفته بودند. محققان اعلام کردند:
جدول، مقایسهی خوبی بین روشهای حمله قدیمی با روش الگوریتم جدید نشان میدهد. در این آزمایش، رویکرد جدید در مقایسه با تمام روشهای قبلی، عملکرد بهتر و نتایج قابلتوجه بهتری را نشان میدهد.