Araştırmacılara göre Ses CAPTCHA'larının kırılması kolay

  • Oct 23, 2023

Ars Technica'da bugün Carnegie-Mellon Üniversitesi ekibinin çabalarını ayrıntılarıyla anlatan harika bir hikaye reCAPTCHA hizmetinin arkasında, dikkatini görseller tarafından kullanılan sesli CAPTCHA'lara çeviren kişi var. bozulmuş. Bu sesli CAPTCHA'lar, genellikle bir tür arka plan gürültüsüyle maskelenen ve bozulan bir dizi konuşulan karakterden oluşur.

Ses CAPTCHA'sı
Harika bir hikaye Ars Teknik Bugün çabaları detaylandırıyor arasında Carnegie Mellon Üniversitesi arkasındaki ekip reCAPTCHA hizmeti, dikkatini görme engellilerin kullandığı sesli CAPTCHA'lara çevirdi. Bu sesli CAPTCHA'lar, genellikle bir tür arka plan gürültüsüyle maskelenen ve bozulan bir dizi konuşulan karakterden oluşur.

Bilim insanları mevcut sesin güvenliğini araştırdı CAPTCHA'lar Google ve Digg tarafından kullanıldı ve kırılmanın nispeten kolay olduğunu buldu. Ars Teknik'S John Timmersüreci anlatıyor detayda:

Çalışma Google, Digg ve reCAPTCHA hizmetinden 1000 ses CAPTCHA'sının toplanmasını içeriyordu. Bunlardan 900 adedi eğitim seti olarak kullanıldı ve geri kalan 100 adedi bittiğinde sistemin test edilmesi için ayrıldı. Yazılım ilk önce kaba bir ses analizi yaptı ve her bir öğeyi, her biri herhangi bir konuşulan karaktere sığacak kadar uzun olan eşit boyutlu parçalara böldü. Gerçek harfleri içerme ihtimalinin en yüksek olduğu düşünülen, en yüksek enerji zirvelerine sahip bölümler analiz için bir kenara bırakıldı.

Yazarlar, konuşma kayıtlarından özellikler çıkarmak için kullanılan bir dizi yöntemi test etti (meraklılar için bunlar mel-frekans cepstral katsayıları ve her biri algısal doğrusal tahmin ve bağıl spektral iki form dönüşümü-PLP). Bu özellikler daha sonra bireysel karakterlerin tanımlanması üzerine eğitilmiş makine öğrenimi programları kullanılarak analize tabi tutuldu. Üç yöntem (AdaBoost, destek vektör makineleri (SVM) ve k-en yakın komşu (k-NN)) manuel olarak işlenen 900 ses CAPTCHA'sı kullanılarak eğitildi. İşleme ve analiz yöntemlerinin bu şekilde eşleştirilmesinin sonucu, 100 test sesli CAPTCHA'sının her birini kırmaya yönelik toplam 15 farklı girişim oldu.

Görünüşe göre, geriye doğru çalınan konuşmanın arka plan gürültüsü üzerine okunan 0'dan 9'a kadar bir dizi rakamdan oluşan Google'ın ses CAPTCHA'ları, araştırmacıların yazılımını kandıracak kadar tutarlı değil: SVM tekniği, CAPTCHA'yı yaklaşık üçte iki oranında doğru bir şekilde elde etti ve AdaBoost, k-NN'nin testte kötü performans göstermesi nedeniyle çok geride değildi. ). Digg'e göre, ses CAPTCHA'sı hem rakamları hem de harfleri kullanıyor, ancak bunları "daha az karmaşık bir arka plan üzerinde" çalıyor akan su." AdaBoost testi geçemedi ancak SVM, k-NN'nin önemli bir farkla takip etmesiyle yüzde 70'lik doğruluğu temizlemeyi başardı. marj.

Makalede daha fazla ayrıntı var, ancak sonuç şu: Sonuçlara göre, sesli CAPTCHA'ların Daha hemen hemen her şeyden: daha fazla konuşmacı, daha fazla karakter, daha fazla distorsiyon ve daha uzun simge dizileri.

Sonuç olarak reCAPTCHA genişledi Kendi 0'dan 99'a kadar tüm sayıları içerecek şekilde hizmet.