Ana Yenilik Google'ın Yeni Metin Okuma Yapay Zekası O Kadar İyi ki Gerçek Bir İnsandan Anlayamayacağınıza Bahse gireriz

Google'ın Yeni Metin Okuma Yapay Zekası O Kadar İyi ki Gerçek Bir İnsandan Anlayamayacağınıza Bahse gireriz

Yarın Için Burçun

AI tarafından oluşturulan bilgisayar konuşması ile gerçek, canlı bir insan arasındaki farkı söyleyebilir misiniz? Belki de her zaman yapabileceğini düşündün. Belki Alexa ve Siri'yi seviyorsunuz ama ikisini de gerçek bir kadınla asla karıştırmayacağınıza inanıyorsunuz.

İşler çok daha ilginç hale gelmek üzere. Google mühendisleri, bir metin-konuşma sistemi oluşturmak için çok çalışıyorlar. takotron 2 . göre kağıt bu ay yayınladılar, sistem önce metnin bir spektrogramını, konuşmanın nasıl ses çıkarması gerektiğinin görsel bir temsilini oluşturur. Bu görüntü, son derece doğal kulağa sahip insan konuşması üretmek için görüntüyü kullanan Google'ın mevcut WaveNet algoritmasından geçirilir.

Araştırmacılar, bu yöntemi kullanarak, 'Modelimiz, profesyonel olarak kaydedilmiş konuşma için 4.58'lik bir MOS ile karşılaştırılabilir, 4.53'lük bir ortalama görüş puanı (MOS) elde ediyor.' (Ortalama bir fikir puanı, bir şeyin kulağa ne kadar gerçekçi geldiğini ölçen bir telekomünikasyon terimidir.)

Google'ın ses örneklerinin gösterdiği gibi, Tacotron 2 bağlamdan 'çöl' ismi ile 'çöl' fiili arasındaki farkı ve ayrıca 'şimdiki' ismi ve 'şimdiki' fiili arasındaki farkı algılayabilir ve telaffuzunu buna göre değiştirebilir. Bir açıklama yapmak yerine soru sorarken büyük harfli kelimelere vurgu yapabilir ve uygun çekimi uygulayabilir.

Ve insan konuşmasına o kadar benzeyen metinler üretebilir ki, aradaki farkı anlamak zor veya imkansızdır. Ne kadar zor olduğunu görmek istiyorsanız, Google'a gidin. ses örnekleri sayfası 'Tacotron 2 veya İnsan?' başlıklı son numune grubuna gidin. Orada Tacotron 2'yi ve her biri 'Bu kız Star Wars ruju hakkında bir video yaptı' gibi cümleler söyleyen gerçek bir kişi bulacaksınız.

SPOILER UYARISI: Kendinizi test etmek için örnekleri dinleyin ve bu sütunun geri kalanını okumadan önce hangisinin hangisi olduğunu tahmin edin.

Peki hangi örnekler metinden konuşmaya, hangileri gerçek bir insan sesidir? Google'ın mühendisleri söylemiyor ama çok büyük bir ipucu bıraktılar. .wav dosya örneklerinin her biri, 'gen' veya 'gt' terimini içeren bir dosya adına sahiptir. Makaleye göre, 'gen'in Tacotron 2 tarafından üretilen konuşmayı belirtmesi ve 'gt'nin gerçek insan konuşması olması kuvvetle muhtemeldir. ('GT' muhtemelen 'temel gerçek' anlamına gelir, temelde 'gerçek anlaşma' anlamına gelen bir makine öğrenimi terimidir.)

Bunun doğru olduğunu varsayarsak, işte testin cevapları:

'O kız, Star Wars rujuyla ilgili bir video yaptı.'

Örnek 1: Gerçek insan

Örnek 2: Takotron 2

'Columbia Üniversitesi'nden sosyoloji doktorası aldı.'

Örnek 1: Takotron 2

Örnek 2: Gerçek insan

'George Washington, Amerika Birleşik Devletleri'nin ilk Başkanıydı.'

Örnek 1: Takotron 2

Örnek 2: Gerçek insan

'Romantizm için çok meşgulüm.'

Örnek 1: Gerçek insan

Örnek 2: Takotron 2

Kaç tanesini doğru anladın? Ve gerçekten farkı söyleyebilir misin, yoksa sadece tahmin etmek zorunda mıydın?