Microsoft Görme Engelliler için Görselleri Sesli Metin Haline Getiriyor

yayınlanan: Uncategorized | 0

Microsoft, otomatik olarak yüksek kaliteli fotoğraf yazıları oluşturabilen bir yapay zeka sistemi geliştirdi. Böylece görme engellilerin yaşamını kolaylaştırmak için mevcut çabalarını genişletti. Şirket, yapay zekanın insanlardan daha iyi performans gösterdiğini söylüyor. Bu tür bir teknoloji, bir gün, bilgisayarı görmeyi sağlar. Metin okuyuculara bağımlı olanlara yardımcı olmak için çevrimiçi olarak paylaşılan görüntülere otomatik olarak başlık eklemek için kullanılabilir.

Bilgisayarın görüşü, modern sistemlerde giderek daha önemli bir rol oynamaktadır. Bu teknoloji görme engelli birinin çevresindeki görsel dünyayı görüntülemesini, yorumlamasını ve nihayetinde anlamasını sağlar. Bilgisayar görüşü, otonom araçların kilit bir yönüdür. Hızlı sıralama ve organizasyon için fotoğrafların içeriğini veya içeriğini belirlemekten, tıbbi görüntüleme gibi daha teknik kullanım durumlarına kadar her şeyde kullanılabilecek bir zemin hazırlar.

Yeni yayınlanan bir çalışmada, Microsoft Araştırmacıları, bir ‘görsel kelime dağarcığı’nı öğrenen bir eğitim öncesi modeli geliştirdi. VIsual VOcabularly (VIVO) adı verilen yüksek kaliteli resim başlıkları oluşturabilen bir yapay zeka sisteminin geliştirilmesini detaylandırdı. Eşleştirilmiş görüntü etiketi verilerinin veri kümesini, nesnelerin görsel sahnede nerede bulunduğu da dahil olmak üzere görüntülerdeki nesneleri tanımlayan başlıklar oluşturabilen bir yapay zeka sistemidir.

Test sonuçları, en azından belirli durumlarda, yapay zeka sisteminin yeni son teknoloji sonuçlar sunduğunu ve aynı zamanda altyazı yazmakta olan insanların yeteneklerini aştığını keşfetti. Araştırmacılar, sistemlerini açıklayan yeni yayınlanan çalışmada şunu belirtiyor:

VIVO

VIVO ön eğitimi, görsel ve metin girdisinin ortak bir temsilini öğrenmeyi amaçlamaktadır. Çok katmanlı bir Transformer modeline, görüntü bölgesi özelliklerinden ve eşleştirilmiş bir görüntü etiketi setinden oluşan bir girdiyle besliyoruz. Daha sonra bir veya daha fazla etiketi rastgele maskeliyor ve modelden bu maskelenmiş etiketleri görüntü bölgesi özelliklerine ve diğer etiketlere göre tahmin etmesini istiyoruz. Kapsamlı deneyler, VIVO ön eğitiminin NOC üzerindeki altyazı oluşturma performansını önemli ölçüde artırdığını gösteriyor. Ek olarak, modelimiz, oluşturulan bir başlıktaki nesne açıklamalarını karşılık gelen görüntüdeki bölgelerle tam olarak denk getirebiliyor.

Microsoft, görseller için alternatif metin başlıklarının, sosyal medyada ve web sitelerinde sıklıkla bulunmayan önemli bir erişilebilirlik özelliği olduğunu belirtiyor. Bu altyazılarla, görme engelli bireylerin, altyazıları okumak için dikte teknolojisini kullanabilir ve böylece onlara göremedikleri görüntü hakkında fikir verebilir.

Şirket daha önce , fiziksel nesneleri sesli olarak tanımlayan, basılı metinleri ve para birimini okuyan, renkleri ve diğer benzer şeyleri tanıyan ve raporlayan bir kamera uygulaması olan Seeing AI adlı, özellikle görme engelliler için açıklanan bilgisayar vizyonuna dayalı bir ürün tanıttı . Seeing AI uygulaması, fotoğrafla birlikte fotoğraf yazılarının da yer aldığını varsayarsak, ilgili fotoğrafın başlıklarını da okuyabilir.

Microsoft AI platform grubu yazılım mühendisliği yöneticisi Saqib Shaikh açıklamasında:

İdeal olarak, herkes belgelerdeki, web’deki, sosyal medyadaki tüm görseller için alternatif metin eklemelidir çünkü bu, görme engelli kişilerin içeriğe erişmesine ve sohbete katılmasına olanak tanır. Ama ne yazık ki insanlar bunu yapmıyor. Bu nedenle, alt metni eksik olduğunda doldurmanın bir yolu olarak kullanılan birkaç uygulama geliştirildi.

Yapay zekanın genişletilmiş kullanımı burada devreye giriyor. Microsoft, teknolojiyi pazara sunma ve yakın gelecekte çeşitli ürünleri aracılığıyla tüketicilere sunma planlarını duyurdu. Örneğin, yeni AI modeli Azure Bilişsel Hizmetler Computer Vision müşterileri için zaten kullanımda olan Seeing AI, Word, macOS, Windows için Outlook ile Windows için PowerPoint gibi bazı tüketici ürünlerine ekleyeceği bilgisini paylaşıyor.

Yorum, öneri ve sorularınızı aşağıdaki “Yorumlar” kısmından benimle paylaşabilirsiniz. Yeni blog yazımda tekrar görüşmek üzere.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir