Geçtiğimiz hafta sevgili Cem ile birlikte tartışmaya açtığımız sosyal ağlar ve duygu analizi yazımızda, geleneksel akademisyen gibi gözüktüğüme dair bir “hisse” ya da “duyguya” kapıldım. Dolayısıyla aynı başlık üzerinden örnekler ile yazıma devam etmek istiyorum.
Akademisyenlerin öğretme içgüdüsü, teknik-terminolojik yazma ve ifade etme tarzı her zaman düşündükleri kadar doğru ilerlemeyebilir. Yazma konusunda Cem kadar açık ve yalın yazmak bir deneyim gerektirse de arkadaşlar arası konuşmalardan bazı sonuçlara ulaşmak çok zor olmadı. Bana gelen geri dönüşlerden çıkardığım “pozitif”, “nötral” ve “negatif” duyguları içeren ifadeleri (yorumlar) bir sayısal kurguda ele aldığım zaman (örnek olarak toplam konuşma ve sosyal medya yorumları üzerinden %50 negatif, %30 pozitif, %20 nötral), bu yazıların daha örneklemeli ve samimi yazılmasının daha doğru olacağı sonucu çıktı. Tabii ki bu durum, benim kendi değerlendirmelerim çerçevesinde öznel bir sonuç olarak ele alınsa da öğrenme konusunda bana bazı girdiler sağladı.
Yukarıdaki paragrafa tekrar bakalım: Ortada anlaşılmak istenilen bir his ya da bir duygu var. Bu duygunun anlaşılması için girdi olarak; arkadaşlar arası konuşmalar (speech-to-text), sosyal medya yazıları vb. platformlardan gelen yorumlar (veriler) ve algıladığım (istatiksel ilişkilendirme) veriye dayalı bir öğrenme durumu var. Aslında bu noktada geçen haftaki yazımızda tartışmak istediğimiz bir süreci veri-güdümlü şekilde ele almış oluyoruz. Örneğimizi detaylandırma adına hızlıca Twitter üzerinden bir tarama yapalım, basit olsun. Türkiye için şu anda çok büyük bir problem olarak gözükmese de birçok insanı etkileyen #coronavirüs hashtag’ine bakalım. Özellikle sol tarafta yer alan grafik, son 5 haftalık süreçte ilgili kelime hashtag’i üzerinden yoğun bir trafik olduğunu ve insanların bu konuda çeşitli girdiler sağlayan yorumlar (tweet’ler) yaptığını gösteriyor. Son bir aylık süreçte tüm dünya üzerinde %86’lık bir değeri gösteren ilgi artışı olmasına karşılık (yeşil bar) son bir hafta içinde %8’lik bir düşüş gözlenmekte (kırmızı bar). Sağ tarafta yer alan grafikten, Türkiye’de bu konuyla ilgili yorumlar ve haberlerde üç hafta önce artış olduğu ancak bu durumun daha hızlı bir şekilde düşme eğiliminde olduğu anlaşılmaktadır. Her gün #coronavirüs hashtag’i ile paylaşılan tweet’lerin sayımı yaparak sosyal medya üzerinden sosyolojik etkileri gösteren betimsel bir fikir sahibi oluyor, aynı zamanda söz konusu konu başlığı üzerinde genel bir duygu analizi de yapabiliyoruz, bakalım:
Örnek birkaç tweet incelendiği zaman, konuyla ilgili bir duyguya ve/veya güçlendirilmek istenilen etki hakkında yorumlara ek olarak resimle duygu odağı arttırılmaktadır. Bu süreç, özellikle iş dünyasındaki uygulamalarda kullanılmakta ve şirket/ürün hakkında yapılan yorumlar üzerinden ilgili duruma tanımlanan düşünce konusunda bir istatiksel veri sağlamaktadır. Bu durum politik söylemler ve toplumu ilgilendiren/etkileyen durumlar için de geçerlidir. Sonuç; teknolojik gelişmeler, özellikle günden güne gelişmekte olan yapay zeka uygulamaları, sosyal ilgi/etki açısından bireylerin düşüncelerini ölçümleme sistemi olarak kullanılmaktadır.
Gündelik hayatımızda metni bilinçaltında pozitif/negatif olarak sınıflandırabiliyoruz. Örneğin, “Çocuğun yüzünde muhteşem bir gülümseme vardı” cümlesi, bize olumlu bir duygu vermektedir. Temel anlamda, kelimeleri inceleyerek; pozitifleri ve negatifleri ortalayarak böyle bir sonuca varabiliyoruz. Örneğin, “muhteşem” ve “gülümseme” kelimelerinin olumlu olma olasılığı daha yüksek iken “çocuk” ve “yüz” gibi kelimeler tarafsız gözükmekte, bu nedenle cümlenin genel duygusu olumlu olmaktadır. Teknik olarak insanların yazım-konuşma gibi yapısal olmayan cümlelerini incelemek detaylı kelimelere dayalı ileri seviye analizler gerektirmektedir. Bu analizler verinin temizlenmesi ve ön işleme, noktalama işaretlerinin kaldırılması, ortak kullanılan kelimelerin kaldırılması (için, ve, ki vb.), ve kelimelerin normalleştirilmesi (tmm-> tamam vb.) ile düzenlemektedir. Sonrasında dil işleme tekniklerinde kullanılan makine öğrenmesi ve derin öğrenme algoritmaları ile yazılarda ilgili duygu konusunda olasılık dağılımları elde edilmektedir. Verilere dayalı olarak tekrarlanan bu süreçte bilgisayar sistemlerinin öğrenmesi ile birlikte pozitif, negatif ve nötr düşünceler konusunda bir sınıflandırma yapılmaktadır. Türkiye’de duygu analizleri yapmak zaman zaman oldukça neşeli olabilmektedir. Yazımızı #istanbultrafik hashtag’leri ile tamamlayalım.