ADIM 1 : İSTATİSTİK
1.1 Temel İstatistik Yöntemler
İstatistik çalışmasına Doç.Dr.Mehmet Aksaraylı'nın sunum tarzında Temel İstatistik için hazırlamış olduğu ders notuyla hızlı bir giriş yapın.Tanımlayıcı istatistikler,Veri Analizi,veri görselleştirme hakkında özet bilgiler ile başlayın.
1.2. Mühendisler için İstatistik
İkinci adımda sıra İstatistik'de teorik bilgilerimizi yapılandırmaya geldi.Ders notları detaylı ve çözümlü örnekli biçimde Prof.Dr.Hüseyin Çelebi tarafından hazırlanmış.Notlarda temel kavramlar,tek değişkenli dağılımlar,olasılık dağılımları,tahmin yöntemleri,test yöntemleri,varyans analizi,çok değişkenli istatistik yöntemleri ve son olarak zaman serileri başlıklarında konular yer alıyor.MIT'nin İş Analitiği ders programına göz attığımda simülasyona temel oluşturacak sadece olasılık dağılımları,kesikli ve sürekli rassal değişkenler konuları ele alınmış.Burada seçimi size bırakıyorum.Sayfa 80'e kadar olan bölüm de İş Analitiği için yeterli gelebilir.
ADIM 2 : YAZILIM ARAÇLARI
Çalışacağınız İş Analitiği aracının temellerini öğrenmelisiniz.Önünüzde iki tane alternatif var.Birincisi ofis yazılımları ikincisi ise açık kaynak yazılımları aynı zamanda programlama dilleri.Muhtemelen çoğu kişiye İş Analitiği çalışmalarını Excel gibi bir ofis yazılımında yürütmek çok daha pratik ve öğrenmesi kolay gelecektir.Python veya R gibi bir yazılım aracında ise bu öğrenme süreci daha yavaş olacaktır.Bununla birlikte Python ve R ile kendi İş Analitiği uygulamanızı yazabilir ve R için web ortamında ,Python için hem web hem de masaüstü ortamında kolaylıkla paylaşabilirsiniz.
2a.1 Excel 2013
2a.1.1 Excel 2013'de temel görevler
Microsoft'un sayfasından Excel 2013 de temel görevleri öğrenin.
2a.1.2. Temel Excel Bilgileri
Excel'de biçimlendirme,formüller ve işlevler konularını Yrd.Doç.Dr.Halil İbrahim Cebeci'nin hazırlamış olduğu notlar ile temel seviyede öğrenin.
2a.1.3. Excel Uygulamaları
Excel'de formül oluşturmayı,veri filtreleme ve özet pivot tablo oluşturma konularını daha detaylı olarak örnek uygulamalar ile öğrenin.Ders notları Erciyes Üniversitesi öğretim görevlisi Gökhan Güven tarafından oluşturuldu.
2a.2 LibreOffice Calc
2a.2.1. LibreOffice Hesap Tablosu Temel Bilgiler
Fatih Projesi için Pardus grubu tarafından hazırlanmış olan notlar ile LibreOffice Hesap Tablosu yazılıma giriş yapın.Veriler üzerinde hesaplama,filtreleme,raporlama,grafik hazırlama konularını öğrenin.
2a.2.2. LibreOffice Hesap Tablosu Türkçe Kitabı
Bu kitap Tübitak tarafından hazırlatılmıştır.LibreOffice Hesap Tablosu ofis yazılımı ile ilgili wiki tarzı bilgileri bu kitaptan öğrenebilirsiniz.İhtiyaç duyduğunuz konularda zaman zaman bu kaynağa başvurabilirsiniz.
2b.1. R programlama
2b.1.1 R programlama Temel Bilgiler
Akademik Bilişim'in 2010 yılı konferansında açıklanan notlar ile R programlama'nın temel bilgilerini sözel olarak öğrenin.Notlar içinde R 'da nesne kavramı ve nesneler,R'da fonksiyonlar konuları temel anlamda işinize yarayacaktır.
2b.1.2. R programlamaya Giriş ve Uygulamalar
İzmir'de 2014 yılında Türkiye'de İnternet isimli konferansta yapılan sunum ile R programlamaya pratik olarak giriş yapın.Sayfa 42'ye kadar olan bölüm ile R terminali-arayüzü-editörü,veri tipleri,listeler,fonksiyonlar,dosya okuma,if koşulları,for döngüleri,paketler ile çalışma konularını temel seviyede öğrenin.
2b.1.3. R ile uygulamalı örnekler
Barış Şanlı bey'in hazırlamış olduğu notlar ile R programlama üzerinde temel bilgilerinizi pekiştirin.İlk etapta Rstudio ve ilk kodlar,histogram ve filtreleme başlıklı yazılarda yer alan kod örneklerini incelemeniz yeterli olacaktır.
2b.2. Python programlama
2b.2.1 Python Kurulumu
İş Analitiği için Continuum Analytics yazılım şirketinin ücretsiz olan Anaconda Python dağıtımı uygun bir çözüm olacaktır.Anaconda dağıtımı içeriğinde bilim,mühendislik,matematik ve veri analizleri alanlarına yönelik 400'den fazla Python paketi içermektedir.Bu programlama paketleri daha hızlı ve etkili programlar geliştirebilmenizi sağlamakla birlikte veri bilimcileri,mühendisler,bilim adamları,akademisyenler,analitik çalışanları için hızlı ve pratik şekilde analiz,hesaplama yapabilecekleri bir ortam oluşturur. Bu adresten Python versiyonlarına göre programlama paketlerinin listesine göz atabilirsiniz. Ayrıca kurulum yaparken Python versiyonu seçmede ihtiyaçlarınızı bu programlama paketler listesi ile karşılaştırabilir ve neticesinde hangi Python versiyonu ile çalışacağınıza karar verebilirsiniz.Kurulumu ise bu sayfada yer alan talimatları izleyerek yapabilirsiniz.
Python kodlarınızı çalıştırmak için Linux işletim sisteminde Terminali kullanabileceğiniz gibi Anaconda ile birlikte gelen Ipython http://ipython.org/ interaktif hesaplama ortamını Windows ve Linux işletim sistemlerinde programlarınızı test etmek,modül bazında geliştirmek veya analiz,hesaplama çalışmalarınızı görsel ve raporlama olarak yürütmek için kullanabilirsiniz.Ipython ortamını browser üzerinde çalıştırabilmek için de Linux 'de terminal satırına ipython notebook yazıp enter yapmanız yeterli olacaktır.Windows üzerinde Ipython notebook .exe dosyasını başlat menüsünden bularak kolaylıkla çalıştırabilirsiniz.
2b.2.2 Python 3 istihza.com eğitim dökümanları
02 Python Hakkında,12.Koşullu Durumlar,13.Operatörler,14.Döngüler,21.Listeler ve Demetler,22.Listelerin ve Demetlerin Metotları (liste üreteçleri önemli),31.Sözlükler,34.Fonksiyonlar ve son olarak 36.İleri Düzey Fonksiyonlar (lambda'yı mutlaka öğrenin) modülleri İş Analitiği ile ilgili programlama paketlerini kullanmada temel bilgiler için fazlasıyla yeterli olacaktır.
Alternatif olarak Yazılım Bilimi isimli youtube kanalında yer alan kısa süreli dersleri de izleyerek de hızlı bir giriş yapabilirsiniz.Fakat liste üreteçleri,lambda fonksiyonu konularını da mutlaka öğrenmeniz gerekiyor.
ADIM 3 : VERİ MADENCİLİĞİ / MAKİNE ÖĞRENMESİ
Bu aşamada İş Zekası ve Tahmine dayalı analitikler'in çok önemli bir bileşeni olan Veri Madenciliği'ni öğreneceğiz.Yalnız bu noktada bir karar vermeniz gerekiyor.Eğer Yapay Zeka ,Derin Öğrenme gibi bilgisayar bilimi'ne daha yakın olan konularda uzmanlaşmayı tercih edecekseniz Veri Madenciliği yerine Makine Öğrenmesi kaynaklarını okumanızı tavsiye edebilirim.Yabancı kaynaklardan okuduğum kadarıyla Veri Madenciliği ile ilgilenenler daha çok İstatistik biliminde uzmanlaşmayı tercih ediyorlar.Ayrıca Veri Madenciliği için R programlama dili de iyi bir seçim olacaktır.Aynı zamanda Makine Öğrenmesi için de Python çok güçlü olanaklara sahiptir.
VERİ MADENCİLİĞİ
3a.1 Veri Madenciliği'ne Giriş
Yrd.Doç.Dr. Kadriye Ergün'ün notları ile Veri Madenciliği konularına bir giriş yapın.Ders notunda Veri Madenciliği adımları,Veri Madenciliği yöntemleri ve Veri Madenciliği uygulamaları konularında özet bilgiler bulacaksınız.
3a.2. Birliktelik Kuralı Madenciliği
Gazi Üniversitesi Bilgisayar Mühendisliği bölümünden M.Ali Akçayol'un hazırladığı sunumla Veri Madenciliği'nin algoritmalar konusunda giriş ve en temel konusu olan Birliktelik Kuralları konusunu uygulama örnekleriyle birlikte öğrenin.
3a.3. Doğrusal Regresyon
Başkent Üniversitesi'nden Doç.Dr.Mehtap Akçıl'ın hazırlamış olduğu sunumla, Veri Madenciliği'nde doğrusal modellere doğrusal regresyon ile giriş yapın.Sunum dosyasında doğrusal regresyon ile ilgili teorik bilgi verildikten sonra IBM'in SPSS istatistik yazılımı ile çözülen bir regresyon tahmin uygulaması anlatılmış.
3a.4. Lojistik Regresyon
Henüz kaynak bulunamadı
3a.5. Karar ağacı, Sınıflama ve Kümeleme Ders Sunumu
Yrd.Doç.Dr. Songül Albayrak'ın hazırlamış olduğu ders sunumu notları ile Karar Ağaçları,Sınıflandırma (en yakın komşu KNN algoritması,Bayes sınıflandırıcı),kümeleme (k-means,hiyerarşik) algoritma temelleri hakkında bilgiler edinin.
3a.5.1 Karar Ağacı Nedir ?
Karar ağacı yöntemi hakkında daha detaylı bilgi edinin ve uygulamalı örnekleri inceleyin.
3a.5.2. Bayes Sınıflandırıcılar
Bayes sınıflandırıcıları,Bayes kuralı ve Naive Bayes sınıflandırıcı hakkında bilgi edinin ve uygulamalı örneği inceleyin.
3b.6. Boyutsal Azaltım Temel Bileşenler Analizi (PCA)
Bu seminer notunda PCA hakkında teorik bilgi edinin ve sağlık alanında yapılmış bir uygulamayı inceleyin.
3a.7. Model Performansını Değerlendirme
Çapraz Doğrulama,kayıp fonksiyonu,ROC eğrisi,precision-recall eğrileri,maliyet cost eğrileri,
3a.7.1 K Katlamalı (K Fold) Çapraz Doğrulama
3a.8. Topluluk (Ensemble) Öğrenme Algoritmaları
Bagging,Randomization (Random Forest),Boosting(AdaBoost),
MAKİNE ÖĞRENMESİ
3b.1 Makine Öğrenmesi'ne Giriş
Prof.Dr.Hacer Karacan'ın hazırlamış olduğu sunum dosyasıyla Makine Öğrenmesi'nin temel konularına giriş yapın.Sunumda Yapay Zeka ve Makine Öğrenmesi tanımları , öğrenme çeşitleri,kullanım alanları ve uygulama örnekleri konuları hakkında bilgiler bulacaksınız.
3b.2. Doğrusal Regresyon (Veri Madenciliği altında paylaşıldı)
3b.3. Lojistik Regresyon
Henüz kaynak bulunamadı
3b.4. Yapay Sinir Ağları
3b.4.1. Yapay Sinir Ağları'na Giriş
İtü Elektronik Mühendisliği bölümünde okutulan Yapay Sinir Ağları dersinin birinci hafta sunumu.Sunum dosyasında Yapay Sinir Ağları hakkında genel bilgi verilmiş ve tarihinden bugüne olan gelişmeler özetle anlatılmış.
3b.4.2. Yapay Sinir Ağları ve YSA Modelleri
Ege Üniversitesi'nden Prof.Dr. Muhammet Cinsdikici'nin hazırlamış olduğu ders notuyla Yapay Sinir Ağlarında teorik bilginizi güçlendirmeye giriş yapın.Ders notunda ysa kavramı,öğrenme algoritması,ysa yapısı,temel ysa modelleri (hebb net,perceptron,som,backpropagation net,Hopfield,maren),ysa kullanım alanları konuları yer almaktadır.
3b.4.3. Yapay Sinir Ağları'nda Öğrenme
Yıldız Teknik Üniversite'nden yardımcı prof. Kayhan Gülez'in hazırladığı notlar ile Yapay Sinir Ağı öğrenme algoritmasının çalışma mekanizması biraz daha detaylı bilgi edinin.Notlar içinde YSA'nın yapısı ve işlem elemanı,ağ tipleri,eşik fonksiyonları,hata düzeltme ve gradyen kuralları,eğitme algoritmaları ve son olarak ysa bellek konularında bilgiler yer almaktadır.
3b.5. Model Performansını Değerlendirme
Veri Madenciliği altında paylaşıldı
3b.6. Destek Vektör Makineleri (SVM)
Henüz kaynak bulunamadı.
3b.6. Makine Öğrenmesi'nde Optimizasyon
Doç.Dr. Umut Orhan 'ın hazırladığı notlar ile Makine Öğrenmesi'nde optimizasyon yöntemlerini kısaca tanıyın.Notlar içinde Lagrange metodu,Destek Vektör Makineleri(SVM) ve karesel programlama yöntemleri bulunuyor.
3b.7. Denetimsiz Öğrenme Kümeleme Algoritmaları
Kocaeli Üniversitesi Bilgisayar Mühendisliği bölümüne ait sunum şeklinde hazırlanmış ders notları ile Denetimsiz Öğrenme ve kümeleme algoritmaları konusuna giriş yapın.Notların içinde K-means,hiyerarşik kümeleme algoritmaları ve örnek çözümler yer alıyor.
3b.8. Boyutsal Azaltım Temel Bileşenler Analizi(PCA)
Veri Madenciliği altında paylaşıldı
3b.9. Anomali Tespiti (Anomaly Detection) ve Öneri Sistemleri (Recommender Systems)
Mersin Üniversitesi'nde görevli Yrd.Doç.Dr. Yuriy Mischenko tarafından hazırlanan bu sunum ders notuyla Makine Öğrenmesi'nin ileri seviye konularında bilgi sahibi olun.
ADIM 4 VERİ ANALİZİ VE GÖRSELLEŞTİRME - YAZILIM
EXCEL
4a.1 Veri Çözümleme,Veri Görselleştirme
Microsoft'un sitesinden Excel 2013 ve 2016 versiyonlarının veri analizi ve görselleştirme yeteneklerini gözden geçirin.
4a.2. İstatistik Analizler
Excel'in Toolpak isimli eklentisi ile ileri istatistik analizleri gerçekleştirin.İçeriği Anova,korelasyon,kovaryans,tanımlayıcı istatistik,üstel düzeltme,f-testi,histogram,hareketli ortalama,random sayı üretimi,rank ve yüzdebirlik,regresyon,örnekleme,t-testi,z-test.
LIBREOFFICE CALC
4b.1. Veri Çözümleme,Veri Görselleştirme
Tübitak tarafından hazırlanmış LibreOffice hesap tablosu kitabının sf. 86-111 aralığında LibreOffice Hesap Tablosunun veri görselleştirme konularını öğrenin.Sf. 139-142 aralığında Veri Çözümleme ile veri analizi yapmayı öğrenin.
4b.2. İstatistik Analizler
LibreOffice Hesap tablosunun Veri menüsü altında İstatistik fonksiyonu altında örnekleme,tanımsal istatistikler,anova,korelasyon,kovaryans,üstel yuvarlama,hareketli ortalama,t-testi,f-testi,z-testi,ki-kare testi özellikleri ile ileri istatistik analizler gerçekleştirin.
R
R açık kaynak yazılımı ve programlama dili ile veri analizi çalışmaları için özel tasarlanmış bazı alt paketler yer alıyor.Bu paketler sayesinde daha pratik ve hızlı biçimde veri analizleri gerçekleştirebilirsiniz.Şüphesiz ki R 'ın temel özellikleri ile de bu veri analizi çalışmaları yapılabilir fakat hem performans hem de yazım zorluğu açısından kendi deneyimlerime ve R profesyonellerinin yorumlarına da bakarak veri analizi çalışmalarınızı özel tasarlanmış R paketleri ile yapmanız sizin lehinize olacaktır.
Bu kapsamda R 'da küçük-orta veri setlerinin analizi için Dplyr,büyük veri setleri (birkaç milyon satır ve fazlası) data.table , veri görselleştirme için de ggplot2 iyi bir tercih olacaktır.Ayrıca R'ın konsolu yerine RStudio üzerinde kodlama yapmanız görsellik ve kolaylık açısından daha etkili olacaktır.
4c.1 TidyR veri hazırlama paketi
TidyR,ETL işlemlerinizi daha verimli gerçekleştirebilmek için veri düzenleme araçları sunuyor.Bağlantıda yer alan içerikle TidyR paketinin kurulumunu öğrenebilir ve yapılmış bir uygulamayı inceleyebilirsiniz. Dk 40-53 aralığında izlenebilir.
4c.2.Dplyr Veri Düzenleme,Veri Analizi paketi
DplyR paketi veri düzenleme ve veri analizi işleriniz için Sql benzeri yazımı kolay fonksiyonlar sunarak daha görünür ve okunabilir kodlama yapmanızı sağlıyor. 00:53-1:10 arası izlenebilir.
4c.3. ggplot2 Veri Görselleştirme paketi
ggplot2 paket kurulumu ve boxplot grafik çizimi
serpilme,çubuk ve histogram grafik çizimi
4c.4. İstatistik Analizler
R dilinde İstatistik Analizler için Türkçe olarak web üzerinde toplu ve yeterli bir kaynağı şu an için bulamadım.Web dışında kaynak olarak İstatistikte R ile programlama isimli, istatistik alanında akademik kariyer yapmış Prof.Dr. Necmi Gürsakal tarafından yazılmış bir kitap mevcut.R ile istatistik analiz yapmanız için herhangi bir paket kurulumu yapmanız gerekmiyor.Anova dahil istatistik analizleri temel R üzerinde yerine getirebilirsiniz.
PYTHON
Python açık kaynak programlama dilinde R diline benzer veri analizi ve görselleştirme için özel paketler bulunmaktadır.Daha öncede belirttiğim gibi eğer Anaconda Python 3.0 ve üstü için özel dağıtım paketini kurarsanız bu paketlerin çoğu hazır halde sisteminiz yüklenecektir.Python'da veri analizi ve manipülasyonu için en yoğun kullanılan paket Numpy temel paketi üzerine kurulu olan Pandas'tır.Veri görselleştirme'de ise en güçlü paket Matplotlib'dir.Burada her üç paket ile ilgili Türkçe öğrenme kaynaklarını paylaşacağım.Ayrıca Anaconda ile birlikte IPython Notebook geliştirme ortamı da sisteminize eklenecektir.IPython Notebook ile görsel açıdan daha düzenli ve görsel açıdan etkili çalışmalar yürütebilirsiniz.Bu yüzden geliştirme ortamı için IPython Notebook kullanmanızı tavsiye ederim.
4d.1. Numpy Notları
Pandas veri manipülasyonu ve analizi paketi , Numpy üstüne kurulmuş bir yapıdır.Bu nedenle işin temelini öğrenmek için ilk önce Numpy üzerinden başlamak isteyebilirsiniz.Eğer temel-orta seviyede ben Python ile veri analizi çalışmaları yapmak bana yeterli diyorsanız bu adımı pas geçebilirsiniz.
Bağlantıda Numpy paketi içinde Numpy dizi oluşturma,vektörleştirme ve dilimleme işlemleri,matrisler ile ilgili konular yer alıyor.
4d.2. Pandas ile Veri Analizi
Türkçe içerikli sitelerde şu an için Pandas paketi ile ilgili temel anlamda bilgi veren bir kaynak bulunmuyor.İngilizce olarak Pandas paketi ile ilgili çok sayıda ders anlatımını pydata.org üzerinde bulmak mümkün.
4d.3. Matplotlib ile Veri Görselleştirme
Bu sayfada Matplotlib veri görselleştirme paketi ile ilgili beş adet yazıdan oluşan ders anlatımı yer alıyor.Anlatımlarda temel grafik çizimi,çizgi biçimlendirme,bitişik şekiller-yazı ve süsleme,logaritmik-kutupsal-histogram ve dağılım grafik çizimlerine yer verilmiş.
4d.4. İstatistik Analizler
Python üzerinde istatistik analizler için en bilinen iki alternatif paket mevcut.Birincisi daha basit ve yalın olan Scipy.stats ikincisi ise çok daha detaylı ve geniş özelliklere sahip StatsModels paketi. Şu an için bu paketler üzerine herhangi bir Türkçe kaynağa rastlamadım.
ADIM 5 TAHMİNE DAYALI (PREDICTIVE) ANALİTİKLER - YAZILIM (VERİ MADENCİLİĞİ/MAKİNE ÖĞRENMESİ)
5a. Excel
Veri Madenciliği Excel Eklentisi ?
Excel 2007 sonrası versiyonlar için Microsoft'un dahili olarak tasarladığı bir veri madenciliği eklentisi mevcut.Fakat bu eklentiden faydalanabilmek için Excel ile birlikte en düşük Sql Server 2005 kurulumu yapmanız gerekiyor.Ayrıca Microsoft Türkiye'nin kendi sayfasında bu eklenti ile ilgili herhangi bir Türkçe destek vermediğini hatırlatmak isterim.Bu adreste eklentiyi kurmak için gerekli bilgileri bulabilirsiniz.
Diğer bir yandan Excel 2016 ile gelen yeni bir özellik olan tek tıklamalı Tahmin işlevi ile temel seviyede forecasting ile tahmine dayalı analitik çalışmaları yapabilirsiniz.
5b LibreOffice Calc
R ve LibreOffice Calc Etkileşimi
LibreOffice Hesap Tablosu ofis yazılımı içinde R programlama dili için bir Add-on menü yer alıyor.Bu sayede R'da yer alan bazı özellikleri LibreOffice içinde formüller ile kullanma fırsatına sahipsiniz.Bu hususta henüz Türkçe kaynak bulunmadığı için mecburen LibreOffice'in orjinal adresinde yer alan bağlantıyı gösterdim.Peki kısaca LibreOffice 'de Veri Madenciliği açısından neler yapılıyor kısaca bakalım.Doğrusal regresyon,Genel doğrusal model,Anova,çok değişkenli doğrusal regresyon.Şu an için dökümantasyon üzerinden görülen yöntemler bunlarla sınırlı.
5c R
R ve Veri Madenciliği
İstatistik analizde olduğu gibi Veri Madenciliği tarafında da R ile ilgili web de erişime açık olan bir Türkçe kaynağa rastlamadım.Bununla birlikte Veri Madenciliği ve Makine Öğrenmesi isimli bir kitap bulunuyor.Kitabın belirtilen içeriğine göre R dili ile KNN,bayes sınıflandırıcı,lojistik regresyon,karar ağaçları,k-means algoritmaları anlatılmış ve uygulamalı örneklere yer verilmiş.Kitabı alıp inceleyemediğim için herhangi bir ek yorumda bulunmak da istemiyorum.
Ayrıca bu bağlantı üzerinden R dilinin Veri Madenciliği ve Makine Öğrenmesi ile ilişkili paket bilgilerine ve indirme adreslerine erişebilirsiniz.
5d. Python
Python ve Makine Öğrenmesi
Python üzerinde bilinen en iyi ve en çok kullanılan Makine Öğrenmesi paketi Scikit-Learn isimli pakettir.Bu paketle birlikte Makine Öğrenmesi başlığı altında sınıflandırma,regresyon,kümeleme,boyutsal azaltım,model seçimi ve veri ön işleme işlemlerini tek bir paket kullanımıyla yapabilirsiniz.Türkçe olarak şu anda web de erişime açık herhangi bir kaynak yer almıyor.İngilizce olarak scikit-learn.org alan adresinde
bulunan orjinal web adresinden eğitim notlarına ve örnek uygulamalara ulaşabilirsiniz.
Hiç yorum yok:
Yorum Gönder