Παρουσίαση/Προβολή

Εικόνα επιλογής

Big Data / Ανάλυση Δεδομένων Μεγάλου Όγκου

(ΠΛ0833) -  ΑΛΕΞΑΝΔΡΟΣ ΚΑΡΑΚΑΣΙΔΗΣ

Περιγραφή Μαθήματος

Περιγραφή
 

Το μάθημα αφορά τη χρήση μεθόδων και λογισμικού για τη διαχείριση και ανάλυση δεδομένων μεγάλης κλίμακας, για τα οποία οι συμβατικές μέθοδοι αποθήκευσης και επεξεργασίας δεν επαρκούν. Το μάθημα θα διεξάγεται στην αίοθουσα και στο εργαστήριο και οι φοιτητές θα εξοικειωθούν με συστήματα όπως Hadoop MapReduce, Spark, τη γλώσσα Python και αλγορίθμους εξόρυξης δεδομένων μεγάλης κλίμακας.

Image source: http://www.balgono.com/2015/12/02/10-funniest-cartoons-on-big-data/

Ημερομηνία δημιουργίας

Τρίτη 16 Φεβρουαρίου 2021

  • Πληροφορίες μαθήματος

    Στόχοι
     

    Το μάθημα εστιάζει στην εκμάθηση της διαχείρισης δεδομένων μεγάλου όγκου. Μετά την επιτυχή ολοκλήρωση του μαθήματος, οι φοιτητές θα είναι σε θέση:

    - Να αναγνωρίζουν τις πηγές των δεδομένων μεγάλου όγκου καθώς και τα χαρακτηριστικά των δεδομένων αυτών και πώς αυτά τα χαρακτηριστικά επηρεάζουν τη διαχείρισή τους.

    - Να γνωρίζουν τις κυριότερες πλατφόρμες για δεδομένα μεγάλου όγκου.

    - Να γνωρίζουν προγραμματιστικές έννοιες, δομές και τεχνικές για δεδομένα μεγάλου όγκου.

    - Να χρησιμοποιούν τη γλώσσα Python για να πραγματοποιούν ανάλυση δεδομένων.

    - Να γνωρίζουν τους βασικούς υπάρχοντες αλγορίθμους για ανάλυση δεδομένων μεγάλου όγκου και να μπορούν να τους υλοποιήσουν.

    - Να σχεδιάζουν αλγορίθμους κατάλληλους για εκτέλεση σε πλατφόρμες δεδομένων μεγάλου όγκου.

    - Να γράφουν προγράμματα χρησιμοποιώντας τις πλατφόρμες δεδομένων μεγάλου όγκου.

    - Να εργάζονται ομαδικά για το σχεδιασμό και υλοποίηση εφαρμογών για δεδομένα μεγάλου όγκου.

     

    Περιεχόμενο Μαθήματος

    1. Εισαγωγή στην Ανάλυση Δεδομένων Μεγάλου Όγκου - Πλατφόρμες Δεδομένων Μεγάλου Όγκου. Εισαγωγή στη σχεδίαση αλγορίθμων με MapReduce..
    2. Σχεδίαση αλγορίθμων με MapReduce - εξειδικευμένα θέματα.
    3. Hadoop: Φιλοσοφία, αρχιτεκτονική, εργαλεία. Το κατανεμημένο σύστημα αρχείων HDFS.
    4. Εργαστήριο: Πρακτική εξάσκηση με Hadoop MapReduce. Εγκατάσταση και προγραμματισμός με Hadoop MapReduce.
    5. Apache Spark. Φιλοσοφία, αρχιτεκτονική, εγκατάσταση, προγραμματισμός & παραδείγματα.
    6. Εργαστήριο Python για την ανάλυση δεδομένων. Χρήση Jupyter Notebook.
    7. Εύρεση ομοίων στοιχείων: Μετρικές ομοιότητας, Μέθοδος LSH.
    8. Ανάλυση Ροών Δεδομένων: Δειγματοληψία, Μέτρηση στοιχείων. Φίλτρα Bloom.
    9. Εργαστήριο: Εγκατάσταση Spark. Spark και Minhash, LSH, Apache Spark Streaming για ροές δεδομένων
    10. Αλγόριθμοι Δεδομένων Μεγάλου Όγκου (Συσταδοποίηση - clustering): K-means. (Κατηγοριοποίηση - classification): Naive Bayes,
    11. Αλγόριθμοι Δεδομένων Μεγάλου Όγκου (Κανόνες Συσχέτισης): Συχνά στοιχειοσύνολα, Αλγόριθμος a-priori, Αλγόριθμος FP-growth.
    12. Εργαστήριο: Μηχανική Μάθηση και Apache Spark
    13. Συστήματα NoSQL για αποθήκευση δεδομένων μεγάλης κλίμακας

     

     

    Βοηθήματα
     

    1. Επιλογές Συγγραμμάτων:

    • Εξόρυξη από Μεγάλα Σύνολα Δεδομένων - 3η Έκδοση, Anand Rajaraman, Jeffrey David Ullman, Jure Leskovec
    • Εισαγωγή στην εξόρυξη δεδομένων, 2η Έκδοση, Tan Pang - Ning,Steinbach Michael,Kumar Vipin, Βερύκιος Βασίλειος (επιμέλεια) 
    • Εξόρυξη γνώσης από βάσεις δεδομένων και τον παγκόσμιο ιστό, Βαζιργιάννης Μιχάλης, Χαλκίδη Μαρία
    • Εξορυξη Και Αναλυση Δεδομενων: Βασικες Εννοιες Και Αλγοριθμοι, Mohammed J. Zaki, Wagner Meira Jr.

    2.Σημειώσεις και διαφάνειες από τον διδάσκοντα

    Τρόποι αξιολόγησης / εξέτασης
     

    Η αξιολόγηση των φοιτητών θα γίνει ως εξής:

    • 50% Εργασίες με εξέταση (2x25%)
    • 50% Τελική εξέταση (απαιτούνται εργασίες για τη συμμετοχή)