Παρουσίαση/Προβολή

Εικόνα επιλογής

Ανάλυση Μεγάλου Όγκου Δεδομένων

(MFT204) -  ΜΟΣΧΙΔΗΣ ΕΥΣΤΡΑΤΙΟΣ, ΛΙΒΑΝΗΣ ΕΥΣΤΡΑΤΙΟΣ

Περιγραφή Μαθήματος

Σκοπός του Μαθήματος: Οι φοιτητές να κατανοήσουν τις βασικές αρχές και τεχνικές της ανάλυσης δεδομένων μεγάλου όγκου, να μάθουν να χειρίζονται διάφορες εργαλειοθήκες ανάλυσης και να εξασκηθούν στην εφαρμογή αυτών των γνώσεων στην επίλυση πραγματικών προβλημάτων.

  • Εισαγωγή στην ανάλυση δεδομένων μεγάλου όγκου, κατανόηση των εννοιών των Big Data και των αρχών των 3V (Volume, Velocity, Variety).
  • Εισαγωγή στον προγραμματισμό σε R και τις βασικές βιβλιοθήκες για την ανάλυση δεδομένων.
  • Εισαγωγή στα συστήματα διαχείρισης βάσεων δεδομένων (SQLIte, NoSQL) και τη διαχείριση δεδομένων μεγάλου όγκου.
  • Εισαγωγή στο Hadoop και το MapReduce. Εξερεύνηση του Hadoop Distributed File System (HDFS).
  • Εισαγωγή στο Spark, παράδειγμα εφαρμογών με το Spark (Sparklyr).
  • Εισαγωγή στην μηχανική μάθηση για τα Big Data. Χρήση του MLlib στο Spark.
  • Μέθοδοι μείωσης διαστάσεων (Dimension Reduction)
  • Μη επιβλεπόμενη μάθηση (Clustering)
  • Επιβλεπόμενη μάθηση (Λογιστική παλινδρόμηση, Δέντρα απόφασης, Τυχαία δάση, ensemble learning)
  • Μεγάλα γλωσσικά μοντέλα και ανάλυση δεδομένων μεγάλου όγκου
  • Ανάλυση δεδομένων με BigQuery

Ημερομηνία δημιουργίας

Τετάρτη 24 Σεπτεμβρίου 2025

  • Διδάσκοντες

    • ΜΟΣΧΙΔΗΣ ΕΥΣΤΡΑΤΙΟΣ, Επισκέπτης Καθηγητής, Πανεπιστήμιο Μακεδονίας (smos@uom.edu.gr)  
    • ΛΙΒΑΝΗΣ ΕΥΣΤΡΑΤΙΟΣ, Επίκουρος Καθηγητής, Πανεπιστήμιο Μακεδονίας (slivanis@uom.edu.gr, 2310 891685)

    Περιεχόμενο μαθήματος

    Σκοπός του Μαθήματος: Οι φοιτητές να κατανοήσουν τις βασικές αρχές και τεχνικές της ανάλυσης δεδομένων μεγάλου όγκου, να μάθουν να χειρίζονται διάφορες εργαλειοθήκες ανάλυσης και να εξασκηθούν στην εφαρμογή αυτών των γνώσεων στην επίλυση πραγματικών προβλημάτων.

     

    • Εισαγωγή στην ανάλυση δεδομένων μεγάλου όγκου, κατανόηση των εννοιών των Big Data και των αρχών των 3V (Volume, Velocity, Variety).
    • Εισαγωγή στον προγραμματισμό σε Python/R και τις βασικές βιβλιοθήκες για την ανάλυση δεδομένων.
    • Εισαγωγή στα συστήματα διαχείρισης βάσεων δεδομένων (SQLIte, NoSQL) και τη διαχείριση δεδομένων μεγάλου όγκου.
    • Εισαγωγή στο Hadoop και το MapReduce. Εξερεύνηση του Hadoop Distributed File System (HDFS).
    • Εισαγωγή στο Spark, παράδειγμα εφαρμογών με το Spark (με τις βιβλιοθήκες PySpark και Sparklyr).
    • Ανάλυση δεδομένων με το Hive και το Pig.
    • Εισαγωγή στην μηχανική μάθηση για τα Big Data. Χρήση του MLlib στο Spark.
    • Μέθοδοι μείωσης διαστάσεων (Dimension Reduction)
    • Μη επιβλεπόμενη μάθηση (Clustering)
    • Επιβλεπόμενη μάθηση (Λογιστική παλινδρόμηση, Δέντρα απόφασης, Τυχαία δάση, ensemble learning)

    Βιβλιογραφία

    • Βερύκιος, Β., Κωτσιαντής, Σ., Σταυρόπουλος, Η., & Τζαγκαράκης, Μ. (2018). Η Επιστήμη των Δεδομένων. ISBN: 9789605780432.
    • Rajaraman, A., Ullman, J. D., & Leskovec, J. (2020). Εξόρυξη από Μεγάλα Σύνολα Δεδομένων (3η έκδ.). ΕΚΔΟΣΕΙΣ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΙΔΙΩΤΙΚΗ ΚΕΦΑΛΑΙΟΥΧΙΚΗ ΕΤΑΙΡΕΙΑ. ISBN: 9789605780661
    • Provost, F., & Fawcett, T. (2019). Η επιστήμη των δεδομένων για επιχειρήσεις. Εκδόσεις Κλειδάριθμος.

    Συναφή επιστημονικά περιοδικά

     Journal of Big Data, Machine Learning, International Journal of Data Science and Analytics, Foundations and Trends® in Machine Learning, Big Data Analytics, IEEE Transactions on Big Data

    Λοιπές πηγές παρατίθενται κατά τη διάρκεια των διαλέξεων όπου κρίνεται απαραίτητο.

    Μαθησιακοί στόχοι

    Οι φοιτητές μετά την επιτυχή ολοκλήρωση του μαθήματος θα είναι σε θέση:

    • Να συλλέγουν, να καθαρίζουν και να χειρίζονται δεδομένα μεγάλου όγκου.
    • Να αναπτύσσουν μοντέλα με την χρήση κατάλληλων τεχνικών μηχανικής μάθησης (επιβλεπόμενη/μη επιβλεπόμενη μάθηση).
    • Να δημιουργούν χρήσιμες οπτικοποιήσεις για την ανακάλυψη πληροφορίας μέσα από τα μεγάλα δεδομένα
    • Να αναπτύσσουν πρότυπα dashboards για την επικοινωνία των αποτελεσμάτων της ανάλυσης των δεδομένων.
    • Να κατανοούν και να εφαρμόζουν τις αρχές κατανεμημένης επεξεργασίας για μεγάλα δεδομένα.

    Οι φοιτητές αναμένεται να αποκτήσουν τις ακόλουθες γενικές ικανότητες:

    • Κατανόηση των θεμελιωδών εννοιών των δεδομένων μεγάλου όγκου: Οι φοιτητές θα πρέπει να κατανοούν τα βασικά χαρακτηριστικά των μεγάλων δεδομένων (όπως Volume, Variety, Velocity) και τους τρόπους αποθήκευσης και επεξεργασίας τους.
    • Πρακτική εμπειρία με εργαλεία μεγάλων δεδομένων: Οι φοιτητές θα αποκτήσουν δεξιότητες στην χρήση εργαλείων όπως το Hadoop και το Spark για την επεξεργασία και ανάλυση δεδομένων μεγάλου όγκου
    • Δεξιότητες προγραμματισμού στις γλώσσες R/Python: Οι φοιτητές θα αποκτήσουν προγραμματιστικές δεξιότητες για την διεξαγωγή πολύπλοκων αναλύσεων σε δεδομένα μεγάλου όγκου
    • Δεξιότητες ανάλυσης δεδομένων: οι φοιτητές θα αποκτήσουν γνώσεις που αναφέρονται σε διάφορες τεχνικές της αναλυτικής των δεδομένων όπως μη-επιβλεπόμενη μάθηση και επιβλεπόμενη μάθηση.
    • Ικανότητες απεικόνισης δεδομένων: οι φοιτητές θα αποκτήσουν δεξιότητες που είναι απαραίτητες για την απεικόνιση και εξαγωγή χρήσιμων ευρημάτων μέσα από δεδομένα μεγάλου όγκου
    • Ικανότητες κριτικής σκέψης: οι φοιτητές θα αποκτήσουν δεξιότητες με τις οποίες θα είναι σε θέση να επιλέξουν το κατάλληλο μεθοδολογικό πλαίσιο για την αντιμετώπιση προβλημάτων που άπτονται της ανάλυσης δεδομένων μεγάλου όγκου αλλά και να δημιουργούν εφαρμόσιμες λύσεις

    Μέθοδοι διδασκαλίας

    ΤΡΟΠΟΣ ΠΑΡΑΔΟΣΗΣ

    Δια ζώσης / Εξ’ αποστάσεως

    ΧΡΗΣΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ

    • Χρήση Τ.Π.Ε. στη διδασκαλία, σε ερευνητικές δραστηριότητες και στην επικοινωνία με τους φοιτητές (υποστήριξη μαθησιακής διαδικασίας μέσω ιστοσελίδας, αναζήτηση βιβλιογραφικών πηγών στο διαδίκτυο, επικοινωνία μέσω email).
    • Open eClass: επικοινωνία και διάθεση υλικού ή πηγών.
    • Ηλεκτρονική βιβλιοθήκη που παρέχει πρόσβαση σε βάσεις δεδομένων, επιστημονικά συγγράμματα και περιοδικά
    • Χρήση γενικού λογισμικού (Microsoft Office)

    Μέθοδοι αξιολόγησης

    Η γλώσσα αξιολόγησης του μαθήματος είναι τα ελληνικά.

    Η αξιολόγηση του μαθήματος αποτελείται από:

    • Γραπτή ενδιάμεση εξέταση (50%)
    • Γραπτή τελική εξέταση (50%)

    Τα κριτήρια αξιολόγησης για όλους τους τρόπους αξιολόγησης περιλαμβάνουν τα εξής

    • Κατανόηση βασικών εννοιών που σχετίζονται με το περιεχόμενο του μαθήματος.
    • Ικανότητα εφαρμογής των θεωρητικών γνώσεων σε ένα συγκεκριμένο πρόβλημα ή μελέτη περίπτωσης.
    • Κριτική ικανότητα ως προς την επιλογή κατάλληλων μεθόδων/εργαλείων σε μια δεδομένη περίπτωση και/ή στην ανάπτυξη επιχειρημάτων με βάση σχετικές θεωρητικές και εμπειρικές μελέτης στη διεθνή βιβλιογραφία.
    • Δομή και παρουσίαση.

    Αναλυτικότερα κριτήρια αξιολόγησης, εάν κριθεί απαραίτητο, θα δίνονται στον οδηγό μαθήματος ή θα αναρτούνται εδώ.