Παρουσίαση/Προβολή

Big Data / Ανάλυση Δεδομένων Μεγάλου Όγκου
(ΠΛ0833) - ΑΛΕΞΑΝΔΡΟΣ ΚΑΡΑΚΑΣΙΔΗΣ
Περιγραφή Μαθήματος
Περιγραφή
|
Image source: http://www.balgono.com/2015/12/02/10-funniest-cartoons-on-big-data/
Ημερομηνία δημιουργίας
Τρίτη 16 Φεβρουαρίου 2021
-
Πληροφορίες μαθήματος
Στόχοι Το μάθημα εστιάζει στην εκμάθηση της διαχείρισης δεδομένων μεγάλου όγκου. Μετά την επιτυχή ολοκλήρωση του μαθήματος, οι φοιτητές θα είναι σε θέση:
- Να αναγνωρίζουν τις πηγές των δεδομένων μεγάλου όγκου καθώς και τα χαρακτηριστικά των δεδομένων αυτών και πώς αυτά τα χαρακτηριστικά επηρεάζουν τη διαχείρισή τους.
- Να γνωρίζουν τις κυριότερες πλατφόρμες για δεδομένα μεγάλου όγκου.
- Να γνωρίζουν προγραμματιστικές έννοιες, δομές και τεχνικές για δεδομένα μεγάλου όγκου.
- Να χρησιμοποιούν τη γλώσσα Python για να πραγματοποιούν ανάλυση δεδομένων.
- Να γνωρίζουν τους βασικούς υπάρχοντες αλγορίθμους για ανάλυση δεδομένων μεγάλου όγκου και να μπορούν να τους υλοποιήσουν.
- Να σχεδιάζουν αλγορίθμους κατάλληλους για εκτέλεση σε πλατφόρμες δεδομένων μεγάλου όγκου.
- Να γράφουν προγράμματα χρησιμοποιώντας τις πλατφόρμες δεδομένων μεγάλου όγκου.
- Να εργάζονται ομαδικά για το σχεδιασμό και υλοποίηση εφαρμογών για δεδομένα μεγάλου όγκου.
Περιεχόμενο Μαθήματος 1. Εισαγωγή στην Ανάλυση Δεδομένων Μεγάλου Όγκου - Πλατφόρμες Δεδομένων Μεγάλου Όγκου. Εισαγωγή στη σχεδίαση αλγορίθμων με MapReduce..
2. Σχεδίαση αλγορίθμων με MapReduce - εξειδικευμένα θέματα.
3. Hadoop: Φιλοσοφία, αρχιτεκτονική, εργαλεία. Το κατανεμημένο σύστημα αρχείων HDFS.
4. Εργαστήριο: Πρακτική εξάσκηση με Hadoop MapReduce. Εγκατάσταση και προγραμματισμός με Hadoop MapReduce.
5. Apache Spark. Φιλοσοφία, αρχιτεκτονική, εγκατάσταση, προγραμματισμός & παραδείγματα.
6. Εργαστήριο Python για την ανάλυση δεδομένων. Χρήση Jupyter Notebook.
7. Εύρεση ομοίων στοιχείων: Μετρικές ομοιότητας, Μέθοδος LSH.
8. Ανάλυση Ροών Δεδομένων: Δειγματοληψία, Μέτρηση στοιχείων. Φίλτρα Bloom.
9. Εργαστήριο: Εγκατάσταση Spark. Spark και Minhash, LSH, Apache Spark Streaming για ροές δεδομένων
10. Αλγόριθμοι Δεδομένων Μεγάλου Όγκου (Συσταδοποίηση - clustering): K-means. (Κατηγοριοποίηση - classification): Naive Bayes,
11. Αλγόριθμοι Δεδομένων Μεγάλου Όγκου (Κανόνες Συσχέτισης): Συχνά στοιχειοσύνολα, Αλγόριθμος a-priori, Αλγόριθμος FP-growth.
12. Εργαστήριο: Μηχανική Μάθηση και Apache Spark
13. Συστήματα NoSQL για αποθήκευση δεδομένων μεγάλης κλίμακαςΒοηθήματα 1. Επιλογές Συγγραμμάτων:
- Εξόρυξη από Μεγάλα Σύνολα Δεδομένων - 3η Έκδοση, Anand Rajaraman, Jeffrey David Ullman, Jure Leskovec
- Εισαγωγή στην εξόρυξη δεδομένων, 2η Έκδοση, Tan Pang - Ning,Steinbach Michael,Kumar Vipin, Βερύκιος Βασίλειος (επιμέλεια)
- Εξόρυξη γνώσης από βάσεις δεδομένων και τον παγκόσμιο ιστό, Βαζιργιάννης Μιχάλης, Χαλκίδη Μαρία
- Εξορυξη Και Αναλυση Δεδομενων: Βασικες Εννοιες Και Αλγοριθμοι, Mohammed J. Zaki, Wagner Meira Jr.
2.Σημειώσεις και διαφάνειες από τον διδάσκοντα
Τρόποι αξιολόγησης / εξέτασης Η αξιολόγηση των φοιτητών θα γίνει ως εξής:
- 50% Εργασίες με εξέταση (2x25%)
- 50% Τελική εξέταση (απαιτούνται εργασίες για τη συμμετοχή)