Μηχανική μάθηση 101: εποπτευόμενη, χωρίς επίβλεψη, ενίσχυση και πέρα από
Η μηχανική μάθηση είναι ένα ουσιαστικό μέρος του να είσαι α Επιστήμονας Δεδομένων . Με απλούστερους όρους, η μηχανική μάθηση χρησιμοποιείαλγόριθμους για να ανακαλύψετε μοτίβα και να κάνετε προβλέψεις.Είναι μια από τις πιο δημοφιλείς μεθόδους που χρησιμοποιούνται για την επεξεργασία μεγάλων ποσοτήτων ακατέργαστων δεδομένων και θα αυξηθεί μόνο σε δημοτικότητα καθώς περισσότερες εταιρείες προσπαθούν να λάβουν αποφάσεις βάσει δεδομένων.
Μηχανική μάθηση περιλαμβάνει ένα τεράστιο σύνολο ιδεών, εργαλείων και τεχνικών που χρησιμοποιούν οι Επιστήμονες Δεδομένων και άλλοι επαγγελματίες. έχουμε εξηγήσει αυτές οι έννοιες ευρύτερα , αλλά αυτή τη φορά, ας ρίξουμε μια ματιάσε ορισμένα από τα συγκεκριμένα εξαρτήματα καιπώς μπορούν να χρησιμοποιηθούν για την επίλυση προβλημάτων.
Εποπτευόμενη Μηχανική Εκμάθηση
Οι πιο απλές εργασίες εμπίπτουν στην ομπρέλα του εποπτευόμενη μάθηση .
Στην εποπτευόμενη μάθηση, έχουμε πρόσβαση σε παραδείγματα σωστών ζευγών εισόδου-εξόδου που μπορούμε να δείξουμε στο μηχάνημα κατά τη διάρκεια της φάσης εκπαίδευσης. Το κοινό παράδειγμα αναγνώρισης χειρογράφου προσεγγίζεται συνήθως ως μια εποπτευόμενη μαθησιακή εργασία. Δείχνουμε στον υπολογιστή μια σειρά από εικόνες χειρόγραφων ψηφίων μαζί με τις σωστές ετικέτες για αυτά τα ψηφία και ο υπολογιστής μαθαίνει τα μοτίβα που συσχετίζουν τις εικόνες με τις ετικέτες τους.
Η εκμάθηση του τρόπου εκτέλεσης εργασιών με αυτόν τον τρόπο, με ρητό παράδειγμα, είναι σχετικά εύκολη στην κατανόηση και απλή στην εφαρμογή, αλλά υπάρχει μια κρίσιμη εργασία: Μπορούμε να το κάνουμε μόνο εάν έχουμε πρόσβαση σε ένα σύνολο δεδομένων σωστών ζευγών εισόδου-εξόδου. Στο παράδειγμα γραφής, αυτό σημαίνει ότι κάποια στιγμή πρέπει να στείλουμε έναν άνθρωπο για να ταξινομήσει τις εικόνες στο σετ εκπαίδευσης. Αυτή είναι επίπονη εργασία και συχνά ανέφικτη, αλλά όπου υπάρχουν τα δεδομένα, οι εποπτευόμενοι αλγόριθμοι μάθησης μπορούν να είναι εξαιρετικά αποτελεσματικοί σε ένα ευρύ φάσμα εργασιών.
Παλινδρόμηση και Ταξινόμηση
Οι εποπτευόμενες εργασίες μηχανικής εκμάθησης μπορούν να ταξινομηθούν ευρέως σε δύο υποομάδες: οπισθοδρόμηση και ταξινόμηση . Η παλινδρόμηση είναι το πρόβλημα της εκτίμησης ή της πρόβλεψης μιας συνεχούς ποσότητας. Ποια θα είναι η αξία του S&P 500 σε ένα μήνα από σήμερα; Πόσο ύψος θα είναι ένα παιδί ως ενήλικας; Πόσοι από τους πελάτες μας θα φύγουν για έναν ανταγωνιστή φέτος; Αυτά είναι παραδείγματα ερωτήσεων που θα έπεφταν κάτω από την ομπρέλα της παλινδρόμησης. Για να λύσουμε αυτά τα προβλήματα σε ένα πλαίσιο εποπτευόμενης μηχανικής μάθησης, θα συγκεντρώναμε παλαιότερα παραδείγματα ζευγών εισόδου/εξόδου σωστών απαντήσεων που αντιμετωπίζουν το ίδιο πρόβλημα. Για τις εισροές, θα προσδιορίζαμε χαρακτηριστικά που πιστεύουμε ότι θα ήταν προγνωστικά για τα αποτελέσματα που θέλουμε να προβλέψουμε.
Για το πρώτο πρόβλημα, μπορεί να προσπαθήσουμε να συγκεντρώσουμε ως χαρακτηριστικά τις ιστορικές τιμές των μετοχών κάτω από τον S&P 500 σε συγκεκριμένες ημερομηνίες μαζί με την αξία του S&P 500 ένα μήνα αργότερα. Αυτό θα αποτελούσε το εκπαιδευτικό μας σύνολο, από το οποίο το μηχάνημα θα προσπαθούσε να προσδιορίσει κάποια λειτουργική σχέση μεταξύ των χαρακτηριστικών και των τελικών τιμών S&P 500.
Ταξινόμηση ασχολείται με την αντιστοίχιση των παρατηρήσεων σε διακριτές κατηγορίες, αντί για την εκτίμηση συνεχών ποσοτήτων. Στην απλούστερη περίπτωση, υπάρχουν δύο πιθανές κατηγορίες. αυτή η περίπτωση είναι γνωστή ως δυαδική ταξινόμηση . Πολλά σημαντικά ερωτήματα μπορούν να πλαισιωθούν με όρους δυαδικής ταξινόμησης. Θα μας αφήσει ένας συγκεκριμένος πελάτης για έναν ανταγωνιστή; Έχει καρκίνο ένας συγκεκριμένος ασθενής; Μια δεδομένη εικόνα περιέχει χοτ-ντογκ; Οι αλγόριθμοι για την εκτέλεση δυαδικής ταξινόμησης είναι ιδιαίτερα σημαντικοί επειδή πολλοί από τους αλγόριθμους για την εκτέλεση του γενικότερου είδους ταξινόμησης όπου υπάρχουν αυθαίρετες ετικέτες είναι απλώς μια δέσμη δυαδικών ταξινομητών που συνεργάζονται. Για παράδειγμα, μια απλή λύση στο πρόβλημα της αναγνώρισης χειρογράφου είναι να εκπαιδεύσετε απλώς μια δέσμη δυαδικών ταξινομητών: έναν ανιχνευτή 0, έναν ανιχνευτή 1, έναν ανιχνευτή 2 κ.λπ., οι οποίοι εξάγουν τη βεβαιότητά τους ότι η εικόνα είναι δική τους αντίστοιχο ψηφίο. Ο ταξινομητής απλώς εξάγει το ψηφίο του οποίου ο ταξινομητής έχει την υψηλότερη βεβαιότητα.
Από την άλλη πλευρά, υπάρχει μια εντελώς διαφορετική κατηγορία εργασιών που αναφέρονται ως μάθηση χωρίς επίβλεψη . Οι εποπτευόμενες μαθησιακές εργασίες βρίσκουν μοτίβα από τα οποία έχουμε ένα σύνολο δεδομένων σωστών απαντήσεων για να μάθουμε. Οι μη εποπτευόμενες μαθησιακές εργασίες βρίσκουν μοτίβα όπου εμείς δεν βρίσκουμε. Αυτό μπορεί να οφείλεται στο ότι οι σωστές απαντήσεις είναι μη παρατηρήσιμες ή αδύνατες να ληφθούν, ή ίσως για ένα δεδομένο πρόβλημα, δεν υπάρχει καν μια σωστή απάντηση αυτή καθαυτή.
Ομαδοποίηση και Δημιουργική Μοντελοποίηση
Μια μεγάλη υποκατηγορία εργασιών χωρίς επίβλεψη είναι το πρόβλημα ομαδοποίηση . Η ομαδοποίηση αναφέρεται στην ομαδοποίηση των παρατηρήσεων μαζί με τέτοιο τρόπο ώστε τα μέλη μιας κοινής ομάδας να είναι παρόμοια μεταξύ τους και διαφορετικά από τα μέλη άλλων ομάδων. Μια κοινή εφαρμογή εδώ είναι στο μάρκετινγκ, όπου θέλουμε να εντοπίσουμε τμήματα πελατών ή υποψήφιους πελάτες με παρόμοιες προτιμήσεις ή αγοραστικές συνήθειες. Μια σημαντική πρόκληση στην ομαδοποίηση είναι ότι είναι συχνά δύσκολο ή αδύνατο να γνωρίζουμε πόσες συστάδες θα πρέπει να υπάρχουν ή πώς πρέπει να φαίνονται οι συστάδες.

Μια πολύ ενδιαφέρουσα κατηγορία εργασιών χωρίς επίβλεψη είναι γενετική μοντελοποίηση . Τα παραγωγικά μοντέλα είναι μοντέλα που μιμούνται τη διαδικασία που δημιουργεί τα δεδομένα εκπαίδευσης. Ένα καλό μοντέλο παραγωγής θα μπορούσε να δημιουργήσει νέα δεδομένα που μοιάζουν με τα δεδομένα εκπαίδευσης κατά κάποιο τρόπο. Αυτός ο τύπος μάθησης είναι χωρίς επίβλεψη επειδή το επεξεργάζομαι, διαδικασία που δημιουργεί τα δεδομένα δεν είναι άμεσα παρατηρήσιμα – μόνο τα ίδια τα δεδομένα είναι παρατηρήσιμα.
Οι πρόσφατες εξελίξεις σε αυτόν τον τομέα οδήγησαν σε εκπληκτικές και περιστασιακά τρομακτικές προόδους στη δημιουργία εικόνων. Η εικόνα εδώ δημιουργείται εκπαιδεύοντας ένα είδος μοντέλου μάθησης χωρίς επίβλεψη που ονομάζεται μοντέλο Deep Convolutional Generalized Adversarial Network για τη δημιουργία εικόνων προσώπων και ζητώντας του εικόνες ενός χαμογελαστού άνδρα.
Ενισχυτική μάθηση, υβρίδια και άλλα
Ένας νεότερος τύπος μαθησιακού προβλήματος που έχει αποκτήσει μεγάλη έλξη πρόσφατα ονομάζεται ενισχυτική μάθηση . Στην ενισχυτική μάθηση, δεν παρέχουμε στη μηχανή παραδείγματα σωστών ζευγών εισόδου-εξόδου, αλλά παρέχουμε μια μέθοδο για τη μηχανή να ποσοτικοποιήσει την απόδοσή της με τη μορφή σήμα ανταμοιβής . Οι μέθοδοι ενίσχυσης μάθησης μοιάζουν με το πώς μαθαίνουν άνθρωποι και ζώα: το μηχάνημα δοκιμάζει πολλά διαφορετικά πράγματα και ανταμείβεται όταν κάνει κάτι καλά.
Η ενισχυτική μάθηση είναι χρήσιμη σε περιπτώσεις όπου ο χώρος λύσης είναι τεράστιος ή άπειρος και συνήθως εφαρμόζεται σε περιπτώσεις όπου η μηχανή μπορεί να θεωρηθεί ως ένας παράγοντας που αλληλεπιδρά με το περιβάλλον της. Μία από τις πρώτες μεγάλες ιστορίες επιτυχίας για αυτό το είδος μοντέλου ήταν από μια μικρή ομάδα πουεκπαίδευσε ένα μοντέλο ενισχυτικής μάθησης για να παίζει βιντεοπαιχνίδια Atari χρησιμοποιώντας μόνο την έξοδο pixel από το παιχνίδι ως είσοδο. Το μοντέλο κατάφερε τελικά να ξεπεράσει τους ανθρώπινους παίκτες σε τρία από τα παιχνίδια και την εταιρεία που δημιούργησε το μοντέλοεξαγοράστηκε από την Google για πάνω από 500 εκατομμύρια δολάριαλίγο μετά.
Για να εφαρμόσουμε την εποπτευόμενη εκμάθηση στο πρόβλημα της αναπαραγωγής βιντεοπαιχνιδιών Atari, θα χρειαζόμασταν ένα σύνολο δεδομένων που περιέχει εκατομμύρια ή δισεκατομμύρια παραδείγματα παιχνιδιών που παίζονται από πραγματικούς ανθρώπους για να μάθει το μηχάνημα. Αντίθετα, η ενισχυτική μάθηση λειτουργεί δίνοντας στη μηχανή μια ανταμοιβή ανάλογα με το πόσο καλά αποδίδει στο έργο της. Τα απλά βιντεοπαιχνίδια είναι κατάλληλα για αυτόν τον τύπο εργασίας, καθώς το σκορ λειτουργεί καλά ως ανταμοιβή. Το μηχάνημα προχωρά να μαθαίνει μέσω προσομοίωσης ποια μοτίβα μεγιστοποιούν την ανταμοιβή του.
Συχνά, οι υβριδικές προσεγγίσεις οδηγούν σε καλά αποτελέσματα. Για παράδειγμα, ένα σημαντικό καθήκον σε ορισμένους τομείς είναι το καθήκον του ανίχνευση ανωμαλίας . Ένας αλγόριθμος ανίχνευσης ανωμαλιών παρακολουθεί κάποιο σήμα και υποδεικνύει πότε κάτι Περίεργο συμβαίνει. Ένα καλό παράδειγμα είναι η ανίχνευση απάτης. Θέλουμε έναν αλγόριθμο που παρακολουθεί μια ροή συναλλαγών με πιστωτικές κάρτες και επισημαίνει περίεργες. Τι σημαίνει όμως παράξενο; Αυτό το πρόβλημα είναι κατάλληλο για ένα είδος υβριδικής εποπτευόμενης/μη εποπτευόμενης προσέγγισης. Υπάρχουν σίγουρα κάποια γνωστά μοτίβα που θα θέλαμε να μπορεί να ανιχνεύσει ο αλγόριθμος και μπορούμε να εκπαιδεύσουμε ένα μοντέλο εποπτευόμενης μάθησης δείχνοντάς του παραδείγματα των γνωστών μοτίβων απάτης. Θέλουμε όμως επίσης να μπορούμε να ανιχνεύουμε προηγουμένως άγνωστα παραδείγματα πιθανής απάτης ή άλλως μη φυσιολογικής δραστηριότητας, η οποία μπορεί να επιτευχθεί με μεθόδους μάθησης χωρίς επίβλεψη.
Τα βασικά της μηχανικής μάθησης μπορούν να έχουν μεγάλο αντίκτυπο
Πολλά από τα πιο προηγμένα εργαλεία απαιτούν μεγάλη περίπλοκη γνώση, σε προηγμένα μαθηματικά, στατιστικές και μηχανική λογισμικού. Για έναν αρχάριο που θέλει να ξεκινήσει, μπορεί να φαίνεται συντριπτικό, ειδικά αν θέλετε να εργαστείτε με μερικά από τα συναρπαστικά νέα μοντέλα.
Τα καλά νέα είναι ότι μπορείτε να κάνετε πολλά με τα βασικά, τα οποία είναι ευρέως προσβάσιμα. Μια ποικιλία εποπτευόμενων και μη εποπτευόμενων μοντέλων εκμάθησης υλοποιούνται σε R και Python, τα οποία είναι ελεύθερα διαθέσιμα και απλά για εγκατάσταση στον δικό σας υπολογιστή, ενώ ακόμη και απλά μοντέλα όπως η γραμμική ή η λογιστική παλινδρόμηση μπορούν να χρησιμοποιηθούν για την εκτέλεση ενδιαφέρουσες και σημαντικές εργασίες μηχανικής μάθησης.
Ρίξτε μια ματιά στο δικό μας Μάθημα Machine Learning Certificate για να μάθετε τα βασικά και να ξεκινήσετε. Αν θέλετε περισσότερα, κάντε αίτηση τώρα στο BrainStation's Πρόγραμμα Data Science Diploma.