Γλώσσα σεμιναρίου: ελληνικά
Ομάδα-στόχος: Το σεμινάριο απευθύνεται κατά κύριο λόγο σε μηχανικούς τεχνητής νοημοσύνης/μηχανικής μάθησης, επιστήμονες δεδομένων και μηχανικούς υπολογιστικής υψηλών επιδόσεων, οι οποίοι εργάζονται σε κλάδους που αξιοποιούν την υπερυπολογιστική για μοντελοποίηση και προσομοιώσεις μεγάλης κλίμακας. Σε αυτούς περιλαμβάνονται επαγγελματίες στους τομείς της τεχνολογίας, της χρηματοοικονομικής και της έρευνας, οι οποίοι επιδιώκουν τη βελτιστοποίηση της απόδοσης και την πρόσβαση σε προηγμένες ευρωπαϊκές υποδομές. Επιπλέον το σεμινάριο απευθύνεται σε προγραμματιστές λογισμικού που στοχεύουν στην ανάπτυξη και προσαρμογή μεγάλων γλωσσικών μοντέλων επόμενης γενιάς, όπως λ.χ. μοντέλα για εξειδικευμένα γλωσσικά πεδία.
Το σεμινάριο θα διεξαχθεί διαδικτυακά μέσω Zoom. Οι συμμετέχοντες θα λάβουν τον αντίστοιχο σύνδεσμο με την εγγραφή τους.
Περιγραφή:
- Εισαγωγή στην υπολογιστική υψηλών επιδόσεων: Θα αναλύσουμε τα βασικά συστατικά στοιχεία ενός συστήματος υπολογιστικής υψηλών επιδόσεων, συμπεριλαμβανομένου του ρόλου των κεντρικών μονάδων επεξεργασίας, των μονάδων επεξεργασίας γραφικών και των κόμβων σε περιβάλλοντα παράλληλων υπολογισμών. Επιπλέον θα εξετάσουμε τον τρόπο με τον οποίο η υπολογιστική υψηλών επιδόσεων επιταχύνει την Τεχνητή Νοημοσύνη, ιδίως μέσω παράλληλης στοχαστικής βαθμιδωτής κατάβασης, και θα ολοκληρώσουμε με επισκόπηση του καταλόγου των 500 κορυφαίων, όπως και του ευρωπαϊκού οικοσυστήματος υπερυπολογιστικής.
- Προετοιμασία πρότασης για πρόσβαση σε ελληνικές και ευρωπαϊκές συστοιχίες υπολογιστών υψηλών επιδόσεων: Θα εξετάσουμε τις προσκλήσεις πρόσβασης της ελληνικής και ευρωπαϊκής κοινής επιχείρησης για την υπολογιστική υψηλών επιδόσεων, όπως και τις βασικές παραμέτρους για μια επιτυχημένη αίτηση. Θα καλύψουμε τις ειδικές ανάγκες σε πόρους, όπως και τα κριτήρια αξιολόγησης.
- Εισαγωγή στα μεγάλα γλωσσικά μοντέλα: Θα παρουσιάσουμε τις βασικές αρχές των μεγάλων γλωσσικών μοντέλων, με έμφαση στα συστατικά στοιχεία που συνθέτουν την αρχιτεκτονική τους, συμπεριλαμβανομένης της τοκενικοποίησης δεδομένων, των μηχανισμών προσοχής και άλλων γενικών επιλογών αρχιτεκτονικής. Στη συνέχεια θα προχωρήσουμε στις λεπτομέρειες εκπαίδευσης και στους στόχους της, καθώς και σε τεχνικές για την αντιμετώπιση της υπερπροσαρμογής.
- Ανάπτυξη των ελληνικών μεγάλων γλωσσικών μοντέλων Meltemiκαι Krikri: Θα κάνουμε μια δυναμική επισκόπηση των ελληνικών μεγάλων γλωσσικών μοντέλων Meltemi και Krikri, με έμφαση στις επιλογές συνόλων δεδομένων, στις μεθόδους εκπαίδευσης και προσαρμογής, όπως και στις προσεγγίσεις αξιολόγησής τους. Ο στόχος μας στη συγκεκριμένη ενότητα είναι να προσφέρουμε μια ολοκληρωμένη πρώτη εικόνα του τεχνολογικού υποβάθρου των ελληνικών μεγάλων γλωσσικών μοντέλων, θέτοντας τις βάσεις για τη μελλοντική τους εξέλιξη και προετοιμάζοντας το έδαφος για τα θέματα, τα οποία θα παρουσιάσουμε στα επόμενα εκπαιδευτικά προγράμματα του PHAROS AI.
- Προσαρμογή μεγάλων γλωσσικών μοντέλων σε μία μονάδα επεξεργασίας γραφικών (πρακτικό σεμινάριο): Στην ενότητα αυτή θα εστιάσουμε στις πρακτικές πτυχές της προσαρμογής μεγάλων γλωσσικών μοντέλων με τη χρήση της υψηλού επιπέδου διεπαφής προγραμματισμού εφαρμογών HuggingFace Trainer. Θα παρουσιάσουμε αναλυτικά τη διαδικασία προσαρμογής του μοντέλου Llama2-1B-Instruct για μια εξειδικευμένη εργασία με τη χρήση συνόλων δεδομένων της Hugging Face. Κεντρικός στόχος της ενότητας είναι η επίδειξη αποτελεσματικής διαχείρισης του βρόχου εκπαίδευσης και η ανάλυση της βελτίωσης στην επίδοση μεταξύ του μοντέλου βάσης και του προσαρμοσμένου μοντέλου.
- Κλιμάκωση μεγάλων γλωσσικών μοντέλων: Μετά από την εισαγωγή στα μεγάλα γλωσσικά μοντέλα θα προχωρήσουμε με τις λεπτομέρειες της εκτέλεσής τους, συμπεριλαμβανομένων των διάφορων στρατηγικών δειγματοληψίας που χρησιμοποιούνται στην πράξη και του τρόπου με τον οποίο τα μεγάλα γλωσσικά μοντέλα είναι δυνατόν να αξιοποιηθούν. Θα ολοκληρώσουμε την ενότητα με την παρουσίαση των αναδυόμενων ικανοτήτων των μεγάλων γλωσσικών μοντέλων, δηλαδή δεξιοτήτων παρόμοιων με τις ανθρώπινες που τα μεγάλα γλωσσικά μοντέλα αποκτούν έμμεσα σε μεγάλη κλίμακα και οι οποίες δικαιολογούν την ανάγκη για πόρους υπολογιστικής υψηλών επιδόσεων για αποτελεσματική εκτέλεση των μοντέλων.
- Προσαρμογή μεγάλων γλωσσικών μοντέλων σε κόμβο με πολλαπλές μονάδες επεξεργασίας γραφικών (παρουσίαση κώδικα): Στην ενότητα αυτή θα αναλύσουμε μια κατανεμημένη ροή εργασίας για την προσαρμογή μεγάλων γλωσσικών μοντέλων με χρήση του HuggingFace Trainer και του torch.distributed.run. Θα επικεντρωθούμε στην προσαρμογή ενός μοντέλου Llama2-1B-Instruct μέσω τοκενικοποίησης ενός προσαρμοσμένου σώματος κειμένων σε απλή γλώσσα σήμανσης για αιτιακή μοντελοποίηση γλώσσας. Θα ρυθμίσουμε το περιβάλλον πολλαπλών μονάδων επεξεργασίας γραφικών με τη χρήση διαχειριστή φόρτου εργασίας Slurm και θα παρουσιάσουμε τη διαφορά απόδοσης μεταξύ του μοντέλου βάσης και του προσαρμοσμένου μοντέλου σε ερωτήσεις που αφορούν συγκεκριμένους τομείς.
Μαθησιακοί στόχοι:
- Εισαγωγή στις θεμελιώδεις έννοιες της υπολογιστικής υψηλών επιδόσεων, συμπεριλαμβανομένων των υλικών συστατικών στοιχείων και του ρόλου της στην επιτάχυνση της Τεχνητής Νοημοσύνης μέσω της παράλληλης στοχαστικής βαθμιδωτής κατάβασης.
- Κατανόηση της διαδικασίας υποβολής αίτησης για πρόσβαση σε ελληνικούς και ευρωπαϊκούς πόρους υπολογιστικής υψηλών επιδόσεων.
- Διερεύνηση του τεχνολογικού υποβάθρου και της διαδικασίας ανάπτυξης των ελληνικών μεγάλων γλωσσικών μοντέλων, ιδίως των μοντέλων Meltemiκαι Krikri.
- Απόκτηση πρακτικής εμπειρίας στην αποδοτική προσαρμογή μεγάλων γλωσσικών μοντέλων σε περιβάλλοντα με μία ή πολλαπλές μονάδες επεξεργασίας γραφικών με τη χρήση εργαλείων όπως η διεπαφή προγραμματισμού εφαρμογών HuggingFace Trainer και το torch.distributed.run.
Προσδοκώμενα μαθησιακά αποτελέσματα:
Μετά την παρακολούθηση του σεμιναρίου οι συμμετέχοντες θα είναι σε θέση να:
- Αναγνωρίζουν τα βασικά συστατικά στοιχεία ενός συστήματος υπολογιστικής υψηλών επιδόσεων (κεντρικές μονάδες επεξεργασίας, μονάδες επεξεργασίας γραφικών, κόμβοι) και να εξηγούν τον τρόπο με τον οποίο αυτά υποστηρίζουν τον παράλληλο υπολογισμό, ιδίως σε φόρτους εργασίας Τεχνητής Νοημοσύνης (π.χ. παράλληλη στοχαστική βαθμιδωτή κατάβαση).
- Κατανοούν τη δομή και τα βασικά στοιχεία που απαιτούνται για μια επιτυχημένη πρόταση πρόσβασης σε συστοιχίες ελληνικών και ευρωπαϊκών υπολογιστών υψηλών επιδόσεων.
- Περιγράφουν τη ροή ανάπτυξης, συμπεριλαμβανομένων των επιλογών συνόλων δεδομένων, των διαδικασιών εκπαίδευσης και προσαρμογής, όπως και των μεθόδων αξιολόγησης για τα ελληνικά μεγάλα γλωσσικά μοντέλα (Meltemiκαι Krikri).
- Διαχειρίζονται τη διεπαφή προγραμματισμού εφαρμογών HuggingFace Trainer για την προσαρμογή ενός μοντέλου Llama2-1B-Instruct σε εξειδικευμένο σύνολο δεδομένων με τη χρήση μιας μονάδας επεξεργασίας γραφικών.
- Εφαρμόζουν μια κατανεμημένη ροή εργασίας για την προσαρμογή μεγάλων γλωσσικών μοντέλων σε περιβάλλον κόμβου με πολλαπλές μονάδες επεξεργασίας γραφικών με τη χρήση του Slurmκαι του torch.distributed.run και να αξιολογούν τα οφέλη απόδοσης.