LLAMA 2: AI ανοικτού κώδικα από το META

Αναβαθμίστε τις ικανότητές σας στην τεχνητή νοημοσύνη με το LLAMA 2! Το εύχρηστο πλαίσιο κάνει την AI διαθέσιμη σε όλους. Δημιουργήστε, μάθετε, εξερευνήστε τις δυνατότητες.

Alessandro Rossi S

2/20/20241 λεπτά ανάγνωσης

The image should be a llama torso, cyberpunk style, electric blue and black colours

Το Llama 2 είναι μια οικογένεια προ-εκπαιδευμένων και ρυθμισμένων μεγάλων γλωσσικών μοντέλων (LLM) που κυκλοφόρησε από την Meta AI το 2023.

Τα μοντέλα τεχνητής νοημοσύνης Llama 2 που κυκλοφορούν δωρεάν για ερευνητική και εμπορική χρήση, είναι ικανά για μια ποικιλία εργασιών επεξεργασίας φυσικής γλώσσας (NLP), από την παραγωγή κειμένου έως τον προγραμματισμό κώδικα.

Η οικογένεια μοντέλων Llama 2, η οποία προσφέρεται τόσο ως βασικό μοντέλο βάσης όσο και ως βελτιωμένο μοντέλο "συνομιλίας", αποτελεί τον διάδοχο των αρχικών μοντέλων LLaMa 1, τα οποία κυκλοφόρησαν το 2022 με μη εμπορική άδεια χρήσης που παρέχει πρόσβαση κατά περίπτωση αποκλειστικά σε ερευνητικά ιδρύματα.

Σε αντίθεση με τους προκατόχους τους, τα μοντέλα Llama 2 διατίθενται δωρεάν τόσο για την έρευνα ΤΝ όσο και για εμπορική χρήση.

Πώς Λειτουργεί το Llama 2

Τα βασικά μοντέλα του Llama 2 είναι προ-εκπαιδευμένα θεμελιώδη μοντέλα που προορίζονται για λεπτομερή ρύθμιση για συγκεκριμένες περιπτώσεις χρήσης, ενώ τα μοντέλα συνομιλίας του Llama 2 είναι ήδη βελτιστοποιημένα για διάλογο.

Σε ένα βασικό επίπεδο, τα μοντέλα της ίδρυσης δεν έχουν προ-εκπαιδευτεί για να απαντούν πραγματικά σε μια προτροπή: προσθέτουν κείμενο σε αυτήν με γραμματικά συνεκτικό τρόπο. Απαιτείται περισσότερη βελτίωση, μέσω τεχνικών όπως η μάθηση με επίβλεψη και η ενισχυτική μάθηση, για την εκπαίδευση ενός βασικού μοντέλου για μια συγκεκριμένη εφαρμογή, όπως ο διάλογος, η παρακολούθηση οδηγιών ή η δημιουργική γραφή.

Τα μοντέλα Llama-2-chat είναι ρυθμισμένα για περιπτώσεις χρήσης με βάση το διάλογο, παρόμοια με τις ειδικές εκδόσεις μοντέλων GPT που χρησιμοποιούνται στο ChatGPT.

LLama 2 vs. LLaMa 1

Η ερευνητική εργασία του Llama 2 αναδεικνύει αρκετά πλεονεκτήματα που προσφέρει η νέα γενιά μοντέλων τεχνητής νοημοσύνης (AI) σε σύγκριση με τα αρχικά μοντέλα LLaMa:

Μεγαλύτερο μήκος περιβάλλοντος: Τα μοντέλα Llama 2 διαθέτουν μήκος περιβάλλοντος 4.096 tokens, διπλάσιο από το LLaMa 1. Το μήκος περιβάλλοντος (ή παράθυρο περιβάλλοντος) αναφέρεται στον μέγιστο αριθμό tokens που μπορεί να "θυμηθεί" το μοντέλο κατά την εξαγωγή συμπερασμάτων (δηλαδή, τη δημιουργία κειμένου ή μιας συνεχούς συζήτησης). Αυτό επιτρέπει μεγαλύτερη πολυπλοκότητα και μια πιο συνεκτική, ευχάριστη ανταλλαγή φυσικής γλώσσας.
Μεγαλύτερη προσβασιμότητα: Ενώ το LLaMa 1 κυκλοφόρησε αποκλειστικά για ερευνητικούς σκοπούς, το Llama 2 είναι διαθέσιμο σε οποιονδήποτε οργανισμό (με λιγότερους από 700 εκατομμύρια ενεργούς χρήστες).

Πιο στιβαρή εκπαίδευση: Το Llama 2 έχει εκπαιδευτεί σε 40% περισσότερα δεδομένα, αυξάνοντας τη βάση γνώσεων και την περιεκτική του κατανόηση.Επιπλέον, σε αντίθεση με το LLaMa 1, τα μοντέλα συνομιλίας του Llama 2 έχουν ρυθμιστεί με λεπτομέρεια χρησιμοποιώντας ενισχυμένη μάθηση από ανθρώπινη ανατροφοδότηση (RLHF), συμβάλλοντας στην καλύτερη ευθυγράμμιση των απαντήσεων του μοντέλου με τις ανθρώπινες προσδοκίες.

LLMs benchmarks, lllama1 and lllama2, 2024

Πώς να Δοκιμάσετε το LLAMA 2

Το Llama 2 δεν διαθέτει το δικό του ειδικό API, αλλά είναι προσβάσιμο μέσω πολλών παρόχων. Το Llama-2-13B-chat και το Llama-2-70B-chat είναι ένα από τα πολλά μοντέλα ιδρύματος που είναι διαθέσιμα στο watsonx, μέσω της συνεργασίας της IBM με την Hugging Face.

Τα βάρη των μοντέλων και ο αρχικός κώδικας για το Llama 2 μπορούν να μεταφορτωθούν απευθείας από το Github, όπου η Meta παρέχει επίσης οδηγίες, demo και "συνταγές" για το Llama 2. Τα μοντέλα μπορούν να υλοποιηθούν σε πλαίσια μηχανικής μάθησης ανοικτού κώδικα όπως το PyTorch ή το LangChain.

Το Llama 2 είναι επίσης διαθέσιμο τόσο μέσω παρόχων ανοικτού κώδικα, όπως το Hugging Face, όσο και μέσω εταιρικών παρόχων, όπως το Microsoft Azure και οι Amazon Sagemaker και Bedrock, εκτός από μια σειρά νεοσύστατων επιχειρήσεων που βασίζονται στο cloud.

LLama 2 vs. ChatGPT

Σε σχέση με τους ανταγωνιστές του κλειστού κώδικα, τα μοντέλα Llama 2 υπερέχουν σε τομείς όπως η ασφάλεια και η ακρίβεια των γεγονότων. Αν και το Llama 2 μπορεί να μην έχει τις πλήρεις δυνατότητες πολύ μεγαλύτερων μοντέλων, η ανοικτή διαθεσιμότητα και η μεγαλύτερη αποδοτικότητά του παρουσιάζουν μοναδικά πλεονεκτήματα.

Συγκρίνοντας το Llama 2 με τα εμβληματικά ιδιόκτητα μοντέλα των ανταγωνιστών, όπως το OpenAI, το Anthropic και η Google Gemini, είναι σημαντικό να εξετάσουμε την κλιμάκωση.

Αν και τα μοντέλα κλειστού κώδικα δεν αποκαλύπτουν πάντα τις πλήρεις λεπτομέρειες της αρχιτεκτονικής τους, οι διαθέσιμες πληροφορίες υποδηλώνουν έντονα ότι όλα τους ξεπερνούν κατά πολύ τις 70 δισεκατομμύρια παραμέτρους του Llama 2:

LLMs paramaters comparison, llama2 and other models, 2024

Πηγές:

Meta AI. (2023). What is Llama 2? https://www.ibm.com/topics/llama-2.