Οι προγραμματιστές της γενετικής τεχνητής νοημοσύνης (Gen AI) πιέζουν συνεχώς τα όρια του δυνατού, όπως το Gemini 1.5 της Google, το οποίο μπορεί ταυτόχρονα να επεξεργαστεί ένα εκατομμύριο διακριτικά πληροφοριών.
Ωστόσο, ακόμη και αυτό το επίπεδο ανάπτυξης δεν είναι αρκετό για να επιτευχθεί πραγματική πρόοδος στον τομέα της τεχνητής νοημοσύνης, υποστηρίζουν οι ανταγωνιστές που ανταγωνίζονται την Google.
Επίσης: 3 τρόποι που το Meta’s Llama 3.1 είναι ένα βήμα προς τα πάνω για τη Gen AI
«Πρέπει να σκεφτόμαστε πέρα από ένα LL.M.», είπε ο Yoav Shoham, συνιδρυτής και συνδιευθυντής των εργαστηρίων AI21, σε συνέντευξή του στο ZDNET.
Η AI21 Labs, μια ιδιωτική startup, ανταγωνίζεται την Google στον τομέα των LLMs, μεγάλων μοντέλων γλώσσας που αποτελούν τη βάση της Gen AI. Ο Shoham, ο οποίος ήταν κάποτε ο επικεφαλής επιστήμονας της Google, είναι επίσης ομότιμος καθηγητής στο Πανεπιστήμιο του Στάνφορντ.
Επίσης: Το AI21 και το Databricks αποδεικνύουν ότι ο ανοιχτός κώδικας μπορεί να μειώσει ριζικά την τεχνητή νοημοσύνη
«Είναι καταπληκτικοί με τα αποτελέσματα που παράγουν, αλλά δεν ξέρουν πραγματικά τι κάνουν», είπε για το LLM. «Νομίζω ότι ακόμη και οι πιο ένθερμοι λάτρεις των νευρωνικών δικτύων δεν πιστεύουν ότι μπορείτε απλώς να δημιουργήσετε ένα μεγαλύτερο μοντέλο γλώσσας και θα λύσει τα πάντα».
Η εταιρεία του Shoham έχει πρωτοπορήσει σε νέες προσεγγίσεις στο Gen AI που ξεπερνούν τον παραδοσιακό πυρήνα “μετασχηματιστή” των περισσότερων LLM. Για παράδειγμα, τον Απρίλιο η εταιρεία έκανε το ντεμπούτο της ένα μοντέλο που ονομάζεται Jamba, έναν συναρπαστικό συνδυασμό μετασχηματιστών με ένα δεύτερο νευρωνικό δίκτυο που ονομάζεται μοντέλο διαστήματος κατάστασης (SSM).
Αυτός ο συνδυασμός επέτρεψε στον Jamba να ξεπεράσει σημαντικά τα άλλα μοντέλα τεχνητής νοημοσύνης.
Ο Shoham ζήτησε από το ZDNET μια λεπτομερή εξήγηση μιας σημαντικής μέτρησης: το μήκος περιβάλλοντος.
Το μήκος περιβάλλοντος είναι η ποσότητα εισόδου (σε διακριτικά, συνήθως λέξεις) που μπορεί να επεξεργαστεί το πρόγραμμα. Το Llama 3.1 της Meta προσφέρει 128.000 διακριτικά στο παράθυρο περιβάλλοντος. Το Jamba της AI21 Labs, επίσης λογισμικό ανοιχτού κώδικα, έχει διπλάσιο αυτό – ένα παράθυρο περιβάλλοντος 256.000 token.
Σε δοκιμές σύγκρισης χρησιμοποιώντας ένα σημείο αναφοράς που δημιουργήθηκε από τη Nvidia, ο Shoham είπε ότι το μοντέλο Jamba ήταν το μόνο μοντέλο εκτός από το Gemini που θα μπορούσε να υποστηρίξει αυτό το παράθυρο περιβάλλοντος 256K «στην πράξη». Το μήκος περιβάλλοντος μπορεί να δηλωθεί ως ένα μεμονωμένο πράγμα, αλλά μπορεί να καταρρεύσει καθώς το μοντέλο λαμβάνει χαμηλότερες βαθμολογίες καθώς αυξάνεται το μήκος περιβάλλοντος.
Επίσης: 3 τρόποι που το Meta’s Llama 3.1 είναι ένα βήμα προς τα πάνω για τη Gen AI
«Είμαστε οι μόνοι που έχουμε την αλήθεια στη διαφήμιση», είπε ο Shoham σχετικά με τη διάρκεια του πλαισίου. “Όλα τα άλλα μοντέλα υποβαθμίζονται καθώς αυξάνεται το μήκος του περιβάλλοντος.”
Το Gemini της Google δεν μπορεί να δοκιμαστεί πέραν των 128K, είπε ο Shoham, δεδομένων των περιορισμών που έχει θέσει η Google στη διεπαφή προγραμματισμού εφαρμογών Gemini. “Έχουν πραγματικά ένα ωραίο αποτελεσματικό παράθυρο περιβάλλοντος, τουλάχιστον στα 128K”, είπε.
Το Jamba είναι πιο αποδοτικό από το Gemini για το ίδιο παράθυρο 128K, είπε ο Shoham. «Είναι περίπου 10 φορές πιο ακριβά από εμάς», όσον αφορά το κόστος διατήρησης των προβλέψεων από τους Gemini σε σύγκριση με το Jamba, μια πρακτική συμπερασμάτων, είπε.
Όλα αυτά, τόνισε ο Shoham, είναι το αποτέλεσμα μιας «αρχιτεκτονικής» επιλογής να κάνουμε κάτι διαφορετικό συνδέοντας έναν μετασχηματιστή στο SSM. «Μπορείς να δείξεις ακριβώς πόσο [API] «Δεν πρόκειται μόνο για το κόστος και την καθυστέρηση, είναι ενσωματωμένο στην αρχιτεκτονική», είπε στο ZDNET.
Ο Shoham περιέγραψε τα αποτελέσματα της έρευνάς του στο blog του.
Ωστόσο, όλη αυτή η πρόοδος δεν έχει σημασία αν ο Τζάμπα δεν μπορεί να κάνει κάτι καλύτερο. Τα οφέλη ενός μεγάλου παραθύρου περιβάλλοντος γίνονται σαφή, είπε ο Shoham, καθώς ο κόσμος κινείται προς πράγματα όπως η επαυξημένη γενιά αναζήτησης (RAG), μια ολοένα και πιο δημοφιλής προσέγγιση για τη σύνδεση LLM σε μια εξωτερική πηγή πληροφοριών, όπως μια βάση δεδομένων.
Επίσης: Κάντε χώρο για το RAG: Πώς αλλάζει η ισορροπία δυνάμεων στη Gen AI
Ένα μεγάλο παράθυρο περιβάλλοντος επιτρέπει στο LLM να εξάγει και να ταξινομεί περισσότερες πληροφορίες από την πηγή RAG για να βρει την απάντηση.
«Στο τέλος της ημέρας, εξάγετε όσο περισσότερο μπορείτε [from the database]αλλά όχι πάρα πολύ», είναι η σωστή προσέγγιση στο RAG, είπε ο Shoham. “Μπορείτε τώρα να εξαγάγετε περισσότερα από πριν εάν έχετε ένα μακρύ παράθυρο περιβάλλοντος και το μοντέλο γλώσσας έχει πλέον περισσότερες πληροφορίες για να εργαστεί.”
Όταν ρωτήθηκε εάν υπήρχε πρακτικό παράδειγμα αυτών των προσπαθειών, ο Shoham είπε στο ZDNET: «Είναι πολύ νωρίς για να δείξουμε ένα λειτουργικό σύστημα. Μπορώ να πω ότι έχουμε αρκετούς πελάτες που ήταν απογοητευμένοι με τις λύσεις RAG και που τώρα εργάζονται μαζί μας. Και είμαι βέβαιος ότι θα μπορέσουμε να δείξουμε δημόσια τα αποτελέσματα, αλλά δεν είναι διαθέσιμα για αρκετό καιρό ακόμα».
Το Jamba, το οποίο έχει ληφθεί 180.000 φορές από τότε που δημοσιεύτηκε στο HuggingFace, είναι διαθέσιμο στην υπηρεσία εξόδου Bedrock του Amazon AWS και στο Microsoft Azure και “οι άνθρωποι κάνουν ενδιαφέροντα πράγματα με αυτό”, είπε ο Shoham.
Ωστόσο, ακόμη και ένα βελτιωμένο RAG δεν είναι τελικά καμία θεραπεία για τις διάφορες ελλείψεις του Gen AI, από παραισθήσεις έως τον κίνδυνο γενεών τεχνολογίας να μετατραπούν σε ανοησίες.
«Νομίζω ότι θα δούμε ανθρώπους να απαιτούν περισσότερα, να απαιτούν τα συστήματα να μην είναι γελοία, αλλά να έχουν κάτι που μοιάζει με πραγματική κατανόηση που δίνει σχεδόν τέλειες απαντήσεις», είπε ο Shoham, «και δεν θα είναι απλώς πτυχία Master of Law».
Επίσης: Προσοχή «κατάρρευση μοντέλου» της τεχνητής νοημοσύνης: Πώς η μάθηση σε συνθετικά δεδομένα μολύνει την επόμενη γενιά
Σε μια εργασία που δημοσιεύθηκε τον περασμένο μήνα στον προεκτυπωμένο διακομιστή arXiv με τον Kevin Leighton-Brown με συν-συγγραφέα με τίτλο “Understanding Comprehension: A Pragmatic Framework Motivated by Large Language Models”, ο Shoham έδειξε πώς, μέσω πολυάριθμων λειτουργιών όπως τα μαθηματικά και η επεξεργασία δεδομένων σε πίνακα , τα LLM παράγουν «συναρπαστικές εξηγήσεις που δεν αξίζουν το μεταφορικό χαρτί στο οποίο είναι γραμμένες».
«Δείξαμε πώς να κολλάμε αφελώς [an LLM] “Μέχρι τον πίνακα, αυτή η λειτουργία πίνακα θα είναι επιτυχής το 70% ή το 80% των περιπτώσεων”, είπε ο Shoham στο ZDNET. «Συχνά είναι πολύ ωραίο γιατί παίρνεις κάτι δωρεάν, αλλά αν είναι μια δουλειά κρίσιμης σημασίας για την αποστολή, δεν μπορείς να το κάνεις».
Σύμφωνα με τον Shoham, τέτοιες ελλείψεις σημαίνουν ότι «η όλη προσέγγιση για τη δημιουργία νοημοσύνης θα υποθέσει ότι τα LLM έχουν κάποιο ρόλο, αλλά αποτελούν μέρος ενός μεγαλύτερου συστήματος AI που προσφέρει κάτι που οι LLM δεν μπορούν να κάνουν».
Ανάμεσα στα πράγματα που χρειάζονται για να προχωρήσουμε πέρα από το LLM είναι διάφορα εργαλεία που έχουν εμφανιστεί τα τελευταία δύο χρόνια, είπε ο Shoham. Στοιχεία όπως οι κλήσεις συναρτήσεων επιτρέπουν στο LLM να αναθέτει μια εργασία σε άλλο λογισμικό που έχει κατασκευαστεί ειδικά για μια συγκεκριμένη εργασία.
«Αν θέλετε να κάνετε πρόσθεση, τα γλωσσικά μοντέλα το κάνουν, αλλά το κάνουν τρομερά», είπε ο Shoham. «Η Hewlett-Packard μας έδωσε την αριθμομηχανή το 1970, γιατί να εφεύρουμε ξανά τον τροχό; Αυτό είναι ένα παράδειγμα εργαλείου».
Η χρήση του LLM με εργαλεία ομαδοποιείται γενικά στη ρουμπρίκα των «σύνθετων συστημάτων AI» από τους Shoham et al. Με τη βοήθεια της εταιρείας διαχείρισης δεδομένων Databricks, η Shoham διοργάνωσε πρόσφατα ένα εργαστήριο σχετικά με τις προοπτικές κατασκευής τέτοιων συστημάτων.
Ένα παράδειγμα χρήσης τέτοιων εργαλείων είναι η παροχή στους LLMs με μια «σημασιολογική δομή» για δεδομένα πινάκων, είπε ο Shoham. «Τώρα λαμβάνετε σχεδόν 100 τοις εκατό ακρίβεια» από το LLM, είπε, «και αυτό είναι κάτι που δεν θα αποκτούσατε αν χρησιμοποιούσατε απλώς το μοντέλο γλώσσας χωρίς τα πρόσθετα πράγματα.
Πέρα από τα εργαλεία, ο Shoham υποστηρίζει την επιστημονική εξερεύνηση άλλων οδών πέρα από την καθαρή προσέγγιση βαθιάς μάθησης που κυριαρχεί στον τομέα της τεχνητής νοημοσύνης για περισσότερο από μια δεκαετία.
«Δεν αποκτάς αξιόπιστη συλλογιστική απλά κάνοντας backpropagation και ελπίζοντας για το καλύτερο», είπε ο Shoham, αναφερόμενος στην backpropagation, τον κανόνα μάθησης με τον οποίο εκπαιδεύονται οι περισσότερες σύγχρονες AI.
Επίσης: Το Anthropic Takes Tool Use for Claude Out of Beta, υποσχόμενοι εξελιγμένοι βοηθοί
Ο Shoham φρόντισε να αποφύγει να συζητήσει τις επόμενες πρωτοβουλίες προϊόντων. Ωστόσο, άφησε να εννοηθεί ότι αυτό που μπορεί να χρειαστεί αντιπροσωπεύεται -τουλάχιστον φιλοσοφικά- σε ένα σύστημα που παρουσίασε ο ίδιος και οι συνάδελφοί του το 2022 που ονομάζεται MRKL (Modular Reasoning, Knowledge, and Language).
Το άρθρο περιγράφει το σύστημα MRKL ως “νευρικό, συμπεριλαμβανομένου ενός μοντέλου μεγάλης γλώσσας γενικής χρήσης καθώς και άλλων μικρότερων εξειδικευμένων LMs” και επίσης “συμβολικό, όπως μια μαθηματική αριθμομηχανή, μετατροπέας νομίσματος ή κλήση API βάσης δεδομένων.”
Αυτή η αναπνοή είναι μια νευροσυμβολική προσέγγιση του AI. Και υπό αυτή την έννοια, ο Shoham συμφωνεί με ορισμένους εξέχοντες στοχαστές που ανησυχούν για την κυριαρχία της Gen AI. Για παράδειγμα, ο συχνός κριτικός τεχνητής νοημοσύνης Gary Marcus έχει πει ότι η τεχνητή νοημοσύνη δεν θα φτάσει ποτέ σε ανθρώπινα επίπεδα νοημοσύνης χωρίς την ικανότητα χειρισμού συμβόλων.
Το MRKL υλοποιήθηκε ως ένα πρόγραμμα που ονομάζεται Jurassic-X, το οποίο η εταιρεία δοκίμασε με συνεργάτες.
Επίσης: Το OpenAI εκπαιδεύει έναν διάδοχο του GPT-4. Εδώ είναι 3 μεγάλες ενημερώσεις που μπορείτε να περιμένετε από το GPT-5
Το σύστημα MRKL πρέπει να μπορεί να χρησιμοποιεί το LLM για να αναλύει προβλήματα που περιλαμβάνουν περίπλοκη διατύπωση, όπως “Ενενήντα εννέα μπουκάλια μπύρας στον τοίχο, ένα έπεσε, πόσα μπουκάλια μπύρας υπάρχουν στον τοίχο;” Η πραγματική αριθμητική επεξεργάζεται από ένα δεύτερο νευρωνικό δίκτυο με πρόσβαση στην αριθμητική λογική χρησιμοποιώντας ορίσματα που εξάγονται από το κείμενο από το πρώτο μοντέλο.
Ο “δρομολογητής” μεταξύ τους εκτελεί το πολύπλοκο έργο της επιλογής των δεδομένων που θα εξαχθούν από το κείμενο που αναλύεται από το LLM και σε ποια “ενότητα” θα περάσει τα αποτελέσματα για να πραγματοποιηθεί η λογική.
Αυτό το είδος εργασίας σημαίνει ότι «δεν υπάρχει δωρεάν μεσημεριανό γεύμα, αλλά σε πολλές περιπτώσεις είναι διαθέσιμο», γράφουν ο Shoham και η ομάδα του.
Από πλευράς προϊόντος και επιχείρησης, «θα θέλαμε να παρέχουμε συνεχώς περισσότερη λειτουργικότητα στους ανθρώπους για να κατασκευάζουν πράγματα», είπε ο Shoham.
Το σημαντικό σημείο είναι ότι ένα σύστημα όπως το MRKL δεν χρειάζεται να κάνει τα πάντα για να είναι πρακτικό, είπε. «Αν προσπαθείτε να φτιάξετε ένα γενικό LLM που να κατανοεί τα μαθηματικά προβλήματα και πώς να δημιουργείτε εικόνες γαϊδάρων στο φεγγάρι και πώς να γράφετε ποίηση και να κάνετε όλα αυτά τα πράγματα, μπορεί να είναι ακριβό», σημείωσε.
«Αλλά το 80% των δεδομένων στην επιχείρηση είναι κείμενο: έχετε πίνακες, έχετε γραφήματα, αλλά τα γαϊδούρια στο φεγγάρι δεν είναι τόσο σημαντικά στην επιχείρηση».
Δεδομένου του σκεπτικισμού του Shoham για τα πτυχία LL.M per se, υπάρχει κίνδυνος η σημερινή γενιά της τεχνητής νοημοσύνης να πυροδοτήσει αυτό που ονομάζεται «χειμώνα της τεχνητής νοημοσύνης»—μια ξαφνική μείωση της δραστηριότητας στην οποία το ενδιαφέρον και η χρηματοδότηση στερεύουν εντελώς;
«Είναι μια έγκυρη ερώτηση και δεν ξέρω πραγματικά την απάντηση», είπε. «Νομίζω ότι αυτή η εποχή είναι διαφορετική γιατί τη δεκαετία του 1980», κατά τον τελευταίο χειμώνα της τεχνητής νοημοσύνης, «το AI δεν δημιούργησε αρκετή αξία για να αντισταθμίσει την αβάσιμη διαφημιστική εκστρατεία. Προφανώς υπάρχει αβάσιμη διαφημιστική εκστρατεία αυτή τη στιγμή, αλλά αισθάνομαι ότι έχει δημιουργηθεί αρκετή αξία ώστε να μπορούμε να το ξεπεράσουμε».