LLM-Leistung 2023 aus Entwicklersicht

17. Februar 2024·Jah Guo

LLM-Leistung 2023 aus Entwicklersicht

17. Februar 2024 · Jah Guo

Kürzlich hat OpenAI Sora veröffentlicht, was das wachsende Interesse an Large Language Models (LLMs) weiter verstärkt. Als Produktmanager, der ein Jahr lang intensiv mit LLMs gearbeitet hat, teile ich meine praktischen Arbeitserfahrungen im breiteren Kontext der LLMs.

1. LLM ist zum Standard der politischen Korrektheit bei Tech-Giganten geworden

Nach SNS, mobilem Internet, Blockchain und Metaverse wird 2023 erneut als erstes Jahr der vierten industriellen Revolution – der KI-Ära – gefeiert. Große Technologieunternehmen haben neue Möglichkeiten jenseits traditioneller Konzepte entdeckt und einen harten Wettbewerb begonnen. OpenAI, Microsoft, Google und Meta schreiten mit klaren Strategien schnell voran. Anders als zuvor sind große chinesische Internetunternehmen aufgrund begrenzter Rechenleistung und unklarer Anwendungsszenarien derzeit vorsichtig und unsicher über ihre nächsten Schritte.

2. Chefs erleben Liebe, Angst und Hilflosigkeit

Chefs und CIOs werden ebenfalls von Selbstmedien massiv beeinflusst. Obwohl die meisten Produktentscheider nicht verstehen, wie große Modelle funktionieren, entscheiden sie sich dennoch, bei der Implementierung großer Modelle intern und extern einen Schritt voraus zu sein. Nachdem sie ChatGPT als eigenen Assistenten gebrandmarkt hatten, stellten sie fest, dass interne Unternehmensinformationen nicht nur außerhalb des Unternehmens, sondern sogar ins Ausland gesendet wurden, was rechtliche Risiken auslöste. Und die träge Interaktion ist nahezu unbrauchbar.

3. Die größten Tech-Giganten weltweit kopieren ChatGPT

Seit ChatGPT den Dialog + Prompt-Interaktionsmodus eingeführt hat, haben Tech-Giganten seinen intelligenten Assistenten nahezu identisch nachgeahmt. APIs, multimodale Anwendungen und ein Store folgen. Während die nächste bahnbrechende Funktion von OpenAI unbekannt bleibt, ist eines sicher: Alle warten gespannt darauf, nachzuziehen.

4. Es könnte „Des Kaisers neue Kleider" sein

Ob in sozialen Medien, Branchenforen oder bei Produkteinführungen – viele behaupten, dass große Modelle ihre Produkte revitalisiert und sogar branchenspezifische Modelle für Tausende von Unternehmen hervorgebracht haben. Niemand wagt jedoch zuzugeben, dass diese großen Modelle in Fachgebieten oft mangelndes Verständnis zeigen und viele Aufgaben nicht bewältigen können. Der Erwerb von Fach- oder Spezialwissen durch große Modelle ist oft mit erheblichen Kosten verbunden.

5. Während die Medien begeistert sind, sind PMs, Programmierer und Fachexperten niedergeschlagen

Etwa 90% der Zeit wird für datenbezogene Aufgaben aufgewendet: Sammlung, Erstellung, Bereinigung, Formatierung, Aufteilung, Training und Kennzeichnung. Dieser Prozess setzt sich Tag für Tag, Woche für Woche, Monat für Monat fort. Das Produktionsteam ist sich oft unsicher über die Genauigkeit der Informationen. Fachexperten wissen nicht, wie sie das Modell trainieren sollen. Produktmanager überlegen, wie sie die direkte Kommunikation zwischen Fachexperten und dem LLM erleichtern können. Das Ende dieses Prozesses ist für niemanden absehbar.

6. Schnell zu einem neuen Wachstumspunkt für Cloud-Plattformen geworden

Traditionelle Cloud-Plattform-Anbieter haben Trainingsplattformen für LLMs auf Basis von ML eingeführt. Nach MLOps wurde das Konzept LLMOps eingeführt. Trotz technischer und rechentechnischer Herausforderungen verwandeln Cloud-Plattformen LLMs in Infrastruktur der nächsten Generation. Ihr Design wird jedoch oft als grob empfunden und ist für Fachexperten schwer direkt nutzbar. Es scheint, dass Cloud-Service-Produktmanager noch nicht vollständig verstanden haben, wie Benutzer die Fähigkeiten von LLMs nutzen werden.

7. Allmählicher Übergang vom Vordergrund in den Hintergrund mit Fokus auf das Geschäft

Nach einem halben Jahr intensiver Arbeit wurde mir klar, dass große Modelle allein nicht alles bewältigen können. Geschäftsprozesse mit großen Modellen als primärer Methode aufzubauen, liefert keine zeitnahen, kosteneffizienten Lösungen, die Geschäftsanforderungen erfüllen und eine solide Rendite bieten. Viele Produktmanager nutzen große Modelle jetzt offline zur Unterstützung der asynchronen Wissens- und Datenverarbeitung. Um diesen Modellen das effektive Erlernen und Kombinieren neuer Wissensformen zu ermöglichen, haben wir diesem geschäftslogikbeinhaltenden Code-Snippet einen neuen Namen gegeben — Agent.

8. Die Branche beginnt, eine neue Form von Anwendungen der nächsten Generation zu definieren

Stellen Sie sich eine Zukunft vor, in der Menschen nicht mehr entscheiden müssen, welche Website oder App sie nutzen. Stattdessen teilen sie der KI einfach ihre Absichten mit, und die KI findet direkt die Antwort oder führt eine Operation aus. Diese interaktive KI könnte die nächste Generation von Anwendungsformen darstellen. Derzeit gestalten viele Produktmanager sie als Chatbot, manchmal als intelligenten Assistenten bezeichnet. Leider müssen Benutzer selbst mit mehreren Assistenten immer noch Entscheidungen treffen oder Suchen durchführen.

9. Die Regulierung kommt früher als zuvor

Meinungsführer erklärten: „Wenn Sie in Zukunft keine KI nutzen, werden Sie ein Verlierer sein", und begannen bald, durch Kursangebote Profit zu machen. OpenAI zeigte weiter, dass Millionen neuer „Apps" oder Agents innerhalb einer Woche entstehen können. Infolgedessen werden riesige Mengen sensibler Daten in Rechenzentren weltweit hochgeladen, was zu einer unkontrollierten Vermischung widersprüchlicher Werte führt. Kein anderer Produkttyp hat so schnell die Aufmerksamkeit der Regierung auf sich gezogen.

10. KI ist vom technologischen Podest herabgestiegen und für normale Menschen zugänglich geworden

Das Training von KI war einst die exklusive Domäne von Algorithmus-Ingenieuren. Nach der Bereitstellung des Modells erfordert es nun jedoch mehr Beteiligung von Fachexperten und Benutzern am Trainingsprozess. Mit dem Prompt-Generierungstool und der Trainingsplattform können Sie das Modelltraining ohne algorithmisches Wissen abschließen. Selbst kleine Modelle können einfach auf Servern oder PCs bereitgestellt werden, ähnlich wie bei einer Softwareinstallation. Dies ist ein bedeutender Wandel, der Algorithmus-Ingenieure beunruhigt.