Am 13. März kassym-jomart tokayev kassym-jomart erfüllt mit Thomas pramtedham, Der CEO von Present AI, einem Unternehmen für künstliche Intelligenz, um Pläne für einen Supercomputer -Cluster im Land zu erörtern. Das Projekt ist Teil einer Reihe von Initiativen der Regierung, um sich als regionaler Führer für künstliche Intelligenz zu positionieren.
Astana hofft in die Technologie, nicht nur auf das Wirtschaftswachstum. Der Push hat auch einen kulturellen Aspekt mit einer starken inländischen KI -Industrie als wichtig für die sprachliche Erhaltung.
Allerdings als kürzlich Verzögerung Für das Supercomputerprojekt zeigt, dass selbst die besten Pläne geopolitische Kräfte zum Opfer fallen können. Während Kasachstan ein großes Spiel auf KI sprechen könnte, kann es dann liefern?
Kontrolle der Erzählung
Großsprachenmodelle oder LLMs sind die Grundlage für KI -Programme wie ChatGPT, die menschliche Sprache verarbeiten, verstehen und generieren. Diese Modelle sind überwiegend in einer Handvoll dominanter Sprachen wie Englisch, Mandarin und Spanisch, während kleinere Sprachen wie Kasach häufig übersehen werden.
„Während die größeren LLMs zusätzliche Sprachen hinzufügen, werden diese Sprachen nicht unbedingt in einem gleichen Maße unterstützt“, sagte Preslav Nakov, Abteilungsvorsitzender und Professor für natürliche Sprachverarbeitung an der Mohamed Bin Zayed University of Artificial Intelligence (MBZUAI) in Abu Dhabi. „LLMs nutzen neuronale Netze und haben eine begrenzte Kapazität. Ihre Entwickler fragen sich unweigerlich, ob sie in diese Kapazität investieren möchten, um mehr Sprachen zu unterstützen oder sich in anderen Bereichen zu verbessern, z. B. in den Argumentationsfähigkeiten.“
Die sekundäre Bedeutung kleinerer Sprachen führt zu KI-Modellen, die eine westliche Weltanschauung fördern, sagt Dion Wiggins, CTO von Omniscy, einem Unternehmen, das sich auf Lösungen für die Verarbeitung von AI-gesteuerten Sprachverarbeitungen spezialisiert hat. „Wenn Sie zu Grok oder Lama oder Chatgpt gehen, sind sie mehr oder weniger gleich, weil sie alle aus denselben Daten lernen“, sagte er.
Wenn jedoch Länder wie Kasachstan ihre eigenen LLMs produzieren könnten, würde dies mehr Kontrolle über die Erzählung bedeuten.
„Wenn Sie eine souveräne LLM haben, hat sie kasachische Moral, kasachische Geschichte, kasachische Linsen und einen Standpunkt aus diesem Teil der Welt“, sagte Wiggins. Er zitiert Chinas Deepseek, das den Zugang zu Informationen über das Massaker auf dem Platz am Tiananmen und das Gemini von Google begrenzt, was sich weigert, eine einfache Frage wie „Wer ist der Präsident der Vereinigten Staaten?“ Beantwortet zu beantworten? als Beispiele dafür, wie wir KI bereits für die Zensur verwendet werden.
Denken Sie um Ihre Sprache
LLMs erfordern enorme Datenmengen, um sie für wirksam zu schulen.
„Und da ist das Problem“, sagte Wiggins. „Es gibt einfach nicht viel kasachische Daten.“
Eine der größten Datenquellen für das KI -Training ist Häufiger Kriecheneine gemeinnützige Organisation, die Online-Informationen archiviert und es der Öffentlichkeit frei zur Verfügung stellt. Die Statistiken zeigen eine große sprachliche Verzerrung: 43,4 Prozent der gemeinsamen Crawl -Webseiten sind in englischer Sprache. Tatsächlich stammen über 70 Prozent aller webbasierten Daten aus sieben Hauptsprachen: Englisch, Russisch, Deutsch, Japanisch, Chinesisch, Spanisch und Französisch.
Kasachische Aussagen 0,0298 Prozent. Mit anderen Worten, wenn Sie zufällig 10.000 Webseiten durchblättern würden, wären drei in Kasachisch. 605 in Russisch und 4.337 in Englisch.
Dies hat reale Konsequenzen: Suchmaschinen priorisieren englische Inhalte, Assistenten mit KI-betriebenen Assistenten kämpfen mit nicht englischen Fragen und automatisierte Übersetzungsdienste bleiben in vielen Sprachen unzuverlässig.
„In Kasachstan wird dieses Thema weiter durch das historisch intrinsische Problem verstärkt, das sich aus der Abhängigkeit von Russisch ergibt“, sagte Aisana Kassenova, eine in Kasachisch geborene Doktorandin in AI an der Esade Business & Law School in Barcelona. „Viele Übersetzungswerkzeuge, wie Google Translate, verwenden Russisch immer noch als Vermittler bei der Übersetzung von Kasach, was ihn oft ungenau macht.“
Astana hat eine langjährige Politik, um zu versuchen, die kasachische Sprache gegenüber Russisch zu fördern, die viele Jahre als die als die angesehen wurde Sprache der urbanen Elite im Land. Viele würden argumentieren, dass es immer noch ist: Russisch hat im digitalen Raum einen enormen Vorsprung über Kasacher, was bedeutet, dass die Mehrheit der Interaktionen mit KI in Russisch durchgeführt wird.
„Dies führt zu einem Mangel an kasachischen Sprachdatensätzen, was die Wahrnehmung verstärkt, dass Russisch die„ praktischere “Sprache für Technologie und KI -Entwicklung in Kasachstan bleibt“, sagte Kassenova.
Home Grown LLMs
Als solches begann die Suche nach Kasachstans erstem großes Sprachmodell. Im Dezember 2024 traf das Land Gold, als das Institut für intelligente Systeme und künstliche Intelligenz (ISSAI) der Nazarbayev University Kazllm enthüllte. Kazllm wurde entwickelt, um Text in Kasach, Russisch, Englisch und Türkisch zu verarbeiten und zu generieren, und wurde mit einem riesigen Datensatz entwickelt, der aus Quellen wie Nachrichtensendunternehmen, Regierungswebsites und Open-Access-Materialien gesammelt wurde. Die Leistung des Modells sogar Lob gezogen Von Yan Lecun, dem Leiter der KI und der Forschung bei US -Tech -Riesen -Meta.
Es folgte Sherkala, ein weiteres kasachisches KI -Modell, das in Zusammenarbeit bei MBzuai in Abu Dhabi entwickelt wurde.
Professor Nakov, der Führer des Projekts, sagte dem Diplomat, Sherkala tritt in die Fußstapfen von Jais (2023) und Nanda (2024), die sich auf Arabisch bzw. Hindi konzentrieren.
„Sherkala basiert auf Lama, dem weit verbreiteten Open-Source-KI-Modell aus Meta, das bereits einige mehrsprachige Unterstützung beinhaltet, aber nicht ausreicht, um das Maß an Genauigkeit und kulturellem Bewusstsein für Sprachen wie Kasachien zu liefern“, sagte er. Um das Modell zu entwickeln, sorgte sein Team mit zusätzlichen Informationen über die Kultur und Geschichte Kasachstans.
Kassenova argumentiert, dass Kazllm und Sherkala nicht so konzipiert waren, dass sie mit Mainstream -KI -Modellen konkurrieren, sondern mehr Inklusivität bieten. „Modelle wie Chatgpt, Gemini und Qwen sind mit massiven Ressourcen, endlosen mehrsprachigen Datensätzen und modernster Rechenleistung aufgebaut, die auf allgemeine Intelligenz abzielen“, sagte sie. „Im Gegensatz dazu wurden kasachische LLMs in relativ kleinen Teams (und mit einem relativ kleinen Budget) erstellt, um sicherzustellen, dass Kasach -Sprecher KI -Tools haben, die auf unsere Sprache und unseren kulturellen Kontext zugeschnitten sind.“
Bau von AI -Infrastruktur
Kasachstans KI -Ambitionen erstrecken sich über Sprachmodelle hinaus. Eine weitere Planke der Strategie beinhaltet die Schaffung eines nationalen Supercomputers.
“[This] Wäre der Schlüssel für die KI -Entwicklung „, sagte Kassenova.“ Das Land hat seit langem von russischen Computersystemen abhängig, aber da Russland seinen eigenen KI -Chip -Engpässen gegenübersteht, ist es keine Option, sich daran zuzuwenden. “
Die Regierung hat sich mit Present.ai, einer anderen VAE -Firma, zusammengetan, um den Supercomputer zu bauen. Verzögerungen beim Erwerb von NVIDIA-Chips von Hochleistungen aufgrund von US-Exportbeschränkungen haben jedoch den Fortschritt des Projekts verlangsamt, das letztes Jahr abgeschlossen sein sollte. Dieses Nvidia -Embargo hat erhebliche Engpässe geschaffen, wobei das Unternehmen in der Nähe kontrolliert 80 Prozent des globalen Marktes für KI -Chips.
Wiggins schlägt vor, dass Kasachstan um Hilfe nach Osten abweichen könnte. „Huawei in China hat GPUs geschaffen, die noch nicht so gut sind, aber sie sind gut genug“ positive Leistung des Huawei Ascend 910 C Chip, der begonnen hat, die Lücke auf Nvidia zu schließen.
Der Aufbau eines AI -Ökosystems erfordert sowohl Humankapital als auch Infrastruktur. Im Jahr 2024 begann Kasachstan zu einführen KI -Alphabetisierungskurse an allen Universitäten des Landes. Der Astana Hub Technopark hat ebenfalls ein jährliches Projekt begonnen Zug 700 AI -Lehrer von 47 nationalen Universitäten.
Astana sieht sich auch vor, ein regionaler KI -Hub zu werden. Pläne sind im Gange, um eine einzurichten Internationales KI -Zentrum Im Jahr 2025, ein Schritt, um globale Forschungskooperationen und Investitionen anzuziehen.
Der Wagen vor dem Pferd
Die Ankündigung, dass 1 Million Menschen in AI ausgebildet werden, unterscheidet sich davon, sie davon zu überzeugen, die Ausbildung zu absolvieren, ebenso wie die Überzeugung, Sherkala über russische Sprachäquivalente zu verwenden, nicht selbstverständlich. Kasachstan war schon einmal hier und verkündete sich vorzeitig einen globalen Hub für alles von Logistik Zu Religion.
Ein weiteres Problem ist Offenheit. Großsprachige Modelle leben von großen Mengen genauer, umfassender Informationen.
Während Regierungen, die zur Opazität wie China tendieren, gezeigt haben, dass ein hochkontrollierter Top-Down-Ansatz mit staatlicher Unterstützung, massiven Daten und Unternehmensausrichtung auch den Fortschritt vorantreiben kann, hat Kasachstan möglicherweise nicht über die Ressourcen, um dieses Modell zu emulieren.
Ein billigerer Ansatz wäre eine Umgebung, die offenen und einfachen Zugriff auf Daten fördert, insbesondere angesichts des relativen Mangels an kasachischen Sprachquellen. Mit Reportern ohne Grenzen, die das Land 142. von 180 auf seinem Rang ringen 2024 World Press Freedom IndexDies scheint keine Priorität zu sein.
Bei all seinen großen Entwürfen kann Astanas Eisengriff auf Informationen das Land zurückhalten.
Issai, die Schöpfer von Kazllm, antworteten nicht auf Anfragen nach Kommentaren.
Prects.ai lehnte eine Stellungnahme ab und schlug vor, dass Fragen an die Regierung gerichtet werden.
Das Ministerium für digitale Entwicklung der Regierung war für einen Kommentar nicht verfügbar.