Research

Повече за моделите

Научни публикации

Mitigating Catastrophic Forgetting in Language Transfer via Model Merging

Представя Branch-and-Merge (BaM), техника за итеративно сливане на множество модели, фино настроени върху подмножества от тренировъчни данни, за предотвратяване на катастрофално забравяне при адаптиране на LLM към нови езици.

arXiv

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

Напълно автоматизирана рамка за мащабируем, висококачествен превод на набори от данни и бенчмаркове на 8 източно/южноевропейски езика чрез стратегии за мащабиране на изчисленията по време на извод.

arXiv

BgGPT 1.0: Extending English-Centric LLMs to Other Languages

Оптимизирани за български версии на моделите Gemma-2 на Google, с продължително предобучение върху над 100 милиарда токена на български и английски текст чрез техниките Branch-and-Merge.

Статии и разработки

Cosmos Thrace

Надеждно автоматично разпознаване на българска реч с BgGPT на INSAIT

Cosmosthrace демонстрира как BgGPT на INSAIT задвижва надеждно автоматично разпознаване на българска реч, преодолявайки ограниченията на стандартните модели за транскрипция.

Google Developers Blog

Отвъд английския: Как отворените модели Gemma преодоляват езиковата бариера

Публикация в блога на Google за разработчици, представяща BgGPT като пример за това как отворените модели Gemma се използват за изграждане на по-приобщаващи LLM.

Google DeepMind

INSAIT създава водещ LLM за български с Gemma 2

BgGPT е представен в официалния GemmaVerse на Google DeepMind като водещ LLM за български, надминаващ по-големи модели в задачи на български.

Research Publications

Mitigating Catastrophic Forgetting in Language Transfer via Model Merging

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

BgGPT 1.0: Extending English-Centric LLMs to Other Languages

Научни публикации

Mitigating Catastrophic Forgetting in Language Transfer via Model Merging

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

BgGPT 1.0: Extending English-Centric LLMs to Other Languages

Articles & Features

Robust Automatic Bulgarian Speech Recognition with INSAIT's BgGPT

Beyond English: How Gemma Open Models Are Bridging the Language Gap

INSAIT Creates Leading Bulgarian-First LLM with Gemma 2

Статии и разработки

Надеждно автоматично разпознаване на българска реч с BgGPT на INSAIT

Отвъд английския: Как отворените модели Gemma преодоляват езиковата бариера

INSAIT създава водещ LLM за български с Gemma 2