
Gemma 4 QAT -mallit puristavat tekoälymallit pienemmiksi, mikä mahdollistaa niiden laajemman käytön.
Google DeepMind on julkaissut uusia versioita Gemma 4 -tekoälymalliperheestään. Uudet Quantization-Aware Training (QAT) -mallit on suunniteltu erityisesti pienentämään muistinkulutusta ja parantamaan suorituskykyä paikallisesti toimivissa tekoälysovelluksissa.
Käytännössä uutuudet mahdollistavat entistä tehokkaampien tekoälymallen ajamisen suoraan kannettavissa tietokoneissa, älypuhelimissa ja muissa käyttäjän omissa laitteissa pilvipalvelujen sijaan. Tämä voi mahdollistaa kehittäjille tekoälyn hyödyntämisen sovelluksissa ilman siitä aiheutuvia kustannuksia.
Julkaisu jatkaa Gemma 4 -sarjan nopeaa kehitystä. Google toi aiemmin saataville Multi-Token Prediction (MTP) -tekniikan, joka nopeuttaa vastausten generointia, sekä uuden Gemma 4 12B -mallin, joka sijoittuu suorituskyvyltään E4B- ja 26B MoE -mallien väliin.
MAINOS (ARTIKKELI JATKUU ALLA)
Tekoälymallien yksi suurimmista haasteista on niiden koon aiheuttama muistitarve. Yleinen ratkaisu tähän on kvantisointi (quantization), jossa mallin numeroiden tarkkuutta pienennetään. Tämä vähentää muistinkulutusta ja nopeuttaa suorituskykyä, mutta samalla mallin laatu perinteisesti kärsiä.
Google käyttää nyt uusissa malleissaan Quantization-Aware Training -menetelmää, jossa kvantisointi huomioidaan jo koulutusvaiheessa. Tämän ansiosta malli oppii toimimaan tehokkaasti pienemmällä tarkkuudella ilman merkittävää suorituskyvyn heikkenemistä.
Googlen mukaan QAT-mallit säilyttävät laadun huomattavasti paremmin kuin perinteiset jälkikäteen kvantisoidut mallit.
MAINOS (ARTIKKELI JATKUU ALLA)
QAT-ratkaisulla Google on pystynyt supistamaan esimerkiksi pienimmän Gemma 4 E2B -mallin muistivaatimuksen vain noin yhteen gigatavuun. Tämä mahdollistaa mallin ajamisen älypuhelimissa, tableteissa sekä edullisissa kannettavissa tietokoneissa.
Google kertoo kehittäneensä kokonaan uuden kvantisointijärjestelmän erityisesti mobiilisuorittimia varten.
Normaalisti tekoälymallit laskevat jatkuvasti datan skaalausarvoja reaaliajassa. Gemma 4 QAT -malleissa nämä arvot määritetään jo koulutusvaiheessa, mikä vähentää suorittimen kuormitusta ja nopeuttaa vastausten muodostamista. Data mallissa on lisäksi järjestetty siten, että mobiilipiirien tekoälykiihdyttimet voivat käsitellä sitä tehokkaammin ilman ylimääräisiä laskentakerroksia.
Lisäksi uudet mallit ovat modulaarisia. Jos sovellus tarvitsee vain tekstinkäsittelyä, voidaan kuvankäsittely- ääänimoduulit poistaa kokonaan. Tällöin muistinkulutus pienenee edelleen huomattavasti. Esimerkiksi tekstikäyttöön optimoitu Gemma 4 E2B voi toimia allekin yhden gigatavun muistilla.
MAINOS (ARTIKKELI JATKUU ALLA)
Google tarjoaa uusien mallien osalta tuen useille suosituille kehitysalustoille. Gemma 4 QAT -mallit toimivat muun muassa Ollamassa, LM Studiossa, llama.cpp:ssa, Hugging Face Transformersissa, MLX:ssä, SGLangissa, vLLM:ssä ja Unslothissa.
Lisäksi malleja voidaan ajaa Google Cloudissa, Cloud Runissa, Google Kubernetes Enginessä, LiteRT-LM:n kautta laitteissa sekä Transformers.js:n avulla suoraan selaimessa.
Mainos: Noin 1 600 000 tuotteen hintavertailu ja hintaseuranta - katso Hinta.fistä mistä saat halvimmalla






Salasana hukassa?
Etkö ole vielä rekisteröitynyt? Rekisteröidy tästä »