Nola funtzionatzen du LLM batek barrutik?

1. Tokenizazioa: Testua zatitzen

LLMak testua token txikietan banatzen du prozesatu ahal izateko. Tokenizazioa da LLMaren lehen urratsa, eta oso garrantzitsua da prozesamendu eraginkorra lortzeko.

Adibidea: Hitz arruntak

“Kaixo lagun!” β†’

Kai xo la gun !

Adibidea: Hitz teknikoak

“Immunofluoreszentzia” β†’

Immun of lu or eszent zia

Tokenizazioak hitz konplexuak zatitzen ditu ulergarriagoak diren unitateetan.

2. Embedding: Zenbakietara itzultzea

Token bakoitza zenbakizko bektore batean bihurtzen da. Bektore hauek hitzen esanahia eta ezaugarriak gordetzen dituzte espazio matematiko batean.

Adibidea: Antzeko hitzak

txakur β†’ [0.2, 0.5, -0.3, 0.1]
katu β†’ [0.3, 0.4, -0.2, 0.2]
otsoa β†’ [0.1, 0.6, -0.3, 0.0]

Animaliak direnez, beraien bektoreak antzekoak dira espazioan.

Adibidea: Hitz desberdinak

txakur β†’ [0.2, 0.5, -0.3, 0.1]
kotxe β†’ [-0.8, 0.1, 0.7, -0.4]

Esanahi desberdina dutenez, beraien bektoreak oso desberdinak dira.

3. Arreta mekanismoa: Erlazioak ulertzen

Token bakoitzak beste tokenekin duen erlazioa aztertzen da, testuinguruaren arabera hitzen esanahia ulertzeko.

Adibidea: Hitz beraren esanahi desberdinak

Bankuan eseri naiz parkean
Bankuan dirua sartu dut
Bankuaren interesak igo dira

Arreta mekanismoak testuinguruaren arabera “banku” hitzaren esanahi egokia aukeratzen du.

Adibidea: Erreferentziak

Jonek liburua erosi zuen. Berak irakurri zuen.

Arreta mekanismoak “berak” hitza “Jone”-rekin lotzen du.

4. Iragarpen prozesua: Erantzuna sortzen

Sistemak probabilitateak kalkulatzen ditu hurrengo hitza aukeratzeko, testuingurua eta ikasitako patroiak erabiliz.

Adibidea: Sekuentzia logikoak

Astelehena, asteartea, asteazkena, osteguna, ostirala, …

larunbata (98%)
igandea (1%)
beste hitz bat (< 1%)

Adibidea: Testuinguru kulturala

Patata tortilla bat egiteko behar dira: Arrautzak, Patatak, …

Olioa (95%)
Gatza (4%)
Tipula (1%)

Laburpena

  1. Tokenizazioa: testua unitate txikiagoetan zatitzen da prozesamendu eraginkorrerako
  2. Embedding: tokenak zenbakizko bektoreetan bihurtzen dira, esanahia mantenduz
  3. Arreta: tokenen arteko erlazioak aztertzen dira testuingurua ulertzeko
  4. Iragarpena: probabilitateen bidez erantzun egokiena aukeratzen da

Sistema honi esker, LLMak gai dira hizkuntza ulertu eta sortzeko, gizakien antzeko elkarrizketak mantentzeko.

Kontuan izan behar da LLMek ez dutela benetan “ulertzen” zentzu kognitiboan, baizik eta patroi estatistikoak erabiltzen dituztela erantzun egokiak sortzeko.

Zabaldu!

Web-orria erabiltzen jarraitu ezkero, cookien erabilerarekin ados zaudela adierazten duzu. informazio gehiago

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Itxi