Ako Google BERT vs. Smithove algoritmy spolupracujú - prehľad Semaltu




Google nedávno vydal výskumnú prácu o ich novom algoritme NLP SMITH. Tento príspevok upozornil mnohých SEO profesionálov na zmeny, ktoré by si vyžadovali zvýšenie alebo zníženie poradia SERP. Našou starosťou však je, ako sa tento nový algoritmus SMITH porovnáva s BERT?

V príspevku zverejnenom spoločnosťou Google tvrdili, že SMITH prekonáva BERT v porozumení dlhých vyhľadávacích dotazov a dlhých dokumentov. To, čo robí SMITH tak zaujímavým, je to, že dokáže pochopiť pasáže v dokumente podobné tým, ktoré robí BERT so slovami a vetami. Táto vylepšená funkcia programu SMITH umožňuje ľahké pochopenie dlhších dokumentov.

Ale predtým, ako pôjdeme ďalej, musíme vás informovať, že SMITH v súčasnosti nežije v algoritmoch spoločnosti Google. Ale ak majú naše špekulácie pravdu, spustí sa to spolu s indexovaním pasáží, alebo to bude predchádzať. Ak skutočne máte záujem dozvedieť sa, ako hodnotiť na SEP, strojové učenie by nevyhnutne išlo vedľa tohto záujmu.

Takže späť k téme, Je BERT čoskoro vymenený? Nebudú väčšina dokumentov na webe, ktoré sú rozsiahle, robustné a teda dlhšie výkonné, dosahovať vďaka aplikácii SMITH lepšie výsledky?

Poďme ďalej a pozrime sa, čo sme uzavreli. Aplikácia SMITH dokáže čítať robustné aj tenké dokumenty. Myslite na to ako na bazuku. Môže spôsobiť veľké škody, pretože môže otvoriť aj dvere.

Na začiatok, prečo BERT alebo SMITH?

Skutočnou otázkou tu je, prečo bude vyhľadávací modul vyžadovať na poskytnutie výsledkov vyhľadávania spracovanie prirodzeného učenia. Odpoveď je jednoduchá. Vyhľadávače vyžadujú NLP pri prechode od porozumenia reťazcov alebo kľúčových slov vyhľadávaču k veciam alebo webovým stránkam.

Ak Google nemá predstavu, čo iné môže byť na stránke ako kľúčové slová alebo či má indexovaný obsah vôbec zmysel vo vzťahu k vyhľadávaciemu dotazu. Vďaka NLP dokáže Google pochopiť kontext znakov zadaných do jeho vyhľadávacieho dopytu.
Vďaka NLP dokáže Google rozlíšiť zámery používateľa, keď hovorí „breh rieky“ a „bankový účet“. Môže tiež chápať výroky ako „Caroline sa stretla so svojimi priateľmi na pohárik, pitie, pivo, pivo, pivo…“ ako neprirodzené.

Ako odborníci na SEO musíme povedať, že pochopenie vyhľadávacieho dotazu prešlo dlhú cestu. Najlepšie veriť, že v minulosti bolo hľadanie správnych článkov na internete príliš ťažké.

Pochopenie BERT

BERT v súčasnosti funguje ako najlepší model NLP, ktorý máme pre mnoho, ak nie pre väčšinu aplikácií, najmä pokiaľ ide o pochopenie zložitých jazykových štruktúr. Mnohí považujú prvý obojsmerný znak za najväčší skok vpred v tomto algoritme. Namiesto toho, aby mal BERT algoritmus, ktorý číta zľava doprava, dokáže tieto slová chápať aj vo vzťahu k ich kontextu. Takto by to neprinieslo výsledky pre jednotlivé slová vložené do dotazu, ale indexovalo by to webové stránky na základe spoločného významu slov vo vyhľadávacom dotaze.

Tu je príklad na uľahčenie vášho porozumenia:

NÁKLADNÝ SVETLO MÁ SVETLO.

Ak by ste mali toto tvrdenie interpretovať zľava doprava, po dosiahnutí slova „light“ by ste klasifikovali nákladné vozidlo ako niečo so svetlom. Je to preto, lebo nákladné auto prišlo vo vyhlásení pred svetlo.

Ale ak chceme klasifikovať veci na nákladných automobiloch, môžeme vynechať slovo „ľahké“, pretože na to nenarazíme skôr ako na slovo „nákladné auto“.

Je ťažké považovať výrok iba jedným smerom.

Okrem toho má BERT aj ďalšiu samostatnú výhodu v tom, že je taký pozoruhodný, a umožňuje efektívne spracovanie jazyka s nižšími nákladmi na zdroje v porovnaní s predchádzajúcimi modelmi. To je skutočne dôležitý faktor, ktorý je potrebné vziať do úvahy, keď ho chcete použiť na celý web.

Aplikácia tokenov je ďalším vývojom, ktorý BERT sprevádzal. V BERT je 30 000 tokenov a každá z nich predstavuje bežné slovo s niekoľkými ďalšími tokenmi navyše pre postavy a fragmenty, ak existuje slovo mimo 30 000.

Prostredníctvom schopnosti spracovávať tokeny a transformátory BERT porozumel obsahu, čo mu tiež dalo schopnosť adekvátne porozumieť vetám.

Takže ak povieme: „slečna išla do banky. Neskôr si sadla na breh rieky a sledovala tok rieky.“

BERT týmto vetám priradí rôzne hodnoty, pretože sa týkajú dvoch rôznych vecí.

Pochopenie SMITH

Potom nasleduje SMITH, algoritmus s lepšími zdrojmi a číslami, ktorý je možné použiť na spracovanie väčších dokumentov. BERT používa na dokument asi 256 tokenov, a keď prekročí túto hranicu, náklady na výpočet sa pre optimálnu funkciu zvýšia. Naproti tomu SMITH dokáže spracovať až 2 248 tokenov na dokument. To je asi 8-násobok počtu tokenov, ktoré BERT použije.

Aby sme pochopili, prečo náklady na výpočet stúpajú v jednom modeli NLP, musíme si najskôr zvážiť, čo je potrebné na pochopenie vety a odseku. Pri práci s vetou je potrebné pochopiť iba jeden všeobecný pojem. Existuje menej navzájom súvisiacich slov, a preto je menej spojení medzi slovami a myšlienkami, ktoré majú v pamäti.

Vďaka vetám do odsekov sa spojenie medzi týmito slovami veľmi znásobuje. Procesy 8X, ktoré budú pri rovnakom modeli vyžadovať oveľa viac rýchlosti a kapacity optimalizácie pamäte, budú vyžadovať omnoho viac krát. To je miesto, kde SMITH robí rozdiel tým, že v zásade dávkuje a robí veľa offline spracovania. Je zaujímavé, že SMITH stále závisí od správneho fungovania BERT.

Tu je popis toho, ako SMITH berie dokument v jadre:
  1. Dokument najskôr rozdelí na veľkosti zoskupenia, ktoré sa dajú ľahšie spravovať.
  2. Potom spracuje každý blok viet jednotlivo.
  3. Transformátor sa potom naučí kontextové znázornenie každého bloku a potom ich zmení na znázornenie dokumentu.

Ako funguje SMITH?

Na trénovanie modelu SMITH sa od BERT učíme dvoma spôsobmi:

Ak chcete trénovať BERT, slovo je vyňaté z vety a budú poskytnuté alternatívne možnosti

BERT, ktorý je lepšie vyškolený, je ten, ktorý bude úspešnejší pri výbere správnej možnosti z ponúkaných alternatív. Napríklad, ak dostane BERT vetu:

Šťastný hnedý ------ preskočil plot.
  • Možnosť jedna - paradajky.
  • Možnosť dva - pes.
Čím lepšie je BERT trénovaný, tým väčšie sú jeho šance na výber správnej možnosti, ktorá je druhou možnosťou.

Táto tréningová metóda sa uplatňuje aj v SMITH.

SMITH je trénovaný pre veľké dokumenty

Čím je SMITH lepšie trénovaný, tým má väčšiu šancu rozpoznať vynechané vety. S BERT je to rovnaká myšlienka, ale iná aplikácia. Táto časť je obzvlášť zaujímavá, pretože vykresľuje svet s obsahom generovaným spoločnosťou Google, ktorý je zostavený dohromady na zamurovaných stránkach s výsledkami vyhľadávacieho nástroja. Používatelia samozrejme môžu odísť, ale to neurobia, pretože Google dokáže na svojej stránke s výsledkami zostaviť krátky a dlhodobý obsah zo všetkých najlepších zdrojov.

Ak máte pochybnosti o tom, že sa to stalo, mali by ste vedieť, že sa to už začalo diať, a hoci to ešte nezvládli, je to začiatok.

Je SMITH lepší ako BERT?

So všetkým, čo ste si prečítali, je úplne prirodzené predpokladať, že SMITH je lepší a pri mnohých úlohách je skutočne lepší. Ale na chvíľu zvážte, ako využívate internet; aké otázky pravidelne zadávate do vyhľadávacích dotazov?
  • „Aká je predpoveď počasia na dnes?“
  • „Pokyny do reštaurácie“.
Odpovedanie na takéto vyhľadávacie dotazy si zvyčajne vyžaduje krátky obsah, často s obmedzenými a nekomplikovanými údajmi. SMITH sa viac podieľa na porozumení dlhších a zložitejších dokumentov a dlhých a zložitých vyhľadávacích dotazov.

To bude zahŕňať zostavenie niekoľkých dokumentov a tém na vytvorenie ich odpovedí. Určuje, ako je možné rozdeliť obsah, a umožňuje tak spoločnosti Google spoznať správnu vec na zobrazenie. Pomôže spoločnosti Google pochopiť, ako stránky obsahu navzájom súvisia, a poskytuje stupnicu, v ktorej môžu byť odkazy hodnotené okrem iných výhod.

Tým, čo sme povedali, na záver hovoríme, že BERT aj SMITH sú dôležité a obidve slúžia svojmu jedinečnému účelu.

Záver

Zatiaľ čo SMITH je bazuka, potrebujeme ju, aby sme vytvorili jasný obraz o tom, ako sa veci majú spoločne. Z hľadiska zdrojov to stojí viac, pretože robí väčšiu prácu, ale pri rovnakej práci stojí oveľa menej ako BERT.

BERT pomáha spoločnosti SMITH pomáhať porozumieť krátkym dotazom a malým častiam obsahu. Je to však dovtedy, kým Google nevyvinie ďalší algoritmus NLP, ktorý nahradí oba, a potom sa posunieme a dobehneme ďalší pokrok v SEO.

Zaujíma vás SEO? Prečítajte si naše ďalšie články na webe Semalt blog.