Kako koristiti alat Ngram Viewer u Google knjigama

Sadržaj:

Kako koristiti alat Ngram Viewer u Google knjigama
Kako koristiti alat Ngram Viewer u Google knjigama
Anonim

Što treba znati

  • U Google Books Ngram Viewer upišite izraz, odaberite raspon datuma i korpus, postavite razinu izglađivanja i kliknite Pretraži puno knjiga.
  • Možete dublje analizirati podatke. Na primjer, za traženje glagolskog oblika riba, umjesto imenice riba, koristite oznaku: traži fish_VERB.
  • Ngram Viewer daje grafikon koji predstavlja upotrebu izraza kroz vrijeme. Za više fraza, svaka je predstavljena linijom označenom bojom.

Ovaj članak objašnjava kako koristiti alat Ngram Viewer u Google knjigama za provođenje istraživanja i naprednih pretraživanja.

Image
Image

Kako radi Ngram Viewer

Ngram, koji se naziva i N-gram, statistička je analiza teksta ili govornog sadržaja kako bi se pronašao n (broj) neke vrste stavke u tekstu.

Stavka pretraživanja može biti svakakva, uključujući foneme, prefikse, fraze i slova. Iako je Ngram nepoznat izvan istraživačke zajednice, koristi se u raznim poljima i ima mnogo implikacija za programere koji kodiraju računalne programe koji razumiju i reagiraju na prirodni govorni jezik.

U slučaju Google Books Ngram Viewer-a, tekst koji treba analizirati dolazi iz ogromnog broja knjiga u javnoj domeni koje je Google skenirao kako bi popunio svoju tražilicu Google Books. Za Google Books Ngram Viewer, Google tijelo teksta koji ćete pretraživati naziva korpusom. Ngram Viewer agregira prema jeziku, iako možete odvojeno analizirati britanski i američki engleski ili ih spojiti zajedno.

  1. Idite na Google Books Ngram Viewer na books.google.com/ngrams.
  2. Upišite bilo koju frazu ili fraze koje želite analizirati. Svaku frazu odvojite zarezom. Google predlaže "Albert Einstein, Sherlock Holmes, Frankenstein" za početak.

    U pretraživanjima NGram Viewer-a, stavke su osjetljive na velika i mala slova, za razliku od Google pretraživanja weba.

  3. Odaberite raspon datuma. Zadana postavka je 1800 do 2000.
  4. Odaberite korpus. Možete pretraživati tekstove na stranom jeziku ili tekstove na engleskom jeziku, a osim standardnih izbora, možete primijetiti unose kao što su "engleski (2009)" ili "američki engleski (2009)" na dnu popisa. Ovo su stariji korpusi koje je Google u međuvremenu ažurirao, ali možda imate razloga za usporedbu sa starim skupovima podataka. Većina ih korisnika može zanemariti i usredotočiti se na najnovije korpuse.
  5. Postavite razinu izglađivanja. Izglađivanje se odnosi na to koliko je grafikon gladak na kraju. Najtočniji prikaz odražava razinu izglađivanja od 0, ali tu postavku može biti teško očitati. Zadana vrijednost je postavljena na 3. U većini slučajeva ne morate je prilagođavati.

  6. Pritisnite Pretraži mnogo knjiga.

Koristeći Googleov Ngram Viewer, možete detaljno proučiti podatke. Ako želite pretraživati glagol riba umjesto imenice riba, to možete učiniti pomoću oznaka. U ovom slučaju, tražili biste fish_VERB.

Google na svojoj web stranici pruža potpun popis naredbi i drugu naprednu dokumentaciju za korištenje s Ngram Viewerom.

Donja crta

Google Books Ngram Viewer ispisuje grafikon koji predstavlja upotrebu određene fraze u knjigama kroz vrijeme. Ako ste unijeli više od jedne riječi ili fraze, svaka je predstavljena linijom označenom bojom radi kontrasta s drugim pojmovima za pretraživanje. Ovo je slično Google trendovima, samo što pretraživanje pokriva duže razdoblje.

Studija slučaja

Razmotrite studiju slučaja pita s octom. Spominju se u seriji Little House on the Prairie Laure Ingalls Wilder. Istraživanje pomoću Googleovog pretraživanja weba kako biste saznali više o pitama s octom otkriva da se one smatraju dijelom američke južnjačke kuhinje i da se doista rade s octom. Prisjećaju se vremena kada nisu svi imali pristup svježim proizvodima u svako doba godine, ali je li to cijela priča?

Pretražite Google Ngram Viewer za octenu pitu i naići ćete na neka spominjanja pite u ranim i kasnim 1800-ima, mnogo spominjanja u 1940-ima i sve veći broj spominjanja u novije vrijeme. Međutim, s razinom izglađivanja od 3, vidite plato iznad spominjanja u 1800-ima. Budući da u to vrijeme nije bilo objavljeno puno knjiga i budući da su podaci postavljeni glatko, slika je iskrivljena. Vjerojatno je samo jedna knjiga spominjala pitu s octom, a bila je u prosjeku kako bi se izbjegao skok. Postavljanjem izglađivanja na 0, možete vidjeti da je to upravo tako. Šiljak je u središtu 1869., a postoji još jedan skok u 1897. i 1900.

Malo je vjerojatno da nitko nije govorio o pitama s octom ostatak vremena: Vjerojatno je bilo recepata koji su lebdjeli posvuda, ali ljudi o njima nisu pisali u knjigama, a to je važno ograničenje Ngram pretraživanja.

Preporučeni: