Como usar a ferramenta 'Ngram Viewer' en Google Books

Un Ngram, tamén chamado un N-gram, é unha análise estatística do contido de texto ou de fala para atopar n (un número) de algún tipo de elemento no texto. Podería ser todo tipo de cousas, como fonemas, prefixos, frases ou letras. Aínda que o N-gram é un pouco escuro fóra do investigador, é realmente usado en diversos campos e ten moitas implicacións para as persoas que fan programas de computación que entenden e responden con linguaxe natural falada. Que, en poucas palabras, sería o interese de Google pola idea.

No caso de Google Books Ngram Viewer, o texto a analizar provén da gran cantidade de libros que Google analizou nas bibliotecas públicas para encher o seu buscador de Google Books . Para Google Books Ngram Viewer, fan referencia ao texto que buscarás como "corpus". O corpo no Ngram Viewer está dividido polo idioma, aínda que se pode analizar por separado o inglés británico e americano ou xuntalos. Acaba sendo súper interesante alternar entre o uso británico e norteamericano dos termos e ver os cambios nos gráficos.

Como funciona Ngram

  1. Vai a Google Books Ngram Viewer en books.google.com/ngrams.
  2. Os elementos distinguen entre maiúsculas e minúsculas, a diferenza das procuras na web de Google, así que asegúrate de capitalizar os nomes propios.
  3. Escriba calquera frase ou frase que desexe analizar. Asegúrese de separar cada frase cunha coma. Google suxire, "Albert Einstein, Sherlock Holmes, Frankenstein" para comezar.
  4. A continuación, escribe un intervalo de datas. O valor predeterminado é de 1800 a 2000, pero hai libros máis recentes (2011 foi a lista máis recente na documentación de Google, pero isto puido cambiar).
  5. Elixe un corpus. Podes buscar textos en lingua estranxeira ou en inglés e, ademais das opcións estándar, pode notar cousas como "English (2009) or American English (2009)" na parte inferior. Estes son os corpos máis antigos que Google actualizou desde entón, pero pode ter algunha razón para facer as súas comparacións contra os antigos conxuntos de datos. A maioría dos usuarios poden ignoralo e concentrarse nos corpos máis recentes.
  6. Establece o teu nivel de alisado. A suavización refírese á suavidade do gráfico ao final. A representación máis precisa sería un nivel de alisado de 0, pero isto pode ser difícil de ler. O valor predeterminado está establecido en 3. Na maioría dos casos, non precisa axustar isto.
  1. Preme o botón Buscar moitos libros . (Tamén pode premer Intro no indicador de busca).

Que se mostra Ngram?

Google Books Ngram Viewer mostrará un gráfico que representa o uso dunha frase particular nos libros ao longo do tempo. Se ingresou máis dunha palabra ou frase, verá liñas codificadas por cores para contrastar os diferentes termos de busca. Isto é moi semellante ás tendencias de Google , só a busca cobre un período de tempo máis longo.

Aquí tes un exemplo de vida real. Tivemos curiosidade sobre os pasteis de vinagre recentemente. Son mencionados na pequena casa de Laura Ingalls Wilder na serie Prairie , pero nunca oímos falar. Primeiro utilizamos a busca na web de Google para obter máis información sobre pasteis de vinagre. Ao parecer, son considerados parte da cociña meridional americana e realmente están feitos de vinagre. Eles escuchan os tempos en que non todos tiñan acceso a produtos frescos en todos os momentos do ano. ¿É toda a historia?

Buscamos Google Ngram Viewer, e hai algunhas mencións da torta tanto no inicio dos anos 1800 como nas primeiras mencións nos anos 40 e un número crecente de mencións nos últimos tempos (quizais algunha nostalxia de pasteis). Ben, hai algúns problema cos datos a un nivel de alisado de 3. Hai unha meseta sobre as mencións no século 18. Seguramente non houbo un número igual de menciones dunha torta particular cada ano durante cinco anos? O que está pasando é que porque non hai moitos libros publicados durante ese tempo e porque os nosos datos están definidos para suavizar, distorsiona a imaxe. Probablemente houbo un libro que mencionaba a torta de vinagre, e só conseguiu un promedio para evitar un pico. Ao configurar o alisado a 0, podemos ver que este é o caso. A espiga céntrase en 1869, e hai outro pico en 1897 e 1900.

Non se falou de vinagre o resto do tempo? Probablemente falaron sobre esas tortas. Había probablemente receitas flotando por todo o lugar. Eles simplemente non escribiron sobre eles nos libros, e iso é unha limitación destas procuras Ngram.

Búsquedas avanzadas de Ngram

Teña en conta que como dixemos que Ngrams podería consistir en todo tipo de búsquedas de texto diferentes? Google tamén che permite perfilar un pouco co Ngram Viewer. Se desexa buscar peixes o verbo en lugar de pescar o substantivo, pode facelo usando etiquetas. Neste caso, buscaría "fish_VERB"

Google ofrece unha lista completa dos comandos que pode usar e outra documentación avanzada no seu sitio web.