Qué es el TF-IDF y cómo mejorar la relevancia de tus textos

X
Facebook
WhatsApp
LinkedIn
Email
tf idf mejorar la relevancia de los textos

¿Alguna vez te has planteado cómo la tecnología es capaz de entender los números? ¿Cómo a partir de números y complejos cálculos podemos acercar las matemáticas a la compresión del lenguaje humano?

Ya vimos en anteriores artículos cómo Google relaciona las páginas mediante los enlaces y el anchor text, cómo calcula la fuerza de una página mediante su fórmula inicial del PageRank (actualmente solo sirve como métrica orientativa) o cómo reparte esta fuerza mediante el link juice, además de cómo enfoca los resultados para responder la intención de búsqueda del usuario.

En el artículo de hoy vamos a dar un paso más allá para hablar de algo que antes no se había tocado en el blog de Publisuites. Voy a contaros cómo Google es capaz de reconocer los textos con base en las métricas del TF IDF, algo distinto, pero que guarda relación con la clásica densidad de keywords que todos conocemos.

¡Empezamos!

¿Qué es el TF IDF?

El TF IDF son las siglas en inglés de Term frequency–Inverse Document Frequency, y traducido al español sería la frecuencia de término–frecuencia inversa de documento.

Este término hace referencia a un sistema de valoración de palabras en función de las veces que se muestran en el texto, para luego hacer un cálculo inverso y descartar aquellas excesivamente repetidas en un conjunto de textos.

Esto sirve para detectar stop words o palabras muertas que se descartan del análisis y, finalmente, para relacionar qué documentos están más relacionados con ciertas palabras.

Es importante que comprendáis que el TF IDF no es un métrica que Google esté utilizando realmente, solo es un dato orientativo que ayuda a realizar este acercamiento entre los números y la comprensión del lenguaje.

Veamos un ejemplo para entender todo esto, ya que es algo complejo.

Ejemplo del TF IDF

Imaginemos que queremos tratar de mejorar la palabra clave «ganar dinero escribiendo un artículo» para la URL https://www.publisuites.com/blog/como-ganar-dinero-escribiendo-articulos/.

calcular tf
https://es.wikipedia.org/wiki/Tf-idf – Fórmula del TF
calcular idf
https://es.wikipedia.org/wiki/Tf-idf – Fórmula del IDF

En este caso, para calcular el TF IDF lo que se hace es medir la frecuencia con la que aparece un término dentro del texto, para luego realizar una comparativa de este texto con un conjunto de textos.

Durante este cálculo, los términos que se repiten más en todos los textos quedan excluidos, de tal forma que solo quedarían los términos importantes.

Al realizar la comparativa mencionada anteriormente (para la keyword «ganar dinero escribiendo un artículo»), el término «un» va a ser uno de los que más se repita dentro de los textos, al igual que otros términos tipo «de», «el», la», «una», etc.

Con el cálculo de frecuencia inversa del documento (IDF) se excluirían estos términos definidos como palabras muertas, de tal forma que solo se mantendrán las palabras relevantes como «ganar», «dinero», «escribiendo» y «artículo».

Tras realizar todo este proceso, cada texto recibe un valor para la palabra clave en función de la comparativa realizada y se ordenan en función de la relevancia para dicho término.

Más abajo explico cómo analizar la misma URL comentada en este ejemplo con la herramienta Seolyze.

Qué es el tf idf y cómo mejorar la relevancia de tus textos Share on X

Cómo usar la frecuencia de término-frecuencia inversa de documento en el SEO

El objetivo es modificar nuestro texto de tal forma que los términos y sinónimos empleados aparezcan un determinado número de veces. Este número determinado de veces deberá estar entre unos máximos y unos mínimos que serán calculados a partir de la media de repeticiones de los contenidos analizados.

Cuantos más textos sean analizados, mejor será la media obtenida de los términos a emplear y el número de veces que deben mostrarse.

tf idf ejemplo

Para ello, puedes usar programación en Python o algún software online, aunque solo suelen calcularlo en torno a los 10-20 primeros resultados de búsqueda de Google. Esto es un problema porque dejamos atrás cientos de resultados que no tenemos en cuenta para calcular esta métrica y nos daría un montón de información.

Algunas herramientas que puedes usar para calcular y comparar estas métricas son:

    • Seobility
    • Dinorank
    • Seolyze
    • Ryte

Por lo general, estas herramientas tienen su propia fórmula con la que «vitaminan» este cálculo.

Ejemplo de análisis TF IDF con Seolyze

Veamos un ejemplo con Seolyze, que tiene opción gratuita de 30 días.

Al registrarte y loguearte en la plataforma accederás directamente a la opción del WDF/IDF Análisis, que es el cálculo de su propio TF IDF.

seolyze analisis tf idf

En este ejemplo usé el término «ganar dinero escribiendo» para la URL https://www.publisuites.com/blog/como-ganar-dinero-escribiendo-articulos/

Lo configuré con la opción de que apareciera en el texto, por lo menos, dos palabras y usando la URL de referencia. Podemos incluir stop words si así lo deseamos para mejorar el análisis.

seolyze análisis

En esta captura podemos visualizar el promedio de los términos y qué partes de nuestro contenido debemos mejorar marcado en color rojo. En verde encontraremos todo lo que tenemos correctamente.

En este caso deberíamos mejorar las marcadas en rojo:

  • Longitud del texto: aumentar la cantidad de palabras del documento para estar mucho más próximo del promedio de palabras indicado, en este caso 3323 palabras.
  • Description: agregar la palabra clave y reducir el tamaño de la descripción en píxeles.
  • Title: aumentar el tamaño hasta unos 456 píxeles.

Una vez aplicados estos cambios, es importante que repitamos el análisis antes de pasar a la gráfica siguiente:

seolyze gráfica

Esta gráfica muestra los conjuntos de palabra más comunes de los textos. Este es un factor importante, ya que nos indica palabras que están relacionadas con el término que queremos posicionar.

Al modificar la longitud del texto, el title y la description, estos datos van a variar, por eso es importante hacer primero los cambios antes de pasar a esta sección.

Con base en el ejemplo de la gráfica, debemos ajustar los términos para que se aproximen a la media de repeticiones. Esto también podremos verlo más claramente justo debajo, donde nos indica en distintos recuadros los términos a repetir, reducir, o insertar dentro de nuestro texto, además de poder ver todos los términos analizados en formato tabla:

seolyze tf idf

Agregando estos términos relacionados de forma asidua, acercándonos al valor EPS-KF medio o entre este y el máximo, debería ayudarnos en nuestro SEO on page a la hora de crear contenidos y saber qué términos utilizar.

Hay que tener en cuenta que Google no utiliza esta formula realmente y nadie conoce cómo funciona realmente su algoritmo, pero este tipo de prácticas nos acerca de algún modo al tipo de prácticas que realiza Google para interpretar el contenido, por lo que puede ser útil y marcar una diferencia a la hora de trabajar textos.

Cómo calcular el TF IDF con Seolyze y mejorar la relevancia de tus textos. Share on X

Ejemplo de análisis TF IDF con Seobility

Otra herramientas que podemos usar para esto es la tool TF*IDF de Seobility. Veamos pues esta herramienta aplicando el mismo ejemplo de palabra clave y url analizada:seobility contenido con tf idf

Seobility tiene menos funciones de segmentación y el análisis lo hace en base a términos independientes.

En base a los resultado de la gráfica, la línea amarilla representa la url analizada.

Esta línea amarilla debe encontrarse entre la media (barra azul) y el máximo (barra roja) número de veces que aparece el término. En la parte inferior, una de las pestañas indica exactamente los términos que son necesarios ajustar y te permite editar el texto directamente:

mejoras seobility

Lo que tenemos que hacer es simplemente seguir las indicaciones para incluir los términos que nos sugieren o eliminar repeticiones si fuera necesario.

También podemos ver las metas, longitud de texto, tiempo de carga, los principales términos y el número de dominios que enlazan a los principales 10 resultados para nuestro análisis, muy interesante y a destacar esta funcionalidad por los datos extra que aporta:

resultados búsqueda seobility

Esto puede ser bastante útil para ver que están poniendo en las metas y poder mejorar las de la página analizada, hacerte una idea de los dominios y enlaces necesarios que tienen que apuntar a tu web, así como la velocidad de carga y la longitud del texto.

Algunos de estos datos no los ofrece Seolyze en su análisis y están bastante bien, ya que nos ofrece otros factores relevantes que pueden estar influyendo en el posicionamiento de la web como pueden ser la velocidad de carga o los enlaces.

¿Necesitas enlaces o backlinks de calidad?

En Publisuites ponemos a tu disposición más de 13.000 medios segmentados por temática, idioma, precio, tráfico y métricas SEO para que mejores la autoridad de tu web y despegues en el ranking.

Solo necesitas hacerte una cuenta de anunciante y podrás acceder a ver todos los medios.

La segunda pestaña que falta por mostrar es una tabla con todos los resultados del análisis para cada término. Esto nos ayuda si queremos profundizar en el análisis, pero con los cambios aplicados es suficiente:

tabla de valores de seability

Así puedes utilizar Seobility para hacer tus textos más relevantes. Share on X

Ejemplo de análisis TF IDF con Kiwosan

Por último, una herramienta que todos hemos escuchado hablar de ella, ya que es una de las que más se hace notar y cada vez saca nuevas funcionalidades, Kiwosan. Además de ser una gran herramienta para sacar ideas de palabras clave, también incluye un analizador de TF-IDF entre otras funcionalidades.

Para poder hacer este análisis, solo tienes que acceder a la herramienta en la sección de Análisis KF*IDF.

kiwosan análisis tf-idf

Al acceder verás los campos para insertar la palabra clave, la url y seleccionar el país de ubicación.

como hacer tf-idf

También encontrarás un acceso rápido a las últimas búsquedas realizadas, algo bastante útil.

Al realizar el análisis encontrarás primero la gráfica de palabras clave en comparativa con nuestra url. Nos aporta información bastante visual de cómo se encuentra la página.

gráfica tf-idf kiwosan

A continuación encontrarás mejoras que puedes aplicar en los contenidos respecto a modificaciones en los textos:

  • OK: estas palabras están correctas.
  • Límite: estás palabras están en el límite, es recomendable reducir la cantidad.
  • Añadir: estas palabras no aparecen y se recomiendan añadir.
  • Mejorar: la palabra necesita alguna repetición.

tabla tf-idf palabras clave

Para entender un poco mejor la tabla, describiré los campos:

  • Keyword: la palabra dentro del texto.
  • KF: el cálculo del TF en base a una fórmula propia de Kiwosan.
  • KF*IDF Max: el cálculo máximo del KF*IDF en base a los top 10 resultados de Google.
  • KF*IDF Med: el cálculo medio del KF*IDF en base a los top 10 resultados de Google.
  • KF*IDF URL: el cálculo del KF*IDF de la url seleccionada.
  • Frec Max: el número máximo de repeticiones de la palabra dentro de uno de los top 10 artículos de Google.
  • Frec Med: el número medio de repeticiones de la palabra dentro de uno de los top 10 artículos de Google.
  • Frec URL: el número repeticiones de la palabra dentro de la url analizada.
  • Aparición: en cuántas urls aparece la palabra (incluyendo tu página).
  • Estado: si se necesita mejorar, si es correcta el número de repeticiones, si es necesario añadirla al texto o se necesita reducir el número de repeticiones de la palabra.

Justo encima de la tabla encontrarás también un menú donde podrás ver algunos datos bastante interesantes:

menú tf-idf kiwosan

La primer opción de KF*IDF Global mostrará la tabla anterior , mientras que el KF*IDF por web te mostrará un análisis de estos datos individuales por url detectada.

En el apartado de Serps encontrarás datos como el número medio de palabras por artículo, el máximo y el mínimo. Esto te dará una idea de la extensión de palabras que puedes llegar a necesitar, además de ver las metas y el número de palabras por página.

serps kiwosan

Por último, una de las funcionalidades más interesantes y que pueden ayudarte a construir un artículo como expliqué en el artículo de intención de búsqueda, es la posibilidad de ver y analizar la estructura de cada página a partir de los títulos.

títulos artículos

Además de ver las palabras clave que aparecen en los títulos en cada página.

keywords títulos

Conclusiones

El TF*IDF a pesar de no ser un dato que Google está utilizando, sí es algo interesante que debemos tener en cuenta a la hora de comprar y analizar nuestros textos, ya que nos acerca a cómo se interpreta el lenguaje de forma natural.

Es conveniente hacer uso de herramientas para poder aproximarnos y calcular todo esto. Si no puedes hacer la inversión de seguido, quizá te sea útil hacer la inversión un mes y extraer toda la información posible para trabajar un largo período de tiempo.

Espero que el artículo te guste y te ayude en tus estrategias de SEO.

Foto destacada por Jason Leung de Unsplash

X
Facebook
WhatsApp
LinkedIn
Email

17 comentarios en “Qué es el TF-IDF y cómo mejorar la relevancia de tus textos”

  1. Hola Eric,
    muchas gracias por este artículo ya que desconocía que existían estas métricas y veo que son muy importantes. Aprovechando que Seolyze nos da la oportunidad de probar gratis la herramienta durante 30 días, analizaré los contenidos de mi blog.

    De nuevo gracias y un saludo. 🙂

  2. Hola!

    He usado un par de veces la herramienta DinoRank, la última vez me dediqué a usar la herramienta WDF DF, y es muy útil e intuitiva

    Muestra los datos por una, dos y tres palabras, en una gráfica y organizados en una tabla

    Y así uno decide como mejorar el texto

    Es interesante conocer estas otras herramientas

    Saludos

  3. ¡Increíble artículo sobre el TF-IDF y cómo mejorar la relevancia de los textos! El TF-IDF (Term Frequency-Inverse Document Frequency) es una técnica fundamental en el ámbito del procesamiento de lenguaje natural y el SEO.

  4. Somos clientes de publisuites desde hace años, muy interesante lo mencionado sobre el TF IDF y un gran contenido para los que trabajamos el SEO cada día. Saludos.

  5. Fascinante artículo sobre el TF IDF y su aplicación en SEO. Me impresiona cómo se pueden utilizar estas métricas para afinar la relevancia de los textos y mejorar el posicionamiento web. ¡Gran trabajo explicando un tema tan complejo de manera accesible!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *