¿Alguna vez te has planteado cómo la tecnología es capaz de entender los números? ¿Cómo a partir de números y complejos cálculos podemos acercar las matemáticas a la compresión del lenguaje humano?
Ya vimos en anteriores artículos cómo Google relaciona las páginas mediante los enlaces y el anchor text, cómo calcula la fuerza de una página mediante su fórmula inicial del PageRank (actualmente solo sirve como métrica orientativa) o cómo reparte esta fuerza mediante el link juice, además de cómo enfoca los resultados para responder la intención de búsqueda del usuario.
En el artículo de hoy vamos a dar un paso más allá para hablar de algo que antes no se había tocado en el blog de Publisuites. Voy a contaros cómo Google es capaz de reconocer los textos con base en las métricas del TF IDF, algo distinto, pero que guarda relación con la clásica densidad de keywords que todos conocemos.
¡Empezamos!
¿Qué es el TF IDF?
El TF IDF son las siglas en inglés de Term frequency–Inverse Document Frequency, y traducido al español sería la frecuencia de término–frecuencia inversa de documento.
Este término hace referencia a un sistema de valoración de palabras en función de las veces que se muestran en el texto, para luego hacer un cálculo inverso y descartar aquellas excesivamente repetidas en un conjunto de textos.
Esto sirve para detectar stop words o palabras muertas que se descartan del análisis y, finalmente, para relacionar qué documentos están más relacionados con ciertas palabras.
Es importante que comprendáis que el TF IDF no es un métrica que Google esté utilizando realmente, solo es un dato orientativo que ayuda a realizar este acercamiento entre los números y la comprensión del lenguaje.
Veamos un ejemplo para entender todo esto, ya que es algo complejo.
Ejemplo del TF IDF
Imaginemos que queremos tratar de mejorar la palabra clave «ganar dinero escribiendo un artículo» para la URL https://www.publisuites.com/blog/como-ganar-dinero-escribiendo-articulos/.
En este caso, para calcular el TF IDF lo que se hace es medir la frecuencia con la que aparece un término dentro del texto, para luego realizar una comparativa de este texto con un conjunto de textos.
Durante este cálculo, los términos que se repiten más en todos los textos quedan excluidos, de tal forma que solo quedarían los términos importantes.
Al realizar la comparativa mencionada anteriormente (para la keyword «ganar dinero escribiendo un artículo»), el término «un» va a ser uno de los que más se repita dentro de los textos, al igual que otros términos tipo «de», «el», la», «una», etc.
Con el cálculo de frecuencia inversa del documento (IDF) se excluirían estos términos definidos como palabras muertas, de tal forma que solo se mantendrán las palabras relevantes como «ganar», «dinero», «escribiendo» y «artículo».
Tras realizar todo este proceso, cada texto recibe un valor para la palabra clave en función de la comparativa realizada y se ordenan en función de la relevancia para dicho término.
Más abajo explico cómo analizar la misma URL comentada en este ejemplo con la herramienta Seolyze.
Qué es el tf idf y cómo mejorar la relevancia de tus textos Share on XCómo usar la frecuencia de término-frecuencia inversa de documento en el SEO
El objetivo es modificar nuestro texto de tal forma que los términos y sinónimos empleados aparezcan un determinado número de veces. Este número determinado de veces deberá estar entre unos máximos y unos mínimos que serán calculados a partir de la media de repeticiones de los contenidos analizados.
Cuantos más textos sean analizados, mejor será la media obtenida de los términos a emplear y el número de veces que deben mostrarse.
Para ello, puedes usar programación en Python o algún software online, aunque solo suelen calcularlo en torno a los 10-20 primeros resultados de búsqueda de Google. Esto es un problema porque dejamos atrás cientos de resultados que no tenemos en cuenta para calcular esta métrica y nos daría un montón de información.
Algunas herramientas que puedes usar para calcular y comparar estas métricas son:
-
- Seobility
- Dinorank
- Seolyze
- Ryte
Por lo general, estas herramientas tienen su propia fórmula con la que «vitaminan» este cálculo.
Ejemplo de análisis TF IDF con Seolyze
Veamos un ejemplo con Seolyze, que tiene opción gratuita de 30 días.
Al registrarte y loguearte en la plataforma accederás directamente a la opción del WDF/IDF Análisis, que es el cálculo de su propio TF IDF.
En este ejemplo usé el término «ganar dinero escribiendo» para la URL https://www.publisuites.com/blog/como-ganar-dinero-escribiendo-articulos/
Lo configuré con la opción de que apareciera en el texto, por lo menos, dos palabras y usando la URL de referencia. Podemos incluir stop words si así lo deseamos para mejorar el análisis.
En esta captura podemos visualizar el promedio de los términos y qué partes de nuestro contenido debemos mejorar marcado en color rojo. En verde encontraremos todo lo que tenemos correctamente.
En este caso deberíamos mejorar las marcadas en rojo:
- Longitud del texto: aumentar la cantidad de palabras del documento para estar mucho más próximo del promedio de palabras indicado, en este caso 3323 palabras.
- Description: agregar la palabra clave y reducir el tamaño de la descripción en píxeles.
- Title: aumentar el tamaño hasta unos 456 píxeles.
Una vez aplicados estos cambios, es importante que repitamos el análisis antes de pasar a la gráfica siguiente:
Esta gráfica muestra los conjuntos de palabra más comunes de los textos. Este es un factor importante, ya que nos indica palabras que están relacionadas con el término que queremos posicionar.
Al modificar la longitud del texto, el title y la description, estos datos van a variar, por eso es importante hacer primero los cambios antes de pasar a esta sección.
Con base en el ejemplo de la gráfica, debemos ajustar los términos para que se aproximen a la media de repeticiones. Esto también podremos verlo más claramente justo debajo, donde nos indica en distintos recuadros los términos a repetir, reducir, o insertar dentro de nuestro texto, además de poder ver todos los términos analizados en formato tabla:
Agregando estos términos relacionados de forma asidua, acercándonos al valor EPS-KF medio o entre este y el máximo, debería ayudarnos en nuestro SEO on page a la hora de crear contenidos y saber qué términos utilizar.
Hay que tener en cuenta que Google no utiliza esta formula realmente y nadie conoce cómo funciona realmente su algoritmo, pero este tipo de prácticas nos acerca de algún modo al tipo de prácticas que realiza Google para interpretar el contenido, por lo que puede ser útil y marcar una diferencia a la hora de trabajar textos.
Cómo calcular el TF IDF con Seolyze y mejorar la relevancia de tus textos. Share on XEjemplo de análisis TF IDF con Seobility
Otra herramientas que podemos usar para esto es la tool TF*IDF de Seobility. Veamos pues esta herramienta aplicando el mismo ejemplo de palabra clave y url analizada:
Seobility tiene menos funciones de segmentación y el análisis lo hace en base a términos independientes.
En base a los resultado de la gráfica, la línea amarilla representa la url analizada.
Esta línea amarilla debe encontrarse entre la media (barra azul) y el máximo (barra roja) número de veces que aparece el término. En la parte inferior, una de las pestañas indica exactamente los términos que son necesarios ajustar y te permite editar el texto directamente:
Lo que tenemos que hacer es simplemente seguir las indicaciones para incluir los términos que nos sugieren o eliminar repeticiones si fuera necesario.
También podemos ver las metas, longitud de texto, tiempo de carga, los principales términos y el número de dominios que enlazan a los principales 10 resultados para nuestro análisis, muy interesante y a destacar esta funcionalidad por los datos extra que aporta:
Esto puede ser bastante útil para ver que están poniendo en las metas y poder mejorar las de la página analizada, hacerte una idea de los dominios y enlaces necesarios que tienen que apuntar a tu web, así como la velocidad de carga y la longitud del texto.
Algunos de estos datos no los ofrece Seolyze en su análisis y están bastante bien, ya que nos ofrece otros factores relevantes que pueden estar influyendo en el posicionamiento de la web como pueden ser la velocidad de carga o los enlaces.
En Publisuites ponemos a tu disposición más de 13.000 medios segmentados por temática, idioma, precio, tráfico y métricas SEO para que mejores la autoridad de tu web y despegues en el ranking.
Solo necesitas hacerte una cuenta de anunciante y podrás acceder a ver todos los medios.
La segunda pestaña que falta por mostrar es una tabla con todos los resultados del análisis para cada término. Esto nos ayuda si queremos profundizar en el análisis, pero con los cambios aplicados es suficiente:
Así puedes utilizar Seobility para hacer tus textos más relevantes. Share on XEjemplo de análisis TF IDF con Kiwosan
Por último, una herramienta que todos hemos escuchado hablar de ella, ya que es una de las que más se hace notar y cada vez saca nuevas funcionalidades, Kiwosan. Además de ser una gran herramienta para sacar ideas de palabras clave, también incluye un analizador de TF-IDF entre otras funcionalidades.
Para poder hacer este análisis, solo tienes que acceder a la herramienta en la sección de Análisis KF*IDF.
Al acceder verás los campos para insertar la palabra clave, la url y seleccionar el país de ubicación.
También encontrarás un acceso rápido a las últimas búsquedas realizadas, algo bastante útil.
Al realizar el análisis encontrarás primero la gráfica de palabras clave en comparativa con nuestra url. Nos aporta información bastante visual de cómo se encuentra la página.
A continuación encontrarás mejoras que puedes aplicar en los contenidos respecto a modificaciones en los textos:
- OK: estas palabras están correctas.
- Límite: estás palabras están en el límite, es recomendable reducir la cantidad.
- Añadir: estas palabras no aparecen y se recomiendan añadir.
- Mejorar: la palabra necesita alguna repetición.
Para entender un poco mejor la tabla, describiré los campos:
- Keyword: la palabra dentro del texto.
- KF: el cálculo del TF en base a una fórmula propia de Kiwosan.
- KF*IDF Max: el cálculo máximo del KF*IDF en base a los top 10 resultados de Google.
- KF*IDF Med: el cálculo medio del KF*IDF en base a los top 10 resultados de Google.
- KF*IDF URL: el cálculo del KF*IDF de la url seleccionada.
- Frec Max: el número máximo de repeticiones de la palabra dentro de uno de los top 10 artículos de Google.
- Frec Med: el número medio de repeticiones de la palabra dentro de uno de los top 10 artículos de Google.
- Frec URL: el número repeticiones de la palabra dentro de la url analizada.
- Aparición: en cuántas urls aparece la palabra (incluyendo tu página).
- Estado: si se necesita mejorar, si es correcta el número de repeticiones, si es necesario añadirla al texto o se necesita reducir el número de repeticiones de la palabra.
Justo encima de la tabla encontrarás también un menú donde podrás ver algunos datos bastante interesantes:
La primer opción de KF*IDF Global mostrará la tabla anterior , mientras que el KF*IDF por web te mostrará un análisis de estos datos individuales por url detectada.
En el apartado de Serps encontrarás datos como el número medio de palabras por artículo, el máximo y el mínimo. Esto te dará una idea de la extensión de palabras que puedes llegar a necesitar, además de ver las metas y el número de palabras por página.
Por último, una de las funcionalidades más interesantes y que pueden ayudarte a construir un artículo como expliqué en el artículo de intención de búsqueda, es la posibilidad de ver y analizar la estructura de cada página a partir de los títulos.
Además de ver las palabras clave que aparecen en los títulos en cada página.
Conclusiones
El TF*IDF a pesar de no ser un dato que Google está utilizando, sí es algo interesante que debemos tener en cuenta a la hora de comprar y analizar nuestros textos, ya que nos acerca a cómo se interpreta el lenguaje de forma natural.
Es conveniente hacer uso de herramientas para poder aproximarnos y calcular todo esto. Si no puedes hacer la inversión de seguido, quizá te sea útil hacer la inversión un mes y extraer toda la información posible para trabajar un largo período de tiempo.
Espero que el artículo te guste y te ayude en tus estrategias de SEO.
Foto destacada por Jason Leung de Unsplash
17 comentarios en “Qué es el TF-IDF y cómo mejorar la relevancia de tus textos”
Hola Eric,
muchas gracias por este artículo ya que desconocía que existían estas métricas y veo que son muy importantes. Aprovechando que Seolyze nos da la oportunidad de probar gratis la herramienta durante 30 días, analizaré los contenidos de mi blog.
De nuevo gracias y un saludo. 🙂
Hola Jesús!
Te recomiendo probar varias herramientas antes de elegir una =)
He actualizado el artículo con otra herramienta más por si quieres pegarle un vistazo 😉
Me encantó tu contenido! 😉
Muchas gracias Nélida =) Espero que te ayude=D
Excelente información, estoy recién tomando el camino a ser redactor y esto es de suma ayuda, te felicito, muchas gracias.
Me alegro Fabian!
En el blog encontrarás varios artículos interesantes, no solo de SEO, también sobre copy =)
Hola!
He usado un par de veces la herramienta DinoRank, la última vez me dediqué a usar la herramienta WDF DF, y es muy útil e intuitiva
Muestra los datos por una, dos y tres palabras, en una gráfica y organizados en una tabla
Y así uno decide como mejorar el texto
Es interesante conocer estas otras herramientas
Saludos
Hola Luis!
Gracias por el porte =)
No sabia de este tipo de analisis del texto, ahora tendre que en que aprender un poco más. Muchas gracias!!!
Hola Zaid!
Como consejo te recomiendo que sigas un proceso de tareas, ya que dentro del SEO hay muchas cosas que se pueden hacer.
=)
Sin duda un interesante artículo con una característica en el que pocos SEOs caemos. Gracias por la aportación. Va para Twitter.
Gracias Mel 🙂
realmente es un articulo muy interesante.
¡Increíble artículo sobre el TF-IDF y cómo mejorar la relevancia de los textos! El TF-IDF (Term Frequency-Inverse Document Frequency) es una técnica fundamental en el ámbito del procesamiento de lenguaje natural y el SEO.
Somos clientes de publisuites desde hace años, muy interesante lo mencionado sobre el TF IDF y un gran contenido para los que trabajamos el SEO cada día. Saludos.
¡Muchas gracias, Ander!
Fascinante artículo sobre el TF IDF y su aplicación en SEO. Me impresiona cómo se pueden utilizar estas métricas para afinar la relevancia de los textos y mejorar el posicionamiento web. ¡Gran trabajo explicando un tema tan complejo de manera accesible!