使用Python实现一个简单实用的文本词频统计分析工具_Python

前言

文本分析是自然语言处理（nlp）中的基础任务，而词频统计则是文本分析的入门级应用。通过词频分析，我们可以快速了解文本的主题倾向、关键信息分布以及语言使用习惯。本文将带你实现一个简单而实用的文本词频统计工具，非常适合python初学者练手。

功能特点

支持任意.txt格式文本文件的词频分析

自动处理文本编码问题

使用正则表达式精确提取英文单词（包括带连字符和撇号的单词）

按频率排序并计算每个单词的出现比例

支持查看前n个高频词功能

代码实现

import re
from collections import defaultdict


def word_frequency(file_path, top_n=none):
    """
    统计文本文件中的单词频率
    :param file_path: 文本文件路径
    :param top_n: 显示前n个高频词，默认显示全部
    :return: 排序后的单词频率列表
    """
    # 读取文件内容
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            text = file.read().lower()  # 转为小写
    except filenotfounderror:
        print(f"错误：文件 {file_path} 未找到")
        return []
    except unicodedecodeerror:
        print("错误：文件编码不支持，请尝试使用其他编码（如gbk）")
        return []

    # 使用正则表达式提取单词（包括带连字符的单词）
    words = re.findall(r"\b[a-za-z'-]+\b", text)

    # 统计词频
    frequency = defaultdict(int)
    for word in words:
        frequency[word] += 1

    # 按频率排序
    sorted_words = sorted(frequency.items(), key=lambda x: x[1], reverse=true)

    # 输出结果
    print(f"\n总共有 {len(words)} 个单词，其中唯一单词 {len(sorted_words)} 个")
    print("排名 | 单词\t\t频率\t占比")
    print("-" * 40)

    total_words = len(words)
    for rank, (word, count) in enumerate(sorted_words[:top_n], 1):
        percentage = (count / total_words) * 100
        print(f"{rank:4} | {word:12} {count:6} \t{percentage:.2f}%")

    return sorted_words


if __name__ == "__main__":
    # 使用示例
    file_path = input("请输入文本文件路径：").strip()
    top_n = input("要显示前多少个高频词（默认全部）：").strip()
    top_n = int(top_n) if top_n.isdigit() else none

    word_frequency(file_path, top_n)

代码解析

导入必要模块：