如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8

16,117次阅读

共计 3393 个字符，预计需要花费 9 分钟才能阅读完成。

在日常开发中，我们经常会遇到不同编码格式的文件，比如 UTF-8、ASCII、Windows-1252、ISO-8859-1 等。文件编码不一致可能导致读取或处理文件时出现乱码，特别是在批量处理数据文件时。因此，将文件编码统一为 UTF-8 是非常有必要的。

本篇文章将带您一步步使用 Python 来批量检测 .jsonl 文件的编码类型，并将非 UTF-8 编码的文件转换为 UTF-8，确保所有文件的编码一致性。

如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8
作者简介
- 猫头虎是谁？
- 作者名片 ✍️
- 加入我们 AI 共创团队 🌐
- 加入猫头虎的共创圈，一起探索编程世界的无限可能！🚀
正文
- 使用 Python 检测文件编码
- - 准备工具
  - 编写编码检测代码
  - 代码解析
  - 运行代码
- 将非 UTF-8 编码的文件转换为 UTF-8
- 总结
粉丝福利区
- - 联系我与版权声明 📩

大家好，我是猫头虎，猫头虎技术团队创始人，也被大家称为猫哥。我目前是COC 北京城市开发者社区主理人、COC 西安城市开发者社区主理人，以及云原生开发者社区主理人，在多个技术领域如云原生、前端、后端、运维和 AI都具备丰富经验。

我的博客内容涵盖广泛，主要分享技术教程、Bug 解决方案、开发工具使用方法、前沿科技资讯、产品评测、产品使用体验，以及产品优缺点分析、横向对比、技术沙龙参会体验等。我的分享聚焦于云服务产品评测、AI 产品对比、开发板性能测试和技术报告。

目前，我活跃在 CSDN、51CTO、腾讯云、阿里云开发者社区、知乎、微信公众号、视频号、抖音、B 站、小红书等平台，全网粉丝已超过 30 万。我所有平台的 IP 名称统一为猫头虎或猫头虎博主。

我希望通过我的分享，帮助大家更好地掌握和使用各种技术产品，提升开发效率与体验。

如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8

作者名片 ✍️

博主：猫头虎

全网搜索关键词 ：猫头虎

作者微信号：Libin9iOak

作者公众号 ：猫头虎技术团队

更新日期：2024 年 10 月 10 日

🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能！

猫头虎 AI 共创社群矩阵列表：
- 点我进入共创社群矩阵入口
- 点我进入新矩阵备用链接入口

如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8

在 Python 中，我们可以使用 chardet 库来检测文件的编码。这个库非常实用，它能够自动检测文件的编码类型。首先，我们需要安装 chardet 库：

pip install chardet

首先，我们编写一个 Python 脚本，遍历指定文件夹中的 .jsonl 文件，并检测每个文件的编码类型。我们会将所有检测到的编码类型去重，并输出唯一的编码类型到控制台，便于分析文件的编码分布情况。

import os
import chardet

def detect_encoding(file_path):
    
    with open(file_path, 'rb') as f:
        raw_data = f.read()
        result = chardet.detect(raw_data)
        return result['encoding']


folder_path = "C:/path/to/your/jsonl_files"
encoding_results = set()  


for filename in os.listdir(folder_path):
    if filename.endswith(".jsonl"):
        file_path = os.path.join(folder_path, filename)
        encoding = detect_encoding(file_path)
        encoding_results.add(encoding)  
        print(f"文件: {filename} 编码: {encoding}")


print("n 唯一的编码类型:")
for encoding in encoding_results:
    print(encoding)

编码检测函数：detect_encoding 函数使用 chardet 库检测文件的编码类型，返回检测到的编码格式。
遍历文件夹：指定文件夹路径后，代码会遍历该文件夹下所有 .jsonl 文件，调用 detect_encoding 函数来检测每个文件的编码。
结果去重：使用集合 encoding_results 存储编码类型，从而自动去重，最终输出唯一的编码类型。

将代码保存为 detect_encoding_unique.py，然后运行脚本：

python detect_encoding_unique.py

在终端中，您将看到每个文件的编码类型，以及所有文件的唯一编码类型列表。这样我们可以快速了解文件夹中的 .jsonl 文件包含哪些编码格式，为后续的编码转换提供依据。

检测完编码之后，我们可以进一步将所有非 UTF-8 编码的文件转换为 UTF-8。以下是转换代码：

import os
import chardet

def convert_to_utf8(file_path):
    
    with open(file_path, 'rb') as f:
        raw_data = f.read()
        result = chardet.detect(raw_data)
        encoding = result['encoding']
    
    
    if encoding.lower() == 'utf-8':
        print(f"{file_path} 已经是 UTF-8 编码，无需转换。")
        return

    
    with open(file_path, 'r', encoding=encoding) as f:
        content = f.read()
    
    
    with open(file_path, 'w', encoding='utf-8') as f:
        f.write(content)
    
    print(f"{file_path} 已成功从 {encoding} 编码转换为 UTF-8 编码。")


folder_path = "C:/path/to/your/jsonl_files"


for filename in os.listdir(folder_path):
    if filename.endswith(".jsonl"):
        file_path = os.path.join(folder_path, filename)
        convert_to_utf8(file_path)

编码检测：代码会检测文件的编码格式，如果是 UTF-8，则跳过该文件。
编码转换：对于非 UTF-8 文件，代码使用原编码读取文件内容，并重新保存为 UTF-8 编码。
遍历文件：代码遍历指定文件夹中的所有 .jsonl 文件，并对每个文件执行编码检测和转换。

将代码保存为 convert_to_utf8.py，然后运行脚本：

python convert_to_utf8.py

在运行过程中，脚本会显示每个文件的编码转换状态。所有非 UTF-8 编码的文件都将被转换为 UTF-8，确保编码一致性。

通过以上步骤，我们实现了以下功能：

编码检测：使用 chardet 库自动检测文件编码，并去重显示唯一编码类型。
编码转换：批量将非 UTF-8 编码的 .jsonl 文件转换为 UTF-8，确保文件编码一致性。

这两个脚本可以帮助开发者快速批量处理文件的编码问题，避免编码不一致导致的乱码或读取错误。在日常开发和数据处理中，确保文件编码一致性是非常重要的一步，特别是在处理来自不同系统或来源的数据文件时。

希望本文对您有所帮助！如果您有更复杂的需求或需要处理更多编码格式，chardet 仍然是一个值得推荐的工具。您也可以根据需要，将这些脚本拓展应用到其他文件类型和编码场景中。

如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8

👉 更多信息 ：有任何疑问或者需要进一步探讨的内容，欢迎点击文末名片获取更多信息。我是猫头虎博主，期待与您的交流！🦉💬

联系方式：
- 微信: Libin9iOak
- 公众号: 猫头虎技术团队
版权声明 ：
本文为原创文章，版权归作者所有。未经许可，禁止转载。更多内容请访问猫头虎的博客首页。

点击 ✨⬇️ 下方名片 ⬇️✨，加入猫头虎 AI 共创社群矩阵。一起探索科技的未来，共同成长。🚀

如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8

🔗 猫头虎抱团 AI 共创社群 |
🔗 Go 语言 VIP 专栏 |
🔗 GitHub 代码仓库 |
🔗 Go 生态洞察专栏

✨ 猫头虎精品博文

原文地址: 如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8

正文完

pyqt

发表至：开发笔记

2024-11-04

0

转载说明：

1 本网站名称：优杰开发笔记
2 本站永久网址：https://yojack.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站所有内容均可转载及分享, 但请注明出处
6 我们始终尊重原创作者的版权，所有文章在发布时，均尽可能注明出处与作者。
7 站长邮箱：laylwenl@gmail.com

什么是后端框架？加速服务器端应用开发的利器

JS中 PageX、clientX、offsetX、layerX、offsetTop、offsetWidth各位置属性详解

全球需求量最大的8种编程语言！JavaScript领先，市场占比29%！

什么是树？数据结构之树讲解!

settings.json：Visual Studio Code的深度定制化核心

如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8