golang解析excel、csv编码格式-天翼云

golang解析excel、csv编码格式

2024-07-01 01:32:37 阅读次数：380

前言

比如 utf8、gbk、GB18030。

excel和csv中有多种编码格式，也是比较头疼的。这里提供多种解析方式。开箱即用的工具

源码

// 转为utf8格式
ConvertToString("你的字符")

package utils

import (
  "/axgle/mahonia"
  "/x/text/encoding/simplifiedchinese"
)

const (
  GBK     string = "GBK"
  UTF8    string = "UTF8"
  UNKNOWN string = "UNKNOWN"
)

func ConvertToStringByCode(src string, srcCode string, tagCode string) string {
  srcCoder := mahonia.NewDecoder(srcCode)
  srcResult := srcCoder.ConvertString(src)
  tagCoder := mahonia.NewDecoder(tagCode)
  _, cdata, _ := tagCoder.Translate([]byte(srcResult), true)
  result := string(cdata)
  return result
}

func ConvertToStringGbkToUtf8(src string) string {
  if isUtf8([]byte(src)) {
    return src
  }
  var srcCode = "gbk"
  var tagCode = "utf-8"
  srcCoder := mahonia.NewDecoder(srcCode)
  srcResult := srcCoder.ConvertString(src)
  tagCoder := mahonia.NewDecoder(tagCode)
  _, cdata, _ := tagCoder.Translate([]byte(srcResult), true)
  result := string(cdata)
  return result
}

func ConvertToString(src string) string {
  if isUtf8([]byte(src)) {
    return src
  }
  if isGBK([]byte(src)) {
    utf8Data, err := simplifiedchinese.GBK.NewDecoder().Bytes([]byte(src))
    if err != nil {
      return src
    }
    if isUtf8(utf8Data) {
      return string(utf8Data)
    } else {
      return ConvertToStringGbkToUtf8(string(utf8Data))
    }
  }
  sink, err := simplifiedchinese.GB18030.NewDecoder().Bytes([]byte(src))
  if err != nil {
    return src
  }
  return string(sink)
}

func isGBK(data []byte) bool {
  length := len(data)
  var i int = 0
  for i < length {
    if data[i] <= 0x7f {
      //编码0~127,只有一个字节的编码，兼容ASCII码
      i++
      continue
    } else {
      //大于127的使用双字节编码，落在gbk编码范围内的字符
      if data[i] >= 0x81 &&
        data[i] <= 0xfe &&
        data[i+1] >= 0x40 &&
        data[i+1] <= 0xfe &&
        data[i+1] != 0xf7 {
        i += 2
        continue
      } else {
        return false
      }
    }
  }
  return true
}

func preNUm(data byte) int {
  var mask byte = 0x80
  var num int = 0
  //8bit中首个0bit前有多少个1bits
  for i := 0; i < 8; i++ {
    if (data & mask) == mask {
      num++
      mask = mask >> 1
    } else {
      break
    }
  }
  return num
}

func isUtf8(data []byte) bool {
  i := 0
  for i < len(data) {
    if (data[i] & 0x80) == 0x00 {
      // 0XXX_XXXX
      i++
      continue
    } else if num := preNUm(data[i]); num > 2 {
      // 110X_XXXX 10XX_XXXX
      // 1110_XXXX 10XX_XXXX 10XX_XXXX
      // 1111_0XXX 10XX_XXXX 10XX_XXXX 10XX_XXXX
      // 1111_10XX 10XX_XXXX 10XX_XXXX 10XX_XXXX 10XX_XXXX
      // 1111_110X 10XX_XXXX 10XX_XXXX 10XX_XXXX 10XX_XXXX 10XX_XXXX
      // preNUm() 返回首个字节的8个bits中首个0bit前面1bit的个数，该数量也是该字符所使用的字节数
      i++
      for j := 0; j < num-1; j++ {
        //判断后面的 num - 1 个字节是不是都是10开头
        if (data[i] & 0xc0) != 0x80 {
          return false
        }
        i++
      }
    } else {
      //其他情况说明不是utf-8
      return false
    }
  }
  return true
}

func GetStrCoding(data []byte) string {
  if isUtf8(data) == true {
    return UTF8
  } else if isGBK(data) == true {
    return GBK
  } else {
    return UNKNOWN
  }
}

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

golang解析excel、csv编码格式

golang解析excel、csv编码格式

源码

相关文章

使用ZipEntry解压zip文件报错: java.lang.IllegalArgumentException: MALFORMED

Pow(x, n)。实现 pow(x, n) ，即计算 x 的 n 次幂函数（即，x**n）。

golang与 C++数据结构类型对应关系是怎样的？

给定一个矩阵matrix，值有正、负、0，蛇可以空降到最左列的任何一个位置

青蛙过河。 一只青蛙想要过河。 假定河流被等分为若干个单元格，并且在每一个单元格内都有可能放有一块石子（也有可能没有）。

golang如何写一个插件？

【python】python3.7数据分析入门学习笔记 研读

一场电影开始和结束时间可以用一个小数组来表示[“07:30“,“12:00“]，已知有2000场电影开始和结束都在同一天，这一天从00:00开始到23:59结束，一定要选3场完全不冲突的电影来观看，返回最大的观影时间。

K 个关闭的灯泡。 N 个灯泡排成一行，编号从 1 到 N 。最初，所有灯泡都关闭。每天只打开一个灯泡，直到 N 天后所有灯泡都打开。

如何求出两个字符串的最大公共子串长度？

作者介绍

最新文章

使用ZipEntry解压zip文件报错: java.lang.IllegalArgumentException: MALFORMED

golang如何写一个插件？

K 个关闭的灯泡。 N 个灯泡排成一行，编号从 1 到 N 。最初，所有灯泡都关闭。每天只打开一个灯泡，直到 N 天后所有灯泡都打开。

逆波兰表达式求值。根据 逆波兰表示法，求表达式的值。有效的算符包括 +、-、*、/ 。每个运算对象可以是整数，也可以是另一个逆波兰表达式。

模块导入与文件读写（下）

Go打印cmd.Process.Pid报错

热门文章

pandas 读取/保存压缩格式的csv文件.csv.gz

用golang官方Docker镜像运行项目

golang异常处理详解

python3将中文表头的excel处理成英文表头的csv文件

go math/rand与crypto/rand包详解

golang ldap 学习

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

pandas 读取/保存压缩格式的csv文件.csv.gz

给定一个数组componets，长度为A， componets[i] = j，代表i类型的任务需要耗时j 给定一个二维数组orders，长度为M， orders[i][1]代表i号订单是哪种类型的任务，毫无疑问orders[i][1] < A

给定一个正数n，求n的裂开方法数。规定：后面的数不能比前面的数小 。

二叉树的锯齿形层序遍历。

数组中只有0和1，每过1代，0旁边只有1个1，当前0会变成1。每过1代，0旁边有2个1，当前0还是0。 比如10001，经过1代，会变成11011，再过1代，还是11011 。

cheggaaa/pb golang 进度条包

青蛙过河。一只青蛙想要过河。假定河流被等分为若干个单元格，并且在每一个单元格内都有可能放有一块石子（也有可能没有）。

【python】python3.7数据分析入门学习笔记研读

逆波兰表达式求值。根据逆波兰表示法，求表达式的值。有效的算符包括 +、-、*、/ 。每个运算对象可以是整数，也可以是另一个逆波兰表达式。

给定一个正数n，求n的裂开方法数。规定：后面的数不能比前面的数小。

数组中只有0和1，每过1代，0旁边只有1个1，当前0会变成1。每过1代，0旁边有2个1，当前0还是0。比如10001，经过1代，会变成11011，再过1代，还是11011 。