python的pandas dataframe可以将csv数据,或者格式化的数据(excel)等,直接转换成dataframe,一个类似表格的数据,这样在数据处理中,能够根据设定好的函数,快速的进行数据分析、处理。
C#的datatable也是将数据转换成表格的形式,这个常用的是在C#操作数据库中,直接读取数据到datatable,当然,可以将csv数据导入到数据库中,再通过连接数据库,获得对应的datatable。
下边主要还是介绍一下,如何用代码读取一个csv数据,转换成datatable进行处理,详细见代码:
//设置csv数据的分隔符
string[] separators = new string[] { " " };
string _dataLine = string.Empty;
//新建datatable
DataTable _ndt = new DataTable();
//打开文件
using (FileStream fs = new FileStream(_filepath, FileMode.Open, System.IO.FileAccess.Read))
{
//读取csv数据,这里注意的是设置数据的编码,要不然读出来会乱码
using (StreamReader sr = new StreamReader(fs, System.Text.Encoding.UTF8))
{
//第一行是表头数据,将分割成一个列名
_dataLine = sr.ReadLine();
var _columnArr = _dataLine.Split(separators, StringSplitOptions.RemoveEmptyEntries);
foreach(var _evarr in _columnArr )
{
_ndt.Columns.Add(new DataColumn(_evarr.Trim(' ')));
}
//在添加行数据,直接添加到datatable中
while ((_dataLine = sr.ReadLine()) != null)
{
_columnArr = _dataLine.Split(separators, StringSplitOptions.RemoveEmptyEntries);
_ndt.Rows.Add(_columnArr);
}
sr.Close();
sr.Dispose();
}
fs.Close();
fs.Dispose();
}
Linq在datatable中也能够进行使用,这样就能很方便的取出对应的数据,比如取某一列的数据:
var _selrow = _ndt.AsEnumerable().Select(p => p["列名"]);
从而使用Linq的语法,可以判断最大最小值,或者取出符合名称的字符串等方法,对于行数据也能进行对应的操作分析。
Linq在数据分析操作中,也能够实现很多,当然python是开源类库和平台方面支持都比较多。