我尝试这样读取txt文件:
id sub_id标识q_length alignment_length-mismatches gap_opens evalue bit_score stitle>ID1757 49.512 454 410 207 0 3.71e-159 461序列11511来自美国专利8343764>ID6556 gb | AEI19864.1 | 56.442 372 326 140 1 1.36e-135 394序列412来自美国专利7960148
我需要正确设置列。但在上一篇专栏中,我有几个词。我需要把它放在一列。
我还有这个案例:
id sub_id标识q_length alignment_length-mismatches gap_opens evalue bit_score stitle>ID54545 sp | Q59226.1 | 31.340 454 418 255 11 8.73e-49 178 RecName:Full=环麦芽糊精酶;短=CDase;短=CDase I-5;AltName:Full=环麦芽糊精水解酶,脱环[芽孢杆菌属(in:硬菌属)]
我需要将RecName后面的所有文本放在一列中
我尝试设置列名并打印最后一列,以查看系统如何定义列。
df1_column_names=[“id”“sub_id”“identity”“q_length”“alignment_length'”“不匹配”“gap_opens”“evalue”“bit_score”“stitle”]df1=pd.read_csv(“路径”,名称=df1_column_names)newdf=df1['title']newdf.to_csv('path',index=False)
但我犯了个错误。此外,在其他情况下,系统将最后一列定义为“美国专利7960148中的序列412”,例如“7960148”