标记为python字符串文本的活动问题-堆栈溢出

标记为python字符串文本的活动问题-堆栈溢出最近30次来自stackoverflow.com 2024-07-01T00:39:59Z https://stackoverflow.com/feeds/tag？标记名=python+字符串+文本&amp；sort=最新 https://creativecommons.org/licenses/by-sa/4.0/rdf https://stackoverflow.com/q/78297445 1 有没有办法检测文本中重复的单词序列？阿韦斯·纳瓦兹 https://stackoverflow.com/users/17660113 2024-04-09T09:27:40Z 2024-04-09T13:55:26Z年4月9日

我正在开发一个ASR应用程序，虽然我知道我只能在一定程度上使用VAD或质量更好的音频将幻觉降至最低，但笔录中仍有错误的空间。我正在使用无缝M4T Large-V2进行转录。我想在本例中做最后一项工作，即对输出文本进行字符串操作。有可能吗？例如，对于本文&quot；我身体不好，我想我不会去的。我不会去的。我不会去的。我不会去的。也许明天&quot（第页）我尝试过使用regex，但它只查找连续的重复单词，我正在考虑使用可变长度的缓冲区，它可以检测重复出现的序列，而不考虑长度（或者我可以指定缓冲区的长度）（第页）

https://stackoverflow.com/q/43142710 4 删除字符串中的所有标点符号，除非它位于数字之间三角洲科学 https://stackoverflow.com/users/2423198 2017年3月31日T14:05:59Z 2024-04-02T10:50:52Z

我有一篇包含单词和数字的文本。我将举一个典型的文本示例：<pre><code>string=“这是一个文本示例。但它仅占所有数据的2.5%”</code></pre>我想将其转换为如下内容：<pre><code>“这是一个文本示例，但仅占所有数据的2.5%”</code></pre>因此，删除标点符号（可以是<code>。但在我的示例中，保持浮动为2.5（第页）我使用了以下代码：<pre><code>item=“这是一个文本示例。但它仅占所有数据的2.5%”item=“”.join（re.sub（r“（[A-Z]）”，r“\1”，item）.split（））#这是一个开始，但还没有！#item=“”.join（如果x不在string.digits中，则为item.split（）中x的[x.strip（string.spentication）]）item=“”.join（re.split（r'（\d+）'，item））打印项目</code></pre>结果是：<pre><code>&gt&gt；“这是文本的一个示例。但它只占所有数据的2</code></pre>我快到了，但我想不出最后的平静（第页）

https://stackoverflow.com/q/78175688 -2 如何用字母以外的任何字符分割字符串？[副本] 用户19273 https://stackoverflow.com/users/22003143 2024-03-17T14:48:47转 2024-03-18T09:38:52Z

如何用字母以外的任何字符分割字符串？换句话说，我只想要文本中的单词，其他什么都不要（第页）<pre><code>s=&quot；（这#是一个5示例！）；what_i_want=[“这个”，“是”，“一个”，“示例”]</code></pre>

https://stackoverflow.com/q/5214578 923 将字符串打印到文本文件胡人 https://stackoverflow.com/users/192944网址 2011年3月7日30:31:57Z 2024-03-05T00:28:30Z

在下面的代码中，我想用Python将字符串变量<code>TotalAmount</code>的值替换为文本文档：<pre><code>text_file=open（Output.txtxt，w&quot；）text_file.write（购买金额：“TotalAmount”）文本文件关闭（）</code></pre>如何做到这一点（第页）

https://stackoverflow.com/q/493174 108 有办法把数字字转换成整数吗？莱奥德 https://stackoverflow.com/users/0 2009年1月29日T20:07:43Z 2024年1月31日下午4:46分43秒

我需要将<code>one</code>转换为<code>1</code>，将<code>two</code>into<code>2</code]，依此类推有没有一种方法可以用库、类或其他东西来实现这一点（第页）

https://stackoverflow.com/q/77544243 -1 我需要用Python将列表写入txt，包括第一列的文本和第二列的数字。第一列文本的大小不同达沃德·巴泽加里 https://stackoverflow.com/users/19971204 2023-11-24T15:33:21Z年 2023-11-24T15:50:32Z年

我需要用Python将列表写入txt，包括第一列的文本和第二列的数字。第一列文本大小不同，因此最终结果不符合顺序。我需要写专栏，但内容如下：<pre><code>罐体速度0.02 m/hr环空流速0.03 m/hr管板速度0.18 m/hr介质速度0.0 m/hr</code></pre>如何将所有部件放在正确的位置，如：<pre><code>罐体速度0.02 m/hr环空流速0.03 m/hr管板速度0.18 m/hr介质速度0.0 m/hr</code></pre>我的代码：<pre><code>，打开（'C:\\Users\\---\\OneDrive\\Desktop\\Report.txt'，'w'）为f：f.write（FALIZ CONESH FARAND COMPANY公司地址：；&quot；这些是为包括过滤器元件的外壳计算的参数+&quot；\n&quot+&quot；\外壳参数：i=0对于参数[0]中的行：f.write（字符串（行）+&quot；\t\t\t&quot+str（参数[1][i]）+&quot；\t\t\t&quot+参数[2][i]）f.写入（'\n'）i=i+1</code></pre>

https://stackoverflow.com/q/77520074 1 如何有效地分割来自流的文本，其中输出不一定是新单词，但可能是字母滑雪场 https://stackoverflow.com/users/9443671 2023-11-21T03:03:14Z 2023-11-21T03:13:07Z

所以我有一个文本流，它进入其中，下一个项目是之前生成的所有文本+一些额外的文本，这些文本可能是一个新词、字母或单词的一部分。我试图有效地分割文本/安排文本，使我能够在流媒体中完全重建文本。下面是一个示例：<code>原文=&quot；这是一些不断出现在流中的预置文本</代码>现在假设流是这样进来的，请注意注释字符串，它包含一个字母，该字母是下例中单词的延续，而不是一个独立的字母：<预><代码>定义dummy_generator（）：屈服“很抱歉听到你难过”睡眠时间（0.2）产量”。以下是一些可能有帮助的建议睡眠时间（0.2）屈服'提升你的情绪：\n\n1。出去走走'睡眠时间（0.2）产量“新鲜空气和自然环境可以做w”#例如，这里有一个字母，在下一段文字中继续睡眠时间（0.2）为你的心情让路。\n \n2。听音乐'睡眠时间（0.2）屈服“音乐对我们的情绪有强大的影响”睡眠时间（0.2）屈服”，可以帮助振奋我们的精神。\n\n3。实践'睡眠时间（0.2）产生“正念：花点时间专注于”</code></pre>鉴于此，有没有一种方法可以有效地将文本拆分为正确的单词（第页）

https://stackoverflow.com/q/77348706 0 如何正确读取熊猫文件铃木 https://stackoverflow.com/users/22755062 2023-10-23T22:56:49Z 2023-10-23T22:56:49Z

我尝试这样读取txt文件：<pre><code>id sub_id标识q_length alignment_length-mismatches gap_opens evalue bit_score stitle&gt；ID1757 49.512 454 410 207 0 3.71e-159 461序列11511来自美国专利8343764&gt；ID6556 gb | AEI19864.1 | 56.442 372 326 140 1 1.36e-135 394来自专利US 7960148的序列412</code></pre>我需要正确设置列。但在上一篇专栏中，我有几个词。我需要把它放在一列（第页）我还有这个案例：<pre><code>id sub_id标识q_length alignment_length-mismatches gap_opens evalue bit_score stitle&gt；ID54545 sp | Q59226.1 | 31.340 454 418 255 11 8.73e-49 178 RecName:Full=环麦芽糊精酶；短=CDase；短=CDase I-5；AltName:Full=环麦芽糊精水解酶，脱环[芽孢杆菌属（in:硬菌属）]</code></pre>我需要将RecName后面的所有文本放在一列中我尝试设置列名并打印最后一列，以查看系统如何定义列（第页）<pre><code>df1_column_names=['id“”sub_id“”identity“”q_length“”alignment_length'“”不匹配“”“gap_opens”“evalue”“bit_score”“stitle”]df1=pd.read_csv（“路径”，名称=df1_column_names）newdf=df1['title']newdf.to_csv（'path'，index=False）</code></pre>但我犯了一个错误。此外，在其他情况下，系统将最后一列定义为“美国专利7960148中的序列412”，例如“7960148”

https://stackoverflow.com/q/77209201 0 从与给定字符串匹配对应的文本中提取所需的值作记号 https://stackoverflow.com/users/21923907 2023-10-01T04:12:26Z 2023-10-01T08:12:43Z

我有以下字符串<预><代码>******************************************************************************** **int.标准化值：** --------------------------- **地面辐照度百分比**直接内部收益率%漫反射irr.%环境。内部收益率** 0.488 0.418 0.093 **卫星级反射率**自动取款机。内部参考背景参考像素反射率** 0.127 0.146 0.170 ** **整数绝对值** ----------------------- **爱尔兰共和国。地面（w/m2/mic）**直接太阳能红外。自动取款机。漫反射红外。环境irr** 592.299 507.010 113.283 **卫星辐射。液位（w/m2/sr/mic）**自动取款机。intrin.rad.背景rad.像素辐射** 58.837 67.355 78.685 ** ** **溶胶。spect（单位：w/m2/mic）** 2054.457 ** ********************************************************************************</code></pre>我试图提取与&quot；对应的值；直接太阳能红外&quot&quot；自动取款机。漫反射红外&quot；和&quot；环境irr（第页）<pre><code>导入重新定义extract_values（文本）：模式=r&quot；直接太阳能红外。\s*自动取款机。漫反射红外。\s*环境irr\s*（[\d\.]+）\s*（\\d\.]+）\s*（[\\d\.]+）&quot；match=重新搜索（模式、文本）如果匹配：返回{&quot；直接太阳能红外&quot；：匹配组（1），&quot；自动取款机。漫反射红外&quot；：匹配组（2），&quot；环境irr&quot；：匹配组（3）}</code></pre>但它不会产生任何结果（第页）有人能帮我吗（第页）编辑：尝试使用BeautifulSoup：<code>在此处输入代码</code>定义extract_values（文本）：<pre><code>soup=BeautifulSoup（文本，'html.parser'）#获取所有文本元素lines=[line.strip（）代表soup.get_text（）.splitlines（）中的行if-line.strip#识别“”后面的行；直接太阳能红外&quot；标签对于i，枚举中的行（行）：如果&quot；直接太阳能红外&quot；在线：#查找带有数字的下一行对于第[i+1:]行中的subsquent_line：if re.search（r“\d”，subsquent_line）：#检查行是否有数字values=subsquent_line.split（）返回{&quot；直接太阳能红外&quot；：浮点（值[0]），&quot；自动取款机。漫反射红外&quot；：浮点（值[1]），&quot；环境irr&quot；：浮点（值[2]）}</code></pre>direct_solar_irr=提取值（文本）直接太阳能红外&quot；：浮点（值[0]），ValueError:无法将字符串转换为浮点：“*”编辑3:<a href=“https://i.sstatic.net/FAvSD.png“rel=”nofollow noreferrer“><img src=”https://i.sstatic.net/FAvSD.png“alt=”在此处输入图像描述“/></a>

https://stackoverflow.com/q/77181927 -1 是否有任何python方法/包可以强制将文本转换为字符串格式，并自动解决所有问题？垃圾邮件 https://stackoverflow.com/users/20437479 2023-09-26T16:39:02Z 2023-09-26T16:53:32Z

下面是一个例子：吉大港俱乐部是殖民地遗迹，是英国统治时期拉吉王朝的残余。打开它的阳台上，英国茶园主的妻子们曾经啜饮过杜松子酒和补品，并抱怨道关于当地人的故事，场景让人想起E.M.福斯特的《印度之行》。二十三自从英国在次大陆的统治被废除以及随后的几年已经过去了将英属印度划分为印度教占多数的印度和穆斯林占多数的巴基斯坦。唯一的事Chit-tagong俱乐部改变了会员的肤色。戴着白手套的服务员，头巾和被称为churidars的紧身裤继续供应烤牛肉、咖喱和莫利加汤。东巴基斯坦的后殖民主义精英，其中包括阿贝德，采用了前统治者的习惯，包括一套神秘的俱乐部仪式。成员资格要求现任会员的推荐以及穿着黑领带出席入会仪式和坎梅邦德。有人可能会因为没有达到俱乐部的标准而遭到拒绝。阿贝德，a身穿细条纹西装的吸大麻的亲英人士，在英国生活了14年背诵莎士比亚独白，轻松入围。一个没有家人的单身汉，他每周在俱乐部吃三晚饭</电子邮箱>如果你要把它粘贴到你的ide中，在它周围加上引号；它不会起作用，因为文本正文中的符号和内容有很多问题，你必须逐个解决。当你将随机的文本片段复制到python中时，总是会发生这种情况。是否有任何python方法或包可以自动将这样的整段文本转换为字符串数据类型（第页）这里的初学者，如果我听起来愚蠢或傲慢，请原谅我。我真的还不知道用什么更好的方式表达我的问题（第页）

https://stackoverflow.com/q/71411060 0 如何从文本文件中拆分和获取用冒号分隔的键值对塔拉·D https://stackoverflow.com/users/18177424 2022-03-09T14:37:08Z 2023-09-12T05:37:29Z

需要在文本文件中用冒号分割以下内容，并将其存储到键值对中。但如果在同一行中有多个实例，则它不起作用（第页）<a href=“https://i.sstatic.net/YePt4.png“rel=”nofollow noreferrer“>文本文件.txt</a>打开（textfile.txt，r+&quot；）作为myfile的<pre><code>：对于myfile中的行：v=&quot；\n；。join（[x.strip（）for x in line.splitlines（）if（如果）：&quot；in x]）名称，var=v.分区（&quot；：&quot）[：：2]myvars[name.strip（）]=变量打印（名称，变量）</code></pre>输出应为<a href=“https://i.sstatic.net/N1LhP.png“rel=”nofollow noreferrer“>输出</a><pre><code>|名字John||DoB 01-01-2000||性别M||美国国家||州CA||专业工程师|--------------------------- </code></pre>但如果同一行中有多对（带：），则无法拆分

https://stackoverflow.com/q/47497309 27 在PDF文件中查找文本位置辛丹 https://stackoverflow.com/users/9010676 2017年11月26日T14:42:20Z 2023-07-11年20:04:23 z

我有一个PDF文件，我试图在PDF中找到一个特定的文本，并使用Python高亮显示它。我发现<a href=“https://pypi.org/project/pypdf/“rel=”nofollow noreferrer“>pypdf</a>，它可以<a href=“https://gist.github.com/agentcooper/4c55133f5d95866acdee5017cd318558“rel=”nofollow noreferrer“>在给定文件中所需突出显示位置的坐标时，突出显示PDF的一部分我正在试图找到一个工具，它可以给我给定文本在PDF中的位置（第页）

https://stackoverflow.com/q/76640940 1 Python Regex如何删除除以开头或结尾以外的所有单词$ ANUJ PATEL公司 https://stackoverflow.com/users/19640813 2023-07-08T00:53:56Z 2023-07-08T15:08:40Z

我想删除除以$开头或以$结尾的数字以外的所有数字。以下是示例文本<pre class=“lang-none prettyprint-override”><code>&quot\\\r\nMacBook 2018$4000 \\r\\nApple watch S3\\r\\n-11 5000$1000 Islands iphone$1000 200$airpods&quot；</code></pre>我尝试了以下代码来清除文本（第页）<pre><code>导入重新text＝“文本”\\\r\nMacBook 2018$4000 \\r\\nApple watch S3\\r\\n-11 5000$1000 Islands iphone$1000 200$airpods&quot；打印（文本）text=re.sub（r'（？：\\+[rn]|\s）+'，''，text）.strip（）打印（文本）text=re.sub（r“[^\w\s\$]”，“”，text）打印（文本）\\r\n-MacBook 2018$4000\r\n-Apple watch S3\r\n-11 5000$1000 Islands iphone$1000 200$airpods-MacBook 2018$4000-苹果手表S3-11 5000$1000岛屿iphone$1000 200$airpods2018 MacBook 4000美元Apple watch S3 11 5000美元Islands iphone 1000 200美元airpods</code></pre>答案应该是<code>$4000 5000$1000 200$</code>最后，我想用$符号对所有数字求和。有什么有效的方法吗（第页）

https://stackoverflow.com/q/76640280 0 Python使用Regex删除端点字符 ANUJ PATEL公司 https://stackoverflow.com/users/19640813 2023-07-07T21:15:43Z 2023-07-08T00:00:27Z

我正在尝试使用正则表达式删除端点字符。示例如下<pre><code>&quot\\\r\nMacBook 2018 \\r\\nApple watch S3\\r\\n11 iPad pro\\r\\\\\nApple pencipe&quot；</code></pre>我试过使用下面这样的正则表达式（第页）<pre><code>导入重新text＝“文本”\\\r\nMacBook 2018 \\r\\nApple watch S3\\r\\n11 iPad pro\\r\\\\\nApple pencipe&quot；打印（文本）text=re.sub（r'[^\w\s]'，''，text）打印（文本）text=re.sub（r'（？：^|）\w（？：$|）'，''，text）.strip（）打印（文本）text=re.sub（r'\s+'，''，text）打印（文本）\\r\nMacBook 2018\r\nApple watch S3\r\n11 iPad pro\\r\\t铅笔r nMacBook 2018 r nApple watch S3 r n11 iPad pro r nApple铅笔nMacBook 2018 nApple watch S3 n11 iPad pro nApple铅笔nMacBook 2018 nApple watch S3 n11 iPad pro nApple铅笔</code></pre>我还有一些单词，比如nmacbook、napple。我如何正确地清洁它并获得如下结果MacBook 2018苹果手表S3 11 iPad专业苹果铅笔</code></pre>

https://stackoverflow.com/q/51731946 -1 如何从字符串中提取人体高度（US）里尔 https://stackoverflow.com/users/5092403 2018年8月7日16:59:33Z 2023-06-24T10:40:15Z

如果我的字符串包含美国形式的人类身高（英尺、英寸） 例如<code>我从18岁起就长了5'10英寸如何使用regex将5'10“提取为元组？ 例如<代码>（5，10）</code>到目前为止，我尝试了：<pre><code>s=“我从18岁起就身高5英尺10英寸”re.findall（r'\d\'\d+\“'，s）</code></pre>希望抓取第一个数字，它应该是一个单个数字<code>\d</code>，然后是带有<code>的下两个数字\d+</code>，但这样做不太干净，返回<code]['5\'10“']</code]并需要更多的拆分等。理想情况下，有一种方法可以用regex完成这一切

https://stackoverflow.com/q/76499736 0 从文本文件中提取阿拉伯语文本美国汽车协会 https://stackoverflow.com/users/17638206 2020年3月6日至18日08时51分49秒 2023-06-18T17:43:45Z

我有一个txt文件，其中包含[''''EasyOCR'的输出。我想提取；“，”；，它位于子字符串之后；'فح\1607;قɝ&quot；。我正在使用此代码：<pre><code>#打开文本文件进行阅读打开（r'file.txt'，'r'，encoding='utf-8'）为f:text=f.读取（）#提取字符串后的数字；'فح；page_num_str=“'''%1”start_idx=文本查找（page_num_str）如果start_idx！=-1:substr=文本[start_idx+len（page_num_str）：]page_num=“”.join（过滤器（str.isdigit，substr.split（）[0]）打印（提取的页码：，Page_num）</code></pre>输出如下：<pre><code>提取页码：</code></pre>如您所见，没有提取任何内容！我不知道为什么，但我已经尝试输出<pre><code>start_idx=text.find（page_num_str）</code></pre>输出是2而不是0。问题是什么？这里是<a href=“https://drive.google.com/file/d/1Yh_4AaxrslR2XZY4C3Eecb4ev2Q8If0A/view？usp=sharing“rel=”nofollow noreferrer“>上传的文本文件</a>

https://stackoverflow.com/q/76189924 0 字符串操作-对于数据帧列中的每个值，提取包含在两个分隔符之间的自定义文本字符串安德烈uccio https://stackoverflow.com/users/6071128 2023-05-06T16:17:02Z 2023-05-06T19:52:10Z

我有一个导入的数据帧，它主要包括<code>“full_name”</code>列下的文本值。数值通常如下：“隔热、玻璃棉、防水、牛皮纸衬里、2.25 Km2/W、90 mm、12 kg/m3、1.08 kg/m2、IBR（Isover）”现在，我想通过使用度量单位作为搜索字符串从这些特定值（建筑材料的物理属性）中提取，例如，为了这个示例，<code>'Km2/W'</code>。然后，我希望将搜索字符串前后两个逗号分隔符之间的文本复制到单独的列中，其中的值最终可以转换为<code>数字</code>（第页）我向ChatGPT询问了这个问题，它返回了以下代码：此代码用逗号分隔文本列，删除任何前导或尾随空格，选择第二列，提取包含搜索字符串及其后的任何字符的子字符串，然后用逗号分隔该子字符串并选择第一部分（第页）<pre><code>#提取两个逗号分隔符之间的文本filtered_df['extracted_text']=filtered-df['text'].str.split（'，'，expand=True）.apply（lambda x:x.str.strip（））.iloc[：，1].str.extract（f'（{search_string}.*）'）[0].str.split（‘，'）.str[0]</code></pre>然而，结果列（在本例中为<code>filtered_df['extracted_text']</code>）充满了NaN。你认为这里出了什么问题（第页）

https://stackoverflow.com/q/76009445 1 根据特定字符数将字符串拆分为新行数学 https://stackoverflow.com/users/14688996 2023-04-13T20:08:16Z 2023-04-13T20:37:13Z

我需要根据列表中包含的字符数将字符串拆分为新行：<pre><code>num_char=[14,12,7]#列表实际上更长：这只是一个例子text=&quot；大家好，你好吗？你还好吗&quot；</code></pre>我的预期输出是：<pre><code>text=&quot；大家好你好吗？你还好吗&quot；</code></pre>我尝试如下：<pre><code>定义块（s，mylist）：x=0对于mylist中的n：打印（n）对于范围（x，len（s），n）内的开始：x=n产量s[开始：开始+x]对于块中的块（text，num_char）：打印（区块）</code></pre>但它为num_char中的每个元素重复文本，没有正确地拆分成新行。你能看看它并告诉我我做错了什么吗？谢谢

https://stackoverflow.com/q/75851530 1 将文本文件中的值行转换为CSV mackuo公司 https://stackoverflow.com/users/12267304 2023-03-27时间1:40:01Z 2023-03-27T03:07:10Z

以下是我的文本文件数据：<pre><code>foo编号3.61 9.51巴-26 67 2.35 0.50 70巴兹dxo 6 2.37奎兹-9.07 51udx 9.66 9.66标准立方厘米-8pdu hk 0.50-5.34-13 0.50比尔1.27-63-0.66车桥29 1.27-8.19drl-9.68 8.84-29-13-86犹太法典-5.34 51 91文迪9.84-2.35 88</code></pre>我需要这样输出数据帧：<a href=“https://i.sstatic.net/ongat.jpg网站“rel=”nofollow noreferrer“><img src=”https://i.sstatic.net/ongat.jpg网站“alt=”在此处输入图像描述“/></a>

https://stackoverflow.com/q/75595721 0 用户的输入如何影响文件和文本？迈克尔·耶波阿 https://stackoverflow.com/users/21306282 2023-02-28T18:01:19Z 2023-03-08年21:29:15Z

在一个python文件中有代码（它需要至少有1个大写字母和8个以上的字母。如果没有，那么它应该要求可变密码（而不是用户名，因为它不需要要求），直到满足所有要求。满足密码要求后，用户名和密码应存储在文本文件中：<pre><code>reg=打开（reg_login.txt，a）username=input（用户名（非真实姓名）：password=input（您的密码是什么？：valid=假如果len（密码）&gt；=8:对于密码中的c：如果c.为upper（）：valid=真打破reg.write（用户名=+用户名+密码=+密码）注册关闭（）</code></pre>在另一个文件（文本文件）中，以用户在第一个python文件中的输入为例，它表示：用户名=emHillty密码=sHreoad用户名=xonnshJ密码=sKshfsadr</code></pre>在最后一个文件中，文本文件的信息必须与用户在最后一文件中的输入相同：<pre><code>match=假不匹配时：user=input（您的用户名是什么？：password=input（您的密码是什么！）打开（reg_login.txt）为f:对于f中的行：如果行.startswih（f'Username={user}，'）和行.rstrip（）.endswith（f'Password={Password}'）：打印（“欢迎”，用户名）match=真打破其他：打印（我们无法接受此密码）打印（f'Hello{user}.'）</code></pre>2个python程序中存在一些错误。你能帮我修一下吗。谢谢你（第页）

https://stackoverflow.com/q/75562304 -1 将未知文本格式转换为数据帧 JayRSP公司 https://stackoverflow.com/users/16379541 2023-02-24T23:32:43分 2023-02-25T19:54:05Z

我刚刚从inspect元素中抓取了一些响应文本，但它的格式我并不熟悉。（即，不是JSON或HTML等）。文本的格式如下（第页）＜pre＞＜code＞（{：a 186，：b 4，：c“l”，：a 6，：b 93，：c“e”}）</code></pre>我想创建一个数据帧，列名称使用<code>：</code>后面的字符，空格后面的字符串是该列的行（第页）示例<pre><代码>a b c_ _ _1864升6 93秒</code></pre>用python实现这一点的最佳方法是什么（第页）

https://stackoverflow.com/q/75277833 0 为文本中的某个单词编号血腥暴徒 https://stackoverflow.com/users/18409341 2023-01-29T19:40:28Z 2023-01-29时间20:44:45 z

我想为文本中的某些单词提供一个参考号（数字）格式（第页）通过使用下面的代码，我确实得到了一些正确的输出。然而，当有相同的词与形容词或当这个词有附录时，它就不起作用了我能想到的所有边缘情况都是这两种，当有相同的单词（包括形容词），并且如果一个单词在文本中出现附录，则能够在字典中匹配该单词（第页）试过这个<pre><code>导入重新text=&quot；这是第一个样本，这是第二个样本&quot；words_to_number={第一个样本：1，第二个样本：2，样本：3}对于关键字，以words_to_number.items（）为单位的数字：模式=r&quot；\b&quot+关键词+r&quot；\b&quot；text=re.sub（模式，关键字+（&quot；+字符串（数字）+）&quot；，文本）打印（文本）</code></pre>收到这个，这是第一个样本（3）（1），这是第二个样本（2）而不是，这是第一个样本（1），这是第二个样本（2）

https://stackoverflow.com/q/62034240 0 Python同一行字符串“generation”[重复] DNM24型 https://stackoverflow.com/users/11292574 2020-05-27T02:02:01Z 2023-01-01T23:12:35Z

我试图创建一个函数，可以逐个字符“吐出”给定的字符串。它的工作方式应该是这样的，除了一部分。它的工作方式包括清除控制台，但它不想工作。我尝试了各种方法，比如使用os模块调用“cls”命令，但都没有帮助。编译代码并尝试在windows控制台中运行后，没有显示任何字符（第页）导入操作系统从时间导入睡眠定义文本函数（文本）：定义清除（）：操作系统（“cls”）定义长度（to_measure）：true_length=长度（到测量值）返回true_lengthtext_length=长度（文本）分隔=列表（文本）already_printed=[]already_printed.append（“”）数字=0为True时：already_printed.append（分隔[数字]）睡眠（0.15）打印（*already_printed，end=“”）打印（“|”，结束=“”）睡眠（0.15）清除（）数字=数字+1如果数字==text_length：打破打印（“”）text_function（“测试输入”）睡眠（3）</code></pre>提前谢谢（第页）

https://stackoverflow.com/q/74917455 0 删除python数据帧列中逗号后字符串之间的空格 AB14公司 https://stackoverflow.com/users/11332693 2022-12-26年T05:21:08Z 2022年2月22日至26日06时20分56秒

数据框1<pre><code>ID列1纽约，伦敦经济学院，美国2加利福尼亚州；美国哈佛大学华盛顿分校</code></pre>预期输出为：数据框1<pre><code>ID列1纽约，伦敦经济学院，美国2加利福尼亚州；美国哈佛大学华盛顿分校</code></pre>我的尝试是：<pre><code>df1[Col].apply（lambda x:x.str.replace（“，”，“”，regex=True））</code></pre>

https://stackoverflow.com/q/74893102 2 你如何在一个句子中发现一个关键词，而不管它在python中的时态和形式？阿尔维诺123 https://stackoverflow.com/users/20842393 2022-12-22T19:34:03Z 2022-12-25T23:07:55Z

我试图在Python中使用spaCy来检测单词&quot；悲伤；无论形式如何；我很伤心”&quot；经历悲伤&quot&quot；我为__感到悲伤；，如果它是全大写的，等等。我对python很陌生，所以我不太了解柠檬化，但是有一些简单的if语句可以使用spaCy解决它吗（第页）<pre><code>sirry=str（输入（（您当前在想什么？））doc=nlp（悲伤）如果[t.sirry for t in doc if t.lemma _==&quot；grie；]：悲伤1（悲伤值）</code></pre>

https://stackoverflow.com/q/74897362 1 从python数据帧列项中删除倒置逗号和括号 AB14公司 https://stackoverflow.com/users/11332693 2022-12-23T07:56:23Z年 2022-12-23T08:21:02Z

数据框1<pre><code>位置演员[“纽约”，“华盛顿”][“克里斯·埃文斯”，“约翰”][“纽约”，“洛杉矶”][“凯特”，“洛佩兹”]</code></pre>我想删除每个列项目中的括号和反逗号：预期产量：数据框1<pre><code>放置演员纽约，华盛顿，克里斯·埃文斯，约翰纽约，洛杉矶凯特，洛佩兹</code></pre>我的尝试：<pre><code>cols=[地点，演员]df1[cols].apply（λx:x['+'，'.join（df1[cols]）+']'）</code></pre>

https://stackoverflow.com/q/74893785 1 检查是否有pandas.core.系列。系列包含Python中的特定字符串克拉拉HL https://stackoverflow.com/users/20705247 2022-12-22T20:58:56Z 2022-12-22T21:34:20Z

我有一个数据帧（df1），它看起来像这样：<div class=“s-table-container”><table class=“s-table”><头部><tr>第一名最后一个名称从属关系</tr></thead><t车身><tr><td>牛仔裤</td><td>杜拉克</td><td>德克萨斯大学</td></tr><tr><td>彼得</td><td>胡塔人</td><td>马里兰大学</td></tr></tbody></表格></div>我想将此数据帧与另一个包含多个潜在匹配项的数据帧进行匹配。每个潜在的匹配项都有一个名字和姓氏，以及与此人关联的所有从属关系的列表，我想使用此从属关系列中的信息来区分我的潜在匹配项，并只保留最可能的匹配项（第页）第二个数据帧具有以下形式：<div class=“s-table-container”><table class=“s-table”><头部><tr>第一名最后一个名称从属关系全部</tr></thead><t车身><tr><td>牛仔裤</td><td>杜拉克</td><td>[{'city_name'：'京都'，'国家名称'：'日本'，'名称'：'Kyoto University'}]</td></tr><tr><td>牛仔裤</td><td>杜拉克</td><td>[{'city_name'：'德克萨斯州'，'国家名称'：'美国'，'名称'：'University of Texas'}]</td></tr></tbody></表格></div>列affiliations_all显然保存为pandas.core.series。系列（我无法更改，因为它来自API查询）（第页）我在想，匹配这两个数据帧的一种方法是删除“&quot；大学&quot；和&quot；第个，共个；从第一个数据帧的affiliation列（这很容易），对第二个数据帧的affiliations_all列执行同样的操作（不知道如何执行），然后运行<pre><code>test.apply（lambda x:str（x.affiliation）in str（x-affiliations_all），axis=1）</code></pre>适应了affiliationsall是一个系列的事实。系列（第页）你知道怎么做吗（第页）谢谢（第页）

https://stackoverflow.com/q/74829618 三根据字母表将字符串拆分为段西罗吉丁·科莫洛夫 https://stackoverflow.com/users/4361020 2022-12-16T20:48:30Z 2022-12-17年T11:59:19Z

我想把给定的字符串分割成字符串包含的字母段。例如，如果给定以下字符串：拉斯维加斯汽车运动会（Los eventos automovilísticos comenzaron poco después de la construcción exitosa de Los primeros automóviles a gasolina）。这是一个很好的例子。在第一辆汽油燃料汽车建造成功后不久，赛车比赛就开始了。那只敏捷的棕色狐狸跳过了那只懒狗。Мотори су почели убрзо након изградње првих успешних аутомобила на бензин.Брза смеђа лисица је прескочила лењог пса.Автомобилните събития започнаха скоро след конструирането на първите успешни автомобили с бензиново гориво. Бързата кафява лисица прескочи мързеливото куче.自動車イベントは、最初の成功したガソリン燃料自動車の製造直後に始まりました。素早い茶色のキツネは怠け者の犬を飛び越えました。بدأت أحداث السيارات بعد وقت قصير من بناء أول سيارة ناجحة تعمل بالبنزين. قفز الثعلب البني السريع فوق الكلب الكسول.</code></pre>上述文本包含西班牙语、英语、塞尔维亚语、保加利亚语、日语、阿拉伯语段落（语言顺序遵循段落顺序）（第页）然后，在应用一些神奇的函数后，我想得到以下输出：<预><代码>{&quot；语言：[{&quot；字母表：&quot；拉丁语；，&quot；文本&quot；：&quot；洛杉矶奥运会汽车运动会（Los eventos automovilísticos comenzaron poco después de la construcción exitosa de Los primeros automóviles a gasolina）。El veloz zorro marrón saltósobre El perezoso perro。在第一辆汽油燃料汽车建造成功后不久，赛车比赛就开始了。那只敏捷的棕色狐狸跳过了那只懒狗&quot；},{&quot；字母表：&quot；西里尔语；，&quot；文本&quot；：&quot；Мотори су почели убрзо након изградње првих успешних аутомобила на бензин.Брза смеђа лисица је прескочила лењог пса. Автомобилните събития започнаха скоро след конструирането на първите успешни автомобили с бензиново гориво. Бързата кафява лисица прескочи мързеливото куче.&quot；},{&quot；字母表：&quot；日语“；，&quot；文本&quot；：&quot；自動車イベントは、最初の成功したガソリン燃料自動車の製造直後に始まりました。素早い茶色のキツネは怠け者の犬を飛び越えました。&quot；},{&quot；字母表：&quot；阿拉伯语；，&quot；文本&quot；：&quot；بدأت أحداث السيارات بعد وقت قصير من بناء أول سيارة ناجحة تعمل بالبنزين. قفز الثعلب البني السريع فوق الكلب الكسول.&quot；}]}</code></pre>如您所见，一些语言是按其家族字母组合的。例如，西班牙语和英语段落被归为拉丁语，或者塞尔维亚语和保加利亚语段落被归入西里尔语。这是因为很难找到一种特定的语言（因为大多数字母是在不同语言之间共享的）（第页）理想情况下，我的最终输出应该是这样的：<预><代码>{&quot；语言：[{&quot；语言：&quot；西班牙语；，&quot；文本&quot；：&quot；洛杉矶奥运会汽车运动会（Los eventos automovilísticos comenzaron poco después de la construcción exitosa de Los primeros automóviles a gasolina）。El veloz zorro marrón saltósobre El perezoso perro&quot；},{&quot；语言：&quot；英语；，&quot；文本&quot；：&quot；在第一辆汽油燃料汽车建造成功后不久，赛车比赛就开始了。那只敏捷的棕色狐狸跳过了那只懒狗&quot；},{&quot；语言：&quot；塞尔维亚语；，&quot；文本&quot；：&quot；Мотори су почели убрзо након изградње првих успешних аутомобила на бензин.Брза смеђа лисица је прескочила лењог пса.&quot；},{&quot；语言：&quot；保加利亚语；，&quot；文本&quot；：&quot；Автомобилните събития започнаха скоро след конструирането на първите успешни автомобили с бензиново гориво. Бързата кафява лисица прескочи мързеливото куче.&quot；},{&quot；语言：&quot；日语“；，&quot；文本&quot；：&quot；自動車イベントは、最初の成功したガソリン燃料自動車の製造直後に始まりました。素早い茶色のキツネは怠け者の犬を飛び越えました。&quot；},{&quot；语言：&quot；阿拉伯语；，&quot；文本&quot；：&quot；بدأت أحداث السيارات بعد وقت قصير من بناء أول سيارة ناجحة تعمل بالبنزين. قفز الثعلب البني السريع فوق الكلب الكسول.&quot；}]}</code></pre>我需要根据语言将文本拆分为子字符串。为此，我计划使用<a href=“https://github.com/aboSamoor/cycld2“rel=”nofollow noreferrer“><code>cld2</code></a>可以将文本拆分为句子，但根据我的实验，当字符串包含混合字母的文本（即西里尔字母+日语等）时，效果并不好然而，<code>cld2</code>在使用共享字母系列的混合语言（即法语+英语等）的文本上表现良好（第页）这就是为什么，我计划按字母家族将文本拆分为子字符串，然后对于每个家族，我将使用<code>cld2</code>来预测特定的语言（第页）另一个重要要求：<ul><li>混合语言可能不会像上面的例子那样用线条清晰地分开（我这样做是为了简单起见，也是为了让问题变得清楚）</li><li>我需要能够在不连接到第三方服务器（如谷歌等）的情况下“脱机”完成此操作（因为需要处理大量数据）</li></ul>如果您对上述问题有任何想法，我将不胜感激。提前谢谢（第页）

https://stackoverflow.com/q/74732250 -2 从文件中删除额外字符串尼哈·杜拉尼 https://stackoverflow.com/users/15908175 2022-12-08T14:59:01Z 2022-12-08T15:42:46Z

是否有人想从结果中删除日期和心率，并将其保存在文件中<区块报价>2022.12.08 14:49:55心率：-12022.12.08 14:49:55静息搅拌分数：-12022.12.08 14:49:56心率：-12022.12.08 14:49:56静息搅拌分数：-12022.12.08 14:49:57心率：-12022.12.08 14:49:57静息搅拌分数：-12022.12.08 14:49:58心率：322022.12.08 14:49:58静息搅拌分数：-12022.12.08 14:49:59心率：312022.12.08 14:49:59静息搅拌分数：-12022.12.08 14:50:00心率：322022.12.08 14:50:00静息搅拌分数：-12022.12.08 14:50:01心率：-12022.12.08 14:50:01静息搅拌分数：-12022.12.08 14:50:02心率：-12022.12.08 14:50:02静息搅拌分数：-12022.12.08 14:50:03心率：-12022.12.08 14:50:03静息搅拌分数：-1</blockquote><h2>我希望输出为</h2><h2>-1个</h2><h2>-1个</h2><h2>-1个</h2><h2>-1个</h2>-1个

https://stackoverflow.com/q/74567880 0 字符串到numpy数组图像满意的 https://stackoverflow.com/users/16944653 2022-11-25T02:46:26Z 2022-11-25T02:50:35Z

我想将字符串转换为图像（第页）我想要的是：输入=字符串输出=可能由0、255组成的2D或3D数字阵列图像有没有软件包或模块可以做到这一点（第页）谢谢你（第页）