我对python比较陌生,对nlp(和nltk)也很陌生,我在网上搜索了一些指导,但没有找到完整的解决方案。不幸的是,我一直在玩的稀疏代码是在另一个网络上,但我包括一个示例电子表格。我希望得到建议的简单英语步骤(比下面更详细),以便我可以首先尝试用python 3编写它。除非你能更容易地帮助编写脚本…这样的话,谢谢。
问题:一个健壮的电子表格中有几列是非常非结构化的,其中有500-5000个英文字符可以讲述一个故事。我需要从本质上通过提取可量化的数据使它更结构化一些。我需要:
1)在用户提供的非结构化自由文本列中搜索字符串(用户输入列标题)(我认为我做得对)
2)在Excel中将该字符串设为新的列标题(我认为我做得对)
3)抓住绳子前面的数字(这就是我卡住的地方。正如你在表格中看到的,有时数字和文本之间没有空格,当然,有时拼写错误)
4)将该数字放在同一行的新列中(尚未到达此步骤)
我将不得不为多个关键字重复这样做,但我相信,我可以通过循环或其他方式来解决这一部分。非常感谢您的时间和专业知识…