# coding:utf-8
txt=['南通大学','信息与通信工程','硕士','南京大学紫金分校','集成电路设计与集成系统','电子信息科学与技术']
import re
for line in txt:
__university = re.findall(r'([\u4e00-\u9fa5]{2,10}信息处理$|[\u4e00-\u9fa5]{2,10}微波$\
|[\u4e00-\u9fa5]{2,10}力学$|[\u4e00-\u9fa5]{2,10}与系统$|[\u4e00-\u9fa5]{2,10}集成系统$\
|[\u4e00-\u9fa5]{2,10}信息系统$|[\u4e00-\u9fa5]{2,10}仪器$|[\u4e00-\u9fa5]{2,10}技术$\
|[\u4e00-\u9fa5]{2,10}工程$|[\u4e00-\u9fa5]{0,8}自动化$|[\u4e00-\u9fa5]*大学$|[\u4e00-\u9fa5]*学院$|[\u4e00-\u9fa5]*分校$\
|[\u4e00-\u9fa5]*大大学学$|[\u4e00-\u9fa5]*学学院院$|硕士|硕士研究生|本科|学士)', line)
print(__university)
打印结果:
['南通大学']
['信息与通信工程']
['硕士']
['南通大学杏林学院']
[]
[]
不知道为啥最后两个:'集成电路设计与集成系统','电子信息科学与技术' 打印不出来 |