检测并从字符串中提取URL?

如何解决检测并从字符串中提取URL?

| 这是一个简单的问题,但是我不明白。 我想检测字符串中的url,然后将其替换为较短的url。 我从stackoverflow找到了这个表达式,但是结果只是
http
Pattern p = Pattern.compile(\"\\\\b(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]\",Pattern.CASE_INSENSITIVE);
        Matcher m = p.matcher(str);
        boolean result = m.find();
        while (result) {
            for (int i = 1; i <= m.groupCount(); i++) {
                String url=m.group(i);
                str = str.replace(url,shorten(url));
            }
            result = m.find();
        }
        return html;
有更好的主意吗?

解决方法

m.group(1)为您提供第一个匹配组,即第一个捕获括号。这是ѭ2 您应该尝试查看m.group(0)中是否有内容,或者用括号将所有模式括起来,然后再次使用m.group(1)。 您需要重复查找功能以匹配下一个并使用新的组数组。,让我继续前进,并说我不是复杂案例的正则表达式的拥护者。试图为这种事情写出完美的表达是非常困难的。也就是说,我确实有一个用于检测URL的应用程序,并且它由通过的350行单元测试用例类支持。有人从一个简单的正则表达式开始,多年来,我们已经发展了表达式和测试用例来处理我们发现的问题。这绝对不是小事:
// Pattern for recognizing a URL,based off RFC 3986
private static final Pattern urlPattern = Pattern.compile(
        \"(?:^|[\\\\W])((ht|f)tp(s?):\\\\/\\\\/|www\\\\.)\"
                + \"(([\\\\w\\\\-]+\\\\.){1,}?([\\\\w\\\\-.~]+\\\\/?)*\"
                + \"[\\\\p{Alnum}.,%_=?&#\\\\-+()\\\\[\\\\]\\\\*$~@!:/{};\']*)\",Pattern.CASE_INSENSITIVE | Pattern.MULTILINE | Pattern.DOTALL);
这是使用它的示例:
Matcher matcher = urlPattern.matcher(\"foo bar http://example.com baz\");
while (matcher.find()) {
    int matchStart = matcher.start(1);
    int matchEnd = matcher.end();
    // now you have the offsets of a URL match
}
,
/**
 * Returns a list with all links contained in the input
 */
public static List<String> extractUrls(String text)
{
    List<String> containedUrls = new ArrayList<String>();
    String urlRegex = \"((https?|ftp|gopher|telnet|file):((//)|(\\\\\\\\))+[\\\\w\\\\d:#@%/;$()~_?\\\\+-=\\\\\\\\\\\\.&]*)\";
    Pattern pattern = Pattern.compile(urlRegex,Pattern.CASE_INSENSITIVE);
    Matcher urlMatcher = pattern.matcher(text);

    while (urlMatcher.find())
    {
        containedUrls.add(text.substring(urlMatcher.start(0),urlMatcher.end(0)));
    }

    return containedUrls;
}
例:
List<String> extractedUrls = extractUrls(\"Welcome to https://stackoverflow.com/ and here is another link http://www.google.com/ \\n which is a great search engine\");

for (String url : extractedUrls)
{
    System.out.println(url);
}
印刷品:
https://stackoverflow.com/
http://www.google.com/
,在整个内容周围加上一些括号(开始时的单词边界除外),它应与整个域名匹配:
\"\\\\b((https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|])\"
我不认为regex匹配整个URL。,检测URL并非易事。如果足以让您获取以https?| ftp | file开头的字符串,那就可以了。这里的问题是,您有一个捕获小组,
()
,而这些小组仅位于第一部分http ...附近。 我将使用(?:)将这部分设为一个非捕获组,并将整个内容放在方括号中。
\"\\\\b((?:https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|])\"
,这个小代码片段/函数将有效地从Java中的字符串中提取URL字符串。我在这里找到了执行此操作的基本正则表达式,并在Java函数中使用了它。 为了捕获不是以“ http://”开头的链接,我在基本正则表达式上做了一些扩展,添加了“ | www [。]”部分。 聊够了(很便宜),下面是代码:
//Pull all links from the body for easy retrieval
private ArrayList pullLinks(String text) {
ArrayList links = new ArrayList();

String regex = \"\\\\(?\\\\b(http://|www[.])[-A-Za-z0-9+&amp;@#/%?=~_()|!:,.;]*[-A-Za-z0-9+&amp;@#/%=~_()|]\";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(text);
while(m.find()) {
String urlStr = m.group();
if (urlStr.startsWith(\"(\") &amp;&amp; urlStr.endsWith(\")\"))
{
urlStr = urlStr.substring(1,urlStr.length() - 1);
}
links.add(urlStr);
}
return links;
}

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-