0

0

Java初学者项目实战:开发一个简单的新闻聚合系统

P粉602998670

P粉602998670

发布时间:2026-01-13 13:16:11

|

671人浏览过

|

来源于php中文网

原创

可行:用HttpURLConnection+DocumentBuilder可实现简易新闻聚合,需设User-Agent、启用重定向、校验响应码、强制UTF-8解析、先取channel再查item、用ZonedDateTime安全解析pubDate。

java初学者项目实战:开发一个简单的新闻聚合系统

用 Java 标准库就能跑起来的新闻聚合系统,完全可行——不需要 Spring、不用 Maven、不配 Tomcat,HttpURLConnection + DocumentBuilder 就能抓 RSS、解析标题链接、打印到控制台。关键不是“多完整”,而是“哪几行代码真正卡住新手”。

怎么用 HttpURLConnection 安全取 RSS 内容?

RSS 是 XML,但很多源(比如 BBC、Reuters 的公开 feed)默认返回 301 重定向或要求 User-Agent,直接 openConnection 会抛 IOException: Server returned HTTP response code: 403

  • 必须手动设置 conn.setRequestProperty("User-Agent", "JavaNewsAggregator/1.0")
  • 要启用自动重定向:conn.setInstanceFollowRedirects(true)
  • 别漏掉 conn.connect() 前的 conn.setReadTimeout(5000),否则 DNS 卡住就干等
  • 响应码非 200 时,别硬读 getInputStream(),先检查 conn.getResponseCode()

为什么 DocumentBuilder.parse() 总报 org.xml.sax.SAXParseException

不是 XML 写错了,大概率是 RSS 源带了 BOM 或编码声明不一致。例如 feed 返回 UTF-8 但声明为 ,Java 解析器就会乱码后报错。

  • 绕过声明,强制用 UTF-8 解析:把 new StringReader(rssContent) 换成 new InputSource(new ByteArrayInputStream(rssContent.getBytes(StandardCharsets.UTF_8)))
  • 提前 strip BOM:rssContent = rssContent.replace("\uFEFF", "")
  • 别依赖 getElementsByTagName("item") 返回顺序——RSS 2.0 规范不保证 item 一定在 channel 下,有些 feed 直接平级放,得先 getElementsByTagName("channel").item(0) 再查子节点

NewsItem 类要不要加 pubDate 字段?

要,但别直接存字符串。几乎所有主流 RSS feed 的 pubDate 是 RFC 822 格式(如 Wed, 01 Jan 2025 12:00:00 GMT),用 SimpleDateFormat 解析极易抛 ParseException——因为时区缩写(GMT/UTC/EST)和线程不安全。

新手企业管理系统源码
新手企业管理系统源码

新手写的企业网站系统V1.0,开发工具为VS2005+SQLserver,适合初学者练习目前产品购买功能正在开发中,稍做修改即可。可以实现简单的站内模糊搜索功能DB_51aspx下为Sql数据库,附加即可后台登陆地址:/Admin/Logon.aspx后台登陆用户和密码都是:51aspx【该源码由51aspx提供】

下载

立即学习Java免费学习笔记(深入)”;

  • 推荐用 java.time.format.DateTimeFormatter.RFC_1123_DATE_TIME(Java 8+)
  • 字段类型定义为 ZonedDateTime,不是 StringDate
  • 解析失败时 fallback 到 Instant.now(),避免整个条目丢弃
public static ZonedDateTime parsePubDate(String dateStr) {
    try {
        return ZonedDateTime.parse(dateStr, DateTimeFormatter.RFC_1123_DATE_TIME);
    } catch (DateTimeParseException e) {
        return Instant.now().atZone(ZoneOffset.UTC);
    }
}

真正卡住初学者的,从来不是“怎么写完”,而是“为什么一换 feed 地址就崩”——每个 RSS 源都是独立小宇宙,有的没 description,有的 link 是相对路径,有的 title 里藏 HTML 实体。先写死一个已知稳定的测试源(比如 https://rss.cnn.com/rss/edition.rss),跑通再换,比对着报错堆猜强十倍。

相关专题

更多
java
java

Java是一个通用术语,用于表示Java软件及其组件,包括“Java运行时环境 (JRE)”、“Java虚拟机 (JVM)”以及“插件”。php中文网还为大家带了Java相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

831

2023.06.15

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

737

2023.07.05

java自学难吗
java自学难吗

Java自学并不难。Java语言相对于其他一些编程语言而言,有着较为简洁和易读的语法,本专题为大家提供java自学难吗相关的文章,大家可以免费体验。

733

2023.07.31

java配置jdk环境变量
java配置jdk环境变量

Java是一种广泛使用的高级编程语言,用于开发各种类型的应用程序。为了能够在计算机上正确运行和编译Java代码,需要正确配置Java Development Kit(JDK)环境变量。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

397

2023.08.01

java保留两位小数
java保留两位小数

Java是一种广泛应用于编程领域的高级编程语言。在Java中,保留两位小数是指在进行数值计算或输出时,限制小数部分只有两位有效数字,并将多余的位数进行四舍五入或截取。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

398

2023.08.02

java基本数据类型
java基本数据类型

java基本数据类型有:1、byte;2、short;3、int;4、long;5、float;6、double;7、char;8、boolean。本专题为大家提供java基本数据类型的相关的文章、下载、课程内容,供大家免费下载体验。

446

2023.08.02

java有什么用
java有什么用

java可以开发应用程序、移动应用、Web应用、企业级应用、嵌入式系统等方面。本专题为大家提供java有什么用的相关的文章、下载、课程内容,供大家免费下载体验。

430

2023.08.02

java在线网站
java在线网站

Java在线网站是指提供Java编程学习、实践和交流平台的网络服务。近年来,随着Java语言在软件开发领域的广泛应用,越来越多的人对Java编程感兴趣,并希望能够通过在线网站来学习和提高自己的Java编程技能。php中文网给大家带来了相关的视频、教程以及文章,欢迎大家前来学习阅读和下载。

16925

2023.08.03

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 2.5万人学习

C# 教程
C# 教程

共94课时 | 6.6万人学习

Java 教程
Java 教程

共578课时 | 45.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号