Удаление HTML-тегов из строки
Как удалить HTML-теги из строки, чтобы я мог выводить чистый текст?
let str = string.stringByReplacingOccurrencesOfString("<[^>]+>", withString: "", options: .RegularExpressionSearch, range: nil)
print(str)
Edit: Swift 3
let str = string.replacingOccurrences(of: "<[^>]+>", with: "", options: .regularExpression, range: nil)
print(str)
Swift 4: смотрите ответы ниже
4 ответа:
Хм, я попробовал вашу функцию и она работала на небольшой пример:
var string = "<!DOCTYPE html> <html> <body> <h1>My First Heading</h1> <p>My first paragraph.</p> </body> </html>" let str = string.stringByReplacingOccurrencesOfString("<[^>]+>", withString: "", options: .RegularExpressionSearch, range: nil) print(str) //output " My First Heading My first paragraph. "
можете ли вы привести пример проблемы?
поскольку HTML не является обычный язык (HTML это контекстно-свободной языка), вы не можете использовать регулярные выражения. Смотрите:использование регулярных выражений для разбора HTML: почему бы и нет?
Я бы рассмотрел использование NSAttributedString вместо этого.
let htmlString = "LCD Soundsystem was the musical project of producer <a href='http://www.last.fm/music/James+Murphy' class='bbcode_artist'>James Murphy</a>, co-founder of <a href='http://www.last.fm/tag/dance-punk' class='bbcode_tag' rel='tag'>dance-punk</a> label <a href='http://www.last.fm/label/DFA' class='bbcode_label'>DFA</a> Records. Formed in 2001 in New York City, New York, United States, the music of LCD Soundsystem can also be described as a mix of <a href='http://www.last.fm/tag/alternative%20dance' class='bbcode_tag' rel='tag'>alternative dance</a> and <a href='http://www.last.fm/tag/post%20punk' class='bbcode_tag' rel='tag'>post punk</a>, along with elements of <a href='http://www.last.fm/tag/disco' class='bbcode_tag' rel='tag'>disco</a> and other styles. <br />" let htmlStringData = htmlString.dataUsingEncoding(NSUTF8StringEncoding)! let options: [String: AnyObject] = [NSDocumentTypeDocumentAttribute: NSHTMLTextDocumentType, NSCharacterEncodingDocumentAttribute: NSUTF8StringEncoding] let attributedHTMLString = try! NSAttributedString(data: htmlStringData, options: options, documentAttributes: nil) let string = attributedHTMLString.string
или, как это сделал бы Иршад Мохамед в комментариях:
let attributed = try NSAttributedString(data: htmlString.data(using: .unicode)!, options: [NSDocumentTypeDocumentAttribute: NSHTMLTextDocumentType], documentAttributes: nil) print(attributed.string)
Я использую следующее расширение для удаления определенных HTML-элементов:
extension String { func deleteHTMLTag(tag:String) -> String { return self.stringByReplacingOccurrencesOfString("(?i)</?\(tag)\b[^<]*>", withString: "", options: .RegularExpressionSearch, range: nil) } func deleteHTMLTags(tags:[String]) -> String { var mutableString = self for tag in tags { mutableString = mutableString.deleteHTMLTag(tag) } return mutableString } }
это позволяет только удалить
<a>
теги из строки, например:let string = "my html <a href="">link text</a>" let withoutHTMLString = string.deleteHTMLTag("a") // Will be "my html link text"
swift 4:
extension String { func deleteHTMLTag(tag:String) -> String { return self.replacingOccurrences(of: "(?i)</?\(tag)\b[^<]*>", with: "", options: .regularExpression, range: nil) } func deleteHTMLTags(tags:[String]) -> String { var mutableString = self for tag in tags { mutableString = mutableString.deleteHTMLTag(tag: tag) } return mutableString } }