冗談です (いや Unicode 対応の処理系ならこれは真)
UTF-8 - Wikipedia
https://ja.wikipedia.org/wiki/UTF-8
まあ真面目にバイト列でやるなら1コードポイントは
[\x00-\x7f] |
[\xc2-\xdf][\x80-\xbf] |
[\xe0-\xef][\x80-\xbf][\x80-\xbf] |
[\xf0-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]
でいけるんじゃないですか
(ただし符号未割り当て領域とかサロゲートペアとか冗長な符号化とか諸々を無視したマッチ)